Tin tức và phân tích của tất cả các thiết bị di động

Hướng dẫn từng bước dành cho các nhà khoa học dữ liệu

Anaconda là một bản phân phối Python được sử dụng cho máy học, khoa học dữ liệu và môi trường phát triển tích hợp. Tuy nhiên, các dịch vụ của nó không chỉ giới hạn ở Python.

Nó hỗ trợ các thư viện nguồn mở như TensorFlow, PyTorch, SciPy, scikit-learn, v.v., được sử dụng cho khoa học dữ liệu và học máy.

Chúng ta hãy xem một số công cụ nguồn mở được Anaconda hỗ trợ và sử dụng cho máy tính khoa học:

  • OpenCV – Đây là thư viện máy học và thị giác máy tính dành cho C++, Java và Python với sự hỗ trợ cho tất cả các hệ điều hành chính.
  • Tensorflow – Một nền tảng học máy toàn diện để đào tạo các mô hình ML với API cho Java, C++, Javascript và Python.
  • Bo mạch – Đây là thư viện trực quan hóa dữ liệu dành cho trình duyệt web cung cấp các công cụ và tiện ích để trực quan hóa tốt hơn các chi tiết cụ thể về dữ liệu của bạn.
  • Spyder – Một IDE đi kèm với Anaconda, cung cấp một hệ sinh thái phát triển hoàn chỉnh cho các nhà khoa học dữ liệu và người học máy.
  • Conda – Nó cũng cung cấp một trình quản lý gói có tên conda được sử dụng để quản lý và cài đặt các gói cho nhiều ngôn ngữ lập trình khác nhau như Python, R và Julia. Python, nếu được cài đặt độc lập, sẽ bao gồm một trình quản lý gói có tên là pip, một giải pháp thay thế cho conda. Trình quản lý gói pip nhận các gói từ chỉ mục gói python – nó giống như npm nhưng dành cho python.

Trường hợp sử dụng Anaconda

Điều làm cho Anaconda trở nên giàu có là sự hỗ trợ cho nhiều gói khác nhau có thể được sử dụng trong các lĩnh vực sau:

Đang xử lý hình ảnh

Với sự hỗ trợ cho các thư viện như OpenCV và scikit-image, anaconda chứng tỏ là một gói mạnh mẽ cho các dự án xử lý hình ảnh và thị giác máy tính. Với các thư viện nguồn mở này, bạn có thể thao tác với hình ảnh, phân tích, xử lý, dọn dẹp, khôi phục và hơn thế nữa.

Phân tích dữ liệu

Hệ sinh thái thư viện và công cụ mạnh mẽ của Anaconda có thể được sử dụng để thao tác dữ liệu, xử lý trước dữ liệu và cung cấp những hiểu biết sâu sắc có thể hành động về dữ liệu.

Các thư viện như Pandas và Numpy cho phép các nhà khoa học dữ liệu phân tích, làm sạch và thao tác dữ liệu theo cách có cấu trúc và được kiểm soát.

Trực quan hóa dữ liệu

Dự án Anaconda có tên Holoviz là một công cụ trực quan hóa dữ liệu dựa trên Python bao gồm Panel, hvPlot, Datashader và nhiều gói Python khác giúp trực quan hóa dữ liệu mạnh mẽ và chính xác hơn.

Trực quan hóa dữ liệu rất hữu ích trong việc truyền đạt ý tưởng và khái niệm một cách trực quan bằng dữ liệu. Trực quan hóa hiệu quả giúp cải thiện việc ra quyết định bằng cách truyền tải các mẫu trong dữ liệu.

học máy

Tensorflow, Pytorch và scikit-learn là những thư viện được Anaconda cung cấp cho các dự án học máy.

Xử lý ngôn ngữ tự nhiên

Đối với các nhà khoa học và lập trình viên NLP, Anaconda cung cấp môi trường phù hợp để thử nghiệm các thuật toán và chiến lược khác nhau. Các thư viện NLP được Anaconda hỗ trợ là NTLK, gensim và spaCy.

Tóm lại, Anaconda là một gói hoặc bản phân phối chứa các công cụ và thư viện hữu ích trong khoa học dữ liệu và học máy.

Như đã nói, chúng ta hãy xem quá trình cài đặt Anaconda.

Cài đặt Anaconda

Điều kiện tiên quyết

tối thiểu 5 GB không gian đĩa

Anaconda có thể được cài đặt bằng cách tải xuống trình cài đặt, về mặt kỹ thuật là một tập lệnh bash, xác minh phím tắt và chạy nó.

# 1. Tải xuống tập lệnh

Bạn có thể tải xuống trình cài đặt từ trang web chính thức của Anaconda và chạy nó. Tuy nhiên, nếu bạn muốn tải xuống phiên bản cũ hơn, bạn có thể thực hiện bằng cách “curl”. Các tập lệnh bash cho tất cả các bản phát hành Anaconda có thể được tìm thấy ở đây.

curl https://repo.anaconda.com/archive/Anaconda3-2023.03-1-Linux-x86_64.sh

#2. Xác minh băm Sha256

Sau khi thực hiện xong việc đó, bạn sẽ cần xác minh hàm băm của tệp bằng hàm băm được liệt kê ở đây. Xác minh băm thực sự quan trọng để đảm bảo rằng tệp chưa bị sửa đổi và ngăn chặn tập lệnh độc hại thực thi trên hệ thống của bạn.

Để làm điều này, bạn cần có tên của tập lệnh bash. Bạn có thể lấy tên của tập lệnh bằng lệnh ls.

Nhận phím tắt bằng lệnh sau:

sha256sum your_bash_script_filename

Kiểm tra hàm băm bạn nhận được so với hàm băm được liệt kê trên trang web Anaconda để biết loại cài đặt cụ thể của bạn. Nếu chúng phù hợp, bạn có thể đi!

#3. Thực thi tập lệnh bash

Sau đó chạy tập lệnh bash bằng lệnh sau:

bash bash_script_name.sh

Sau đó, bạn sẽ được yêu cầu đồng ý với giấy phép và thỏa thuận của họ. Nhập “có” để tiếp tục. Sau đó nó sẽ yêu cầu bạn xác minh vị trí cài đặt.

Quá trình cài đặt sẽ bắt đầu. Sau khi thành công, bạn sẽ nhận được thông báo khởi tạo anaconda bằng conda init. Nhập “có” nếu bạn muốn làm điều này.

#4. Kích hoạt Anaconda

Nếu sau này bạn muốn kích hoạt anaconda, bạn có thể sử dụng lệnh sau:

source <conda installation path>/bin/activate

Và sau đó chạy, conda init. Sau đó, bạn cần phải khởi động lại thiết bị đầu cuối.

#5. Thêm PATH vào cài đặt Anaconda

Đồng thời thêm đường dẫn đến cài đặt Anaconda theo cách thủ công nếu bạn chọn không khởi tạo conda khi cài đặt. Bạn có thể thực hiện việc này bằng cách thêm dòng sau vào tệp ~/.bashrc của mình. Chỉ cần thay thế bằng đường dẫn cài đặt thực tế của bạn.

export PATH=<anaconda installation path>/bin:$PATH

Đó là nó; bạn đã cài đặt thành công Anaconda trên Ubuntu! Bạn có thể xác minh cài đặt bằng cách làm theo các bước sau.

#6. Xác minh cài đặt

Khởi động lại thiết bị đầu cuối và gõ danh sách conda. Lệnh này sẽ liệt kê tất cả các gói hiện được cài đặt trên hệ thống của bạn.

conda list

Hoặc bạn có thể xác minh phiên bản Python được cài đặt bởi Anaconda.

python --version

Định cấu hình môi trường

Môi trường Anaconda là một cách tuyệt vời để tách biệt các cài đặt Python khác nhau và các gói khác được yêu cầu cụ thể cho một dự án cụ thể. Mỗi môi trường giống như một chiếc hộp biệt lập có phiên bản Python riêng và một bộ gói thích hợp.

# 1. Tạo môi trường

Khi kích hoạt Anaconda lần đầu tiên, bạn đang ở trong môi trường cơ sở, được đánh dấu bằng từ khóa (cơ sở) ngay trước đường dẫn đầu cuối.

Để tạo môi trường mới, hãy sử dụng lệnh sau và chỉ cần thay thế <> bằng tên bạn muốn môi trường này nhận ra:

conda create --name <<env_name>>

Trong quá trình tạo môi trường, bạn sẽ thấy kết quả đầu ra sau.

Để sử dụng một môi trường cụ thể, bạn phải chạy kích hoạt conda <> trong đó < là tên của môi trường.

Bạn sẽ thấy tên môi trường ngay trước đường dẫn đầu cuối.

#2. Tạo môi trường với các gói

Khi tạo môi trường, bạn cũng có thể chỉ định phiên bản Python sẽ được sử dụng trong môi trường đó.

conda create --name <<env_name>> python=<<python_version>>

Nếu bạn muốn sử dụng phiên bản python mới nhất, chỉ cần làm:

conda create --name <<env_name>> python

#3. Danh sách tất cả các môi trường

Để liệt kê tất cả các môi trường, nhập lệnh sau vào terminal:

conda env list

những từ cuối

Anaconda đã được chứng minh là có lợi cho điện toán khoa học vì nó cung cấp khả năng quản lý môi trường, các gói được cài đặt sẵn và một hệ sinh thái hoàn chỉnh thân thiện với nhà phát triển.

Các nhà phân tích và nhà khoa học dữ liệu được hưởng lợi từ việc này bằng cách chỉ tập trung vào phân tích và nghiên cứu dữ liệu, thay vì lo lắng về các chi tiết kỹ thuật của phần mềm.

Bạn muốn theo đuổi sự nghiệp về khoa học dữ liệu và học máy? Dưới đây là các tài nguyên về khoa học dữ liệu và máy học để giúp bạn bắt đầu hành trình của mình.

Mục lục