Tin tức và phân tích của tất cả các thiết bị di động

Chạy Llama 2 13B trên GPU Intel ARC, iGPU và CPU

Chạy Llama 2 13B trên GPU Intel ARC

Trong thế giới trí tuệ nhân tạo ngày càng phát triển, sự ra mắt gần đây của Meta Llama 2 mô hình ngôn ngữ lớn đã thu hút sự quan tâm của những người đam mê công nghệ. Một cuộc trình diễn hấp dẫn đã được tiến hành, giới thiệu việc chạy của Llama 2 13B trên GPU Intel ARC, iGPU và CPU. Phần trình diễn này cung cấp cái nhìn thoáng qua về tiềm năng của các thiết bị này khi kết hợp với mô hình ngôn ngữ tiên tiến này.

lạc đà không bướu 2 là một mô hình ngôn ngữ nguồn mở do Meta đưa ra. Nó có nhiều phiên bản khác nhau, với một số phiên bản chuyên dùng để trò chuyện. Nó được đào tạo dựa trên dữ liệu công khai và được tinh chỉnh cho các mục đích cụ thể. Hiệu suất của nó rất đáng chú ý và được thiết kế để trở thành công cụ giúp các nhà phát triển đổi mới trong các dự án AI. Triết lý cơ bản của Meta là thúc đẩy sự hợp tác cởi mở trong AI.

Đặc điểm của La Mã 2

  • khả dụng:
    • lạc đà không bướu 2 là một mô hình ngôn ngữ nguồn mở.
    • Bất kỳ ai, dù là cá nhân, người sáng tạo, nhà nghiên cứu hay doanh nghiệp, đều có thể truy cập miễn phí.
    • Đó là một phần trong nỗ lực của Meta nhằm khuyến khích sự cởi mở trong lĩnh vực trí tuệ nhân tạo.
    • Mục tiêu là cho phép càng nhiều người càng tốt để thử nghiệm, đổi mới và cải tiến mô hình.
  • Phiên bản và mẫu mã:
    • lạc đà không bướu 2 không chỉ là một mô hình; đó là một bộ sưu tập các mô hình.
    • Những mô hình này có kích thước khác nhau, với kích thước nhỏ nhất có 7 tỷ tham số và lớn nhất có 70 tỷ tham số.
    • Một phiên bản cụ thể, Llama-2-chat, được thiết kế đặc biệt cho các cuộc trò chuyện.
  • Đào tạo và Tinh chỉnh:
    • Quá trình đào tạo ban đầu của Llama 2 dữ liệu được sử dụng từ phạm vi công cộng.
    • Đối với phiên bản được tối ưu hóa cho trò chuyện (Llama-2-chat), đào tạo bổ sung đã được thực hiện. Quá trình đào tạo này được gọi là tinh chỉnh có giám sát.
    • Quá trình tinh chỉnh cũng liên quan đến các kỹ thuật từ Học tăng cường, sử dụng các phương pháp như lấy mẫu từ chối và tối ưu hóa chính sách gần nhất (PPO).
  • Hiệu suất:
    • So với các mô hình trò chuyện mã nguồn mở khác, Llama 2 và các biến thể của nó đều vượt trội trong hầu hết các bài kiểm tra điểm chuẩn.
    • Nó có khả năng có thể thay thế một số mô hình độc quyền.
    • Mô hình đã được đánh giá để đảm bảo cung cấp các phản hồi hữu ích và an toàn.
  • Trường hợp sử dụng:
    • Mục tiêu của Meta khi giải phóng Llama 2 là cung cấp cho các nhà phát triển một công cụ AI mạnh mẽ.
    • Công cụ này có thể trợ giúp trong nhiều dự án liên quan đến AI, cho phép họ thử nghiệm, đổi mới và mở rộng quy mô ý tưởng của mình một cách có trách nhiệm.
  • triết lý:
    • Thả lạc đà không bướu 2 phù hợp với tầm nhìn của Meta về việc có một hệ sinh thái AI cởi mở hơn.
    • Meta tin tưởng vào sự hợp tác và mong muốn có một cộng đồng rộng lớn gồm các nhà phát triển và nhà nghiên cứu cùng làm việc trong lĩnh vực AI.

Bạn có thể nộp đơn xin tải La Mã mới nhất 2 LLM trên trang web chính thức của Meta AI.

Chạy Llama 2 trên Intel ARC GPU, iGPU và CPU

Phần trình diễn bên dưới liên quan đến việc chạy Llama 2 mô hình, với 13 tỷ đáng kinh ngạc và 7 tỷ thông số trên GPU Intel Arc. Điều này đạt được bằng cách sử dụng thư viện Lava CPP và Thư viện CL Blast, cả hai đều là công cụ giúp tăng tốc phép nhân ma trận và các phép toán khác. Tuy nhiên, điều quan trọng cần lưu ý là phương pháp này không được tối ưu hóa hoàn toàn cho các thiết bị Intel Arc, nghĩa là nó không khai thác hết khả năng của chúng. Mặc dù vậy, tốc độ và khả năng sử dụng của quá trình này rất đáng khen ngợi.

Các bài viết khác bạn có thể quan tâm về chủ đề của Llama 2:

Phải thừa nhận rằng quá trình biên dịch thư viện từ nguồn rất dài và tẻ nhạt, nhưng kết quả được thể hiện rõ trên các thiết bị Intel Arc, GPU tích hợp Intel và CPU. Công cụ cmake, một thành phần quan trọng cho quá trình này, cần được cài đặt trên hệ thống. Ngoài ra, Thư viện CL Blast, nơi cung cấp các chức năng cho toán học cấp tốc, cần được cài đặt và xây dựng. Thư viện này yêu cầu OpenCL, phải được cung cấp trong quá trình xây dựng.

Sau khi Thư viện CL Blast được xây dựng, các tệp CL blast.dll và GL blast.lib sẽ được tạo. Những tệp này sau đó được sử dụng để biên dịch thư viện Llama.cpp. Các tệp thực thi cuối cùng được tạo sẽ được sử dụng để chạy các mô hình Llama trên GPU Arc và trên GPU tích hợp. Điều quan trọng là cung cấp đường dẫn nền tảng tới biến môi trường để chương trình có thể định vị nó.

Mô hình Llama 13 tỷ 8-bit được lượng tử hóa, có thể chạy trên GPU và đưa ra dự đoán nhanh. lạc đà không bướu 7 mô hình tỷ cũng có thể chạy trên GPU và mang lại kết quả nhanh hơn. Mô hình này cũng có thể chạy trên GPU tích hợp và mặc dù tốc độ chậm hơn nhưng nó vẫn có thể sử dụng được. Việc chạy mô hình trên CPU sẽ dẫn đến hoạt động của CPU cao nhưng đây vẫn là một lựa chọn khả thi.

Cuộc khám phá này về việc chạy Llama 2 13B trên GPU Intel ARC, iGPU và CPU là minh chứng cho những tiến bộ thú vị trong lĩnh vực trí tuệ nhân tạo cũng như tiềm năng của các thiết bị này cũng như khả năng chạy cục bộ các mô hình ngôn ngữ lớn mạnh mẽ này trên một máy tính giá cả phải chăng.

lạc đà không bướu 2 so sánh và các bài viết về mã hóa và thiết lập mô hình ngôn ngữ lớn cục bộ:

Tuyên bố từ chối trách nhiệm: Một số bài viết của chúng tôi bao gồm các liên kết liên kết. Nếu bạn mua thứ gì đó thông qua một trong những liên kết này, APS Blog có thể kiếm được hoa hồng liên kết. Tìm hiểu về Chính sách tiết lộ của chúng tôi.