Tin tức và phân tích của tất cả các thiết bị di động

Trò chuyệnGPT-4 hiệu suất giảm và ChatGPT-3.5 cải thiện?

Trò chuyệnGPT-4 so với ChatGPT 3-5

Người dùng chatbot thông minh nhân tạo của OpenAI dưới dạng Trò chuyệnGPT-4 vs ChatGPT-3.5 có thể đã nhận thấy những thay đổi kể từ khi được giới thiệu. Bây giờ các nhà nghiên cứu từ Đại học Stanford và UC Berkeleyđã điểm chuẩn GPT-4 hiệu suất vào tháng 3 năm 2023 và hiệu suất của mô hình vào tháng 6 năm 2023 cung cấp cái nhìn sâu sắc về những thay đổi trong hiệu suất của AI.

Khi trí tuệ nhân tạo (AI) mở rộng tầm nhìn của nó, ảnh hưởng của Mô hình ngôn ngữ lớn (LLM), chẳng hạn như GPT-3.5 và GPT-4, ngày càng chiếm ưu thế. Tuy nhiên, mặc dù những gã khổng lồ tính toán này đã xác định lại ranh giới của AI, tuy nhiên, cách chúng phát triển theo thời gian có thể là một câu đố đối với cả người dùng và nhà phát triển.

Những thay đổi về hiệu suất ChatGPT

Thông thường, những cập nhật nhỏ trong LLM có thể gây ra những thay đổi đáng kể về hiệu suất. Các nhà nghiên cứu từ Đại học Stanford và UC Berkeley đã tiến hành một nghiên cứu so sánh về GPT-3.5 và GPT-4 phiên bản từ tháng 3 năm 2023 và tháng 6 năm 2023. Họ xem xét kỹ lưỡng hiệu suất của mình trong bốn nhiệm vụ đa dạng: giải quyết vấn đề toán học, xử lý các truy vấn nhạy cảm, tạo mã và suy luận trực quan. Kết quả thật thú vị: ngay cả trong một khoảng thời gian ngắn, hiệu suất của LLM cũng có thể thay đổi đáng kể.

Các bản cập nhật được giới thiệu cho LLM được cho là sẽ cải thiện chức năng của chúng, nhưng thực tế thì phức tạp hơn. Ví dụ: GPT-4Khả năng nhận biết số nguyên tố của anh đã giảm từ con số ấn tượng 97.6% chính xác vào tháng 3 năm 2023 chỉ ở mức 2.4% vào tháng 6 năm 2023. Ngược lại, GPT-3.5 đã cải thiện đáng kể hiệu suất của nó trong cùng một nhiệm vụ trong giai đoạn này. Do đó, tác động của các bản cập nhật trên các mô hình này là không thể dự đoán được, điều này nhấn mạnh sự cần thiết phải giám sát một cách thận trọng.

cập nhật LLM

Bản chất không chắc chắn của các bản cập nhật LLM đặt ra thách thức đáng kể cho việc tích hợp chúng vào các quy trình công việc lớn hơn. Một sự thay đổi đột ngột trong phản hồi của LLM đối với lời nhắc có thể làm hỏng quy trình xuôi dòng và làm phức tạp việc tái tạo kết quả. Việc điều hướng tính không thể đoán trước này là một thách thức đáng kể đối với các nhà phát triển cũng như người dùng.

Nghiên cứu này nhấn mạnh sự cần thiết phải theo dõi liên tục chất lượng LLM. Vì các bản cập nhật nhằm nâng cao các khía cạnh nhất định của mô hình có thể vô tình ảnh hưởng đến hiệu suất của nó ở những nơi khác, điều quan trọng là phải luôn cập nhật về khả năng của các mô hình này.

Trò chuyệnGPT-4 vs ChatGPT-3.5

Nghiên cứu hiện tại không giám sát đầy đủ sự thay đổi theo chiều dọc của các dịch vụ LLM được sử dụng rộng rãi như GPT-4 và GPT-3.5 tăng ca. Việc giám sát sự thay đổi hiệu suất này đang nổi lên như một khía cạnh quan trọng của việc triển khai các dịch vụ máy học trong bối cảnh công nghệ đang phát triển nhanh chóng.

Hiệu suất của LLM có thể thay đổi đáng kể giữa các nhiệm vụ khác nhau. Ví dụ: vào tháng 6 năm 2023, GPT-4 đã miễn cưỡng trả lời các truy vấn nhạy cảm hơn so với tháng 3 và cả GPT-4 và GPT-3.5 cho thấy số lượng lỗi định dạng tăng lên trong quá trình tạo mã.

Hành vi của LLM như GPT-3.5 và GPT-4 có thể thay đổi đáng kể trong một khoảng thời gian ngắn. Khi các mô hình này tiếp tục phát triển, việc hiểu rõ hiệu suất của chúng trong các nhiệm vụ khác nhau và đánh giá tác động của các bản cập nhật đối với khả năng của chúng trở nên quan trọng hơn. Nhu cầu hiện tại là theo dõi và đánh giá liên tục các mô hình này để đảm bảo tính ổn định và độ tin cậy của chúng. Đọc toàn bộ bài báo trên arXiv trang web để biết tất cả các chi tiết và thử nghiệm được thực hiện trong Trò chuyệnGPT-4 vs ChatGPT-3.5 cuộc thách đấu.

nguồn : TPU : arXiv

Tuyên bố từ chối trách nhiệm: Một số bài viết của chúng tôi bao gồm các liên kết liên kết. Nếu bạn mua thứ gì đó thông qua một trong những liên kết này, APS Blog có thể kiếm được hoa hồng liên kết. Tìm hiểu về Chính sách tiết lộ của chúng tôi.