▷ Nguồn dữ liệu vẫn là trở ngại lớn cho AI

Theo nghiên cứu Trạng thái AI và Học máy của Appen, được công bố trong tuần này, các doanh nghiệp tiếp tục gặp khó khăn trong việc thu thập đủ dữ liệu sạch, để hỗ trợ các nỗ lực học máy và AI của họ.
Theo khảo sát của Appen trên 504 lãnh đạo doanh nghiệp, tìm nguồn dữ liệu là giai đoạn sử dụng nhiều tài nguyên, tốn thời gian và đầy thách thức nhất trong bốn bước của AI, bao gồm tìm nguồn dữ liệu, chuẩn bị dữ liệu, đào tạo và triển khai mô hình cũng như đánh giá mô hình do con người hướng dẫn. và các kỹ sư.
Theo Appen, quản lý dữ liệu vẫn là thách thức chính đối với AI.
Quản lý dữ liệu được 41% số người được hỏi làm việc trong vòng lặp AI coi là thách thức lớn nhất của họ.
Ngoài ra, cuộc khảo sát cho thấy 93% các tổ chức đồng ý mạnh mẽ hoặc phần nào rằng tất cả các sáng kiến AI nên lấy đạo đức làm “nền tảng” của họ.

Dữ liệu là nền tảng của một cỗ máy. Không có nó, bạn không thể xây dựng bất kỳ dự án nào liên quan đến AI. Nhưng các doanh nghiệp đang gặp khó khăn khi tìm nguồn cung ứng dữ liệu, chủ yếu là về mặt ngân sách. Phân tích giờ đây không chỉ được sử dụng bởi các tập đoàn lớn, giàu có. Nó hiện được sử dụng rộng rãi và các doanh nghiệp đang kiếm được nhiều lợi nhuận từ nó. Các tổ chức có thể đặt đường cơ sở, điểm chuẩn và mục tiêu bằng cách sử dụng dữ liệu tốt để tiếp tục phát triển.

Nguồn dữ liệu chiếm hơn 30% ngân sách AI của tổ chức

Theo Appen Trạng thái của AI và Machine Learning báo cáo được công bố trong tuần này, các doanh nghiệp vẫn gặp khó khăn trong việc có được dữ liệu sạch, đầy đủ để hỗ trợ các nỗ lực về AI và học máy của họ.

Theo khảo sát của Appen với 504 lãnh đạo và kỹ sư doanh nghiệp, trong bốn bước của AI—tìm nguồn dữ liệu, chuẩn bị dữ liệu, đào tạo và triển khai mô hình cũng như đánh giá mô hình do con người hướng dẫn—tìm nguồn dữ liệu là bước tốn nhiều tài nguyên, thời gian và giai đoạn khó khăn.

Khảo sát của Appen cho biết nguồn dữ liệu chiếm 34% ngân sách AI điển hình của một tổ chức, so với 24% dành cho chuẩn bị dữ liệu, 24% dành cho thử nghiệm và triển khai mô hình và 15% dành cho đánh giá mô hình. Nghiên cứu được thực hiện bởi Harris Poll và bao gồm những người ra quyết định về CNTT, lãnh đạo doanh nghiệp và nhà quản lý từ Hoa Kỳ, Anh, Ireland và Đức.

Nguồn dữ liệu chiếm 34% ngân sách AI thông thường của tổ chức, so với 24% dành cho việc chuẩn bị dữ liệu

Việc tìm nguồn dữ liệu chiếm khoảng 26% công việc của tổ chức, so với 24% dành cho chuẩn bị dữ liệu, 23% dành cho kiểm tra và đánh giá mô hình và 17% dành cho triển khai mô hình. Cuối cùng, so với đánh giá mô hình (41%), thử nghiệm và triển khai mô hình (38%) và chuẩn bị dữ liệu (34%), 42% kỹ sư coi việc tìm nguồn dữ liệu là giai đoạn khó khăn nhất trong vòng đời AI.

Bất chấp những khó khăn, các tổ chức đang quản lý. Theo Appen, 4/5 (81%) người tham gia khảo sát cảm thấy rằng họ có quyền truy cập vào đủ dữ liệu để hỗ trợ các hoạt động AI của mình. Đây có thể là chìa khóa dẫn đến thành công đó: Đại đa số (88%) đang nâng cao dữ liệu của họ bằng cách sử dụng các nhà cung cấp dữ liệu đào tạo AI bên thứ ba (chẳng hạn như Appen).

Tuy nhiên, tính xác thực của dữ liệu đang bị nghi ngờ. Theo nghiên cứu của Appen, chỉ 20% số người tham gia khảo sát khẳng định có tỷ lệ chính xác dữ liệu cao hơn 80%. Chỉ một 6% người dân, hoặc khoảng 1/20, cho rằng độ chính xác dữ liệu của họ là 90% hoặc cao hơn. Nói cách khác, đối với hơn 80% doanh nghiệp, 1/5 dữ liệu là không chính xác.

Với suy nghĩ đó, có lẽ không có gì đáng ngạc nhiên khi theo khảo sát của Appen, gần một nửa (46%) số người được hỏi đồng tình rằng độ chính xác của dữ liệu là quan trọng, “nhưng chúng tôi có thể giải quyết vấn đề đó”. Chỉ một 2% số người được hỏi không đồng ý rằng nhu cầu quan trọng về độ chính xác của dữ liệu, trong khi 51% thì có.

Chỉ 20% số người tham gia khảo sát khẳng định có tỷ lệ chính xác dữ liệu cao hơn 80%

Wilson Pang, giám đốc công nghệ tại Appen, dường như có quan điểm khác về chất lượng dữ liệu so với 48% khách hàng của ông không nhìn nhận như vậy.

Pang cho biết trong báo cáo: “Độ chính xác của dữ liệu rất quan trọng đối với sự thành công của các mô hình AI và ML, vì dữ liệu phong phú về chất lượng mang lại kết quả đầu ra mô hình tốt hơn cũng như quá trình xử lý và ra quyết định nhất quán”. “Để có kết quả tốt, bộ dữ liệu phải chính xác, toàn diện và có thể mở rộng.”

Cho phép tuân thủ dữ liệu khách hàng bằng tính năng lưu giữ dựa trên danh tính

Sự thành công của AI giờ đây phụ thuộc nhiều vào việc tìm nguồn cung ứng, thu thập, quản lý và ghi nhãn dữ liệu hiệu quả hơn là vào các mô hình khoa học dữ liệu và máy học hợp lý do sự phát triển của deep learning và AI tập trung vào dữ liệu. Điều này đặc biệt đúng với các kỹ thuật học chuyển giao ngày nay, trong đó những người thực hành AI loại bỏ phần đầu của mô hình thị giác máy tính hoặc ngôn ngữ được đào tạo trước khá lớn và chỉ đào tạo lại một số lớp bằng dữ liệu của riêng họ.

Dữ liệu phong phú cũng có thể hỗ trợ ngăn chặn sự thiên vị không chủ ý xâm nhập vào các mô hình AI và nói chung, ngăn AI tạo ra các kết quả không mong muốn. Ilia Shifrin, giám đốc cấp cao về chuyên gia AI tại Appen, tuyên bố rằng điều này đặc biệt đúng với các mô hình ngôn ngữ lớn.

Sự thành công của AI giờ đây phụ thuộc nhiều vào việc tìm nguồn cung ứng, thu thập, quản lý và ghi nhãn dữ liệu hiệu quả hơn là vào các mô hình khoa học dữ liệu và máy học hợp lý

“Với sự gia tăng của các mô hình ngôn ngữ lớn (LLM) được đào tạo về dữ liệu thu thập dữ liệu web đa ngôn ngữ, các công ty đang phải đối mặt với một thách thức khác. Shifrin cho biết, những mô hình này thường thể hiện hành vi không mong muốn do có quá nhiều ngôn ngữ độc hại, cũng như những thành kiến về chủng tộc, giới tính và tôn giáo trong cơ sở đào tạo”.

Mặc dù có một số giải pháp (sửa đổi chế độ đào tạo, lọc dữ liệu đào tạo và đầu ra của mô hình cũng như học hỏi từ đầu vào và thử nghiệm của con người), Shifrin lập luận rằng cần phải nghiên cứu bổ sung để thiết lập một tiêu chuẩn tốt cho các quy trình LLM lấy con người làm trung tâm và các tiêu chuẩn đánh giá mô hình. .

Học máy giúp cuộc sống của các nhà khoa học dữ liệu dễ dàng hơn

Theo Appen, việc quản lý dữ liệu tiếp tục là trở ngại hàng đầu đối với AI. Theo cuộc thăm dò, 41% những người làm việc trong vòng lặp AI coi việc quản lý dữ liệu là trở ngại lớn của họ. Vị trí thứ tư thuộc về thiếu dữ liệu, vốn được 30% số người được hỏi coi là rào cản lớn nhất đối với sự thành công của AI.

Nhưng các doanh nghiệp đang xử lý việc tìm nguồn cung ứng dữ liệu như thế nào?

Tuy nhiên, có một số tin tức tích cực: Các doanh nghiệp đang dành ít thời gian hơn cho việc tổ chức và duy trì dữ liệu của mình. Theo Appen, con số này năm nay chỉ hơn 47% so với 53% của năm trước.

77% tổ chức đào tạo lại mô hình của họ hàng tháng hoặc hàng quý

Công ty cho biết: “Với phần lớn người được hỏi sử dụng các nhà cung cấp dữ liệu bên ngoài, có thể suy ra rằng bằng cách thuê ngoài nguồn cung cấp và chuẩn bị dữ liệu, các nhà khoa học dữ liệu đang tiết kiệm thời gian cần thiết để quản lý, làm sạch và gắn nhãn dữ liệu của họ đúng cách”.

Nhưng có lẽ các công ty không nên giảm quy trình chuẩn bị và tìm nguồn cung ứng dữ liệu của mình, do tỷ lệ dữ liệu không chính xác tương đối cao (dù là bên trong hay bên ngoài). Khi nói đến việc xây dựng và duy trì quy trình AI, có một số nhu cầu cạnh tranh, trong đó nhu cầu thuê các chuyên gia dữ liệu có trình độ là một nhu cầu hàng đầu khác được Appen lưu ý. Tuy nhiên, các doanh nghiệp nên tiếp tục gây áp lực lên nhóm của mình để nhấn mạnh giá trị của chất lượng dữ liệu cho đến khi đạt được tiến bộ đầy đủ trong việc quản lý dữ liệu.

Khoa học dữ liệu chinh phục hành trình của khách hàng và kênh bán hàng

Ngoài ra, cuộc thăm dò còn tiết lộ rằng 93% doanh nghiệp đồng tình mạnh mẽ hoặc phần nào rằng AI có đạo đức sẽ đóng vai trò là “nền tảng” cho tất cả các sáng kiến AI. Theo Mark Brayan, Giám đốc điều hành của Appen, đó là một khởi đầu đầy hứa hẹn, nhưng vẫn còn nhiều việc phải làm.

Brayan giải thích: “Vấn đề là nhiều người đang phải đối mặt với những thách thức khi cố gắng xây dựng AI tuyệt vời với bộ dữ liệu kém và điều đó đang tạo ra rào cản đáng kể để đạt được mục tiêu của họ”.

7% tổ chức báo cáo có ngân sách AI trên $5 triệu, so với 9% năm ngoái

Theo phân tích của Appen, dữ liệu nội bộ được thu thập đặc biệt tiếp tục chiếm phần lớn bộ dữ liệu của doanh nghiệp được sử dụng cho AI, chiếm 38% đến 42% dữ liệu. Điều đáng ngạc nhiên là dữ liệu tổng hợp lại chiếm tỷ lệ lớn, chiếm 24% đến 38% dữ liệu trong các tổ chức, trong khi dữ liệu được gắn nhãn trước—thường từ nhà cung cấp dịch vụ dữ liệu—chiếm 23% đến 31%.

Đặc biệt là dữ liệu tổng hợp, mà 97% số người trả lời khảo sát của Appen cho biết họ sử dụng “trong việc phát triển các tập dữ liệu đào tạo toàn diện”, có khả năng làm giảm sự xuất hiện sai lệch trong các dự án AI nhạy cảm.

Một số điểm chính từ báo cáo cho thấy:

77% tổ chức đào tạo lại mô hình của họ hàng tháng hoặc hàng quý;
55% tổ chức của Hoa Kỳ khẳng định họ đi trước các đối thủ cạnh tranh so với 44% ở Châu Âu;
42% tổ chức báo cáo việc triển khai AI “rộng rãi” so với 51% trong báo cáo Trạng thái AI năm 2021;
7% tổ chức báo cáo có ngân sách AI trên $5 triệu, so với 9% năm ngoái.

Đọc báo cáo Trạng thái AI và Machine Learning của Appen đây.

cho DU la liệu lớn ngại nguồn Trò van

Nguồn dữ liệu vẫn là trở ngại lớn cho AI

Nguồn dữ liệu chiếm hơn 30% ngân sách AI của tổ chức

Nhưng các doanh nghiệp đang xử lý việc tìm nguồn cung ứng dữ liệu như thế nào?

Khuyến Khích: