▷ Nghiên cứu phát hiện ra rằng ngay cả những hệ thống nhận dạng giọng nói tốt nhất cũng thể hiện sự thiên vị

Bài viết này ban đầu xuất hiện trên Liên doanhBeat và được sao chép với sự cho phép.

Ngay cả nhận dạng giọng nói tự động hiện đại (ASR) thuật toán đấu tranh để nhận ra giọng của người dân từ các khu vực nhất định trên thế giới. Đó là phát hiện hàng đầu của một phương pháp mới học được công bố bởi các nhà nghiên cứu tại Đại học Amsterdam, Viện Ung thư Hà Lan và Đại học Công nghệ Delft, họ phát hiện ra rằng hệ thống ASR dành cho tiếng Hà Lan nhận ra những người nói tiếng Hà Lan ở các nhóm tuổi, giới tính và quốc gia xuất xứ cụ thể tốt hơn những người khác.

Nhận dạng giọng nói đã đi được một chặng đường dài kể từ IBM Máy hộp giày và Thế giới kỳ diệu búp bê Julie. Nhưng bất chấp những tiến bộ đã đạt được nhờ AI, các hệ thống nhận dạng giọng nói ngày nay vẫn chưa hoàn hảo – và tệ nhất là phân biệt đối xử. trong một học được ủy quyền bởi Bưu điện Washingtonloa thông minh phổ biến do Google sản xuất và Amazon khả năng hiểu giọng không phải của người Mỹ ít hơn 30% so với người dùng bản xứ. Gần đây hơn, dự án Xóa giọng nói của Liên minh Công lý Thuật toán thành lập rằng hệ thống nhận dạng giọng nói từ Apple, AmazonGoogle, IBM và Microsoft cùng đạt được tỷ lệ lỗi từ là 35% đối với giọng nói của người Mỹ gốc Phi so với 19% đối với giọng nói của người da trắng.

Các đồng tác giả của nghiên cứu mới nhất này đã tiến hành điều tra xem hệ thống ASR dành cho người Hà Lan nhận dạng giọng nói của các nhóm người nói khác nhau tốt đến mức nào. Trong một loạt thí nghiệm, họ quan sát xem liệu hệ thống ASR có thể đáp ứng được sự đa dạng trong lời nói theo các khía cạnh giới tính, tuổi tác và giọng nói hay không.

Các nhà nghiên cứu bắt đầu bằng việc cho hệ thống ASR nhập dữ liệu mẫu từ CGN, một kho văn bản có chú thích được sử dụng để huấn luyện các mô hình ngôn ngữ AI nhận dạng tiếng Hà Lan. CGN chứa các bản ghi âm được nói bởi những người trong độ tuổi từ 18 đến 65 từ Hà Lan và vùng Flanders của Bỉ, bao gồm các phong cách nói bao gồm tin tức phát sóng và các cuộc trò chuyện qua điện thoại.

CGN có 483 giờ phát biểu khổng lồ được thực hiện bởi 1,185 phụ nữ và 1,678 người đàn ông. Nhưng để làm cho hệ thống trở nên mạnh mẽ hơn nữa, các đồng tác giả đã áp dụng các kỹ thuật tăng cường dữ liệu để tăng tổng số giờ đào tạo dữ liệu lên “gấp chín lần”.

Khi các nhà nghiên cứu chạy hệ thống ASR đã được đào tạo thông qua bộ thử nghiệm bắt nguồn từ CGN, họ nhận thấy rằng hệ thống này nhận dạng giọng nói của phụ nữ đáng tin cậy hơn giọng nói của nam giới bất kể phong cách nói. Hơn nữa, hệ thống gặp khó khăn trong việc nhận dạng giọng nói của người lớn tuổi so với người trẻ hơn, có thể là do nhóm trước đây không được phát âm rõ ràng. Và nó dễ dàng phát hiện lời nói của người bản xứ hơn so với người không phải người bản xứ. Thật vậy, ngôn ngữ bản địa được công nhận kém nhất – của trẻ em Hà Lan – có tỷ lệ lỗi từ cao hơn khoảng 20% so với nhóm tuổi không phải người bản xứ tốt nhất.

Nhìn chung, kết quả cho thấy lời nói của thanh thiếu niên được hệ thống diễn giải chính xác nhất, tiếp theo là của người cao tuổi (trên 65 tuổi) và trẻ em. Điều này đúng ngay cả với những người không phải là người bản xứ nhưng rất thành thạo từ vựng và ngữ pháp tiếng Hà Lan.

Như các nhà nghiên cứu đã chỉ ra, mặc dù ở một mức độ nào đó không thể loại bỏ sự thiên vị xâm nhập vào các tập dữ liệu, nhưng có một giải pháp là giảm thiểu sự thiên vị này ở cấp độ thuật toán.

“[We recommend] xác định vấn đề, phát triển thành phần nhóm và quy trình thực hiện từ quan điểm dự đoán, chủ động phát hiện và phát triển các chiến lược giảm thiểu thành kiến tình cảm [to address bias in ASR systems]”, các nhà nghiên cứu viết trong một bài báo mô tả chi tiết công việc của họ. “Chiến lược giảm thiểu sai lệch trực tiếp liên quan đến việc đa dạng hóa và hướng tới sự thể hiện cân bằng trong tập dữ liệu. Chiến lược giảm thiểu thành kiến gián tiếp đề cập đến thành phần nhóm đa dạng: sự đa dạng về độ tuổi, khu vực, giới tính, v.v. cung cấp thêm lăng kính để phát hiện thành kiến tiềm ẩn trong thiết kế. Cùng nhau, họ có thể giúp đảm bảo một môi trường phát triển toàn diện hơn cho ASR.”

cả cứng cứu dàng giống hệ hiện ngay nghiên Nhân nhất những NOI phát rằng su the thiên thống tốt VI

Nghiên cứu phát hiện ra rằng ngay cả những hệ thống nhận dạng giọng nói tốt nhất cũng thể hiện sự thiên vị

Khuyến Khích: