Tin tức và phân tích của tất cả các thiết bị di động

Những chiếc tai nghe được hỗ trợ bởi AI này mang lại sự yên bình cho các cuộc gọi Zoom ồn ào

Bằng cách loại bỏ tiếng ồn xung quanh và đảm bảo rằng micrô của nó chỉ thu được giọng nói của người gọi, tai nghe không dây hỗ trợ AI mới được gọi là ClearBuds cung cấp một câu trả lời tiềm năng vì không có gì tệ hơn việc một thành viên trong nhóm gọi đến một hội nghị Zoom từ một quán cà phê đông đúc.

Nhiều thiết bị hiện nay sử dụng công nghệ tăng cường giọng nói, bao gồm cả tai nghe không dây như AppleAirPods Pro và các dịch vụ hội nghị từ xa như Zoom và Google Meet. Với các thuật toán xử lý tín hiệu thông thường hoặc các kỹ thuật học máy mới hơn, mục tiêu là loại bỏ mọi tiếng ồn hoặc biến dạng không mong muốn khỏi âm thanh đến và cải thiện độ rõ nét của giọng nói của người nói.

“ClearBuds ra đời vì sự cần thiết”

ClearBuds hoạt động bằng cách sử dụng thông tin âm thanh có thể phân biệt giữa các loại tiếng ồn khác nhau, chẳng hạn như giọng nói hoặc âm thanh giao thông hoặc tín hiệu không gian giúp tách các nguồn âm thanh. Việc thực hiện đồng thời cả hai việc với ngân sách tính toán đủ nhỏ để chạy trên các thiết bị cấp tiêu dùng là một vấn đề đáng kể. Hầu hết các hệ thống trong thế giới thực vẫn còn rất nhiều chỗ cần cải thiện.

Một nhóm từ Đại học Washington đã phát triển một thiết bị có tên ClearBuds giúp loại bỏ tiếng ồn xung quanh bằng cách sử dụng sự kết hợp tuyệt vời giữa tai nghe không dây trong tai tùy chỉnh, giao thức Bluetooth độc đáo và mô hình học sâu nhẹ có thể chạy trên điện thoại thông minh.

Ishan Chatterjee, một nghiên cứu sinh tiến sĩ và là một trong những tác giả chung của bài báo xuất bản tại Hội nghị quốc tế ACM về Hệ thống, ứng dụng và dịch vụ di động giải thích khái niệm này, nói rằng:

“Đối với chúng tôi, ClearBuds ra đời là điều cần thiết. Giống như nhiều người khác, khi lệnh phong tỏa do đại dịch bắt đầu, chúng tôi nhận thấy mình phải nhận rất nhiều cuộc gọi trong nhà trong những khu vực chật hẹp này. Có rất nhiều tiếng ồn xung quanh nhà, tiếng ồn nhà bếp, tiếng ồn xây dựng, tiếng trò chuyện.”

Ông không chỉ tham gia các lớp học giống như hai đồng tác giả còn lại là Ph.D. ứng cử viên Vivek Jayaram và Maruchi Kim, nhưng họ cũng ở chung phòng.

Vì vậy, họ quyết định tổng hợp kinh nghiệm của mình về phần cứng, mạng và học máy để giải quyết vấn đề.

ClearBuds hoạt động bằng cách sử dụng thông tin âm thanh có thể phân biệt giữa các loại tiếng ồn khác nhau

Theo Jayaram, nhiều giọng nói phải được phân biệt, đây là một trong những vấn đề chính trong việc nâng cao khả năng nói. Mặc dù các kỹ thuật học máy hiện tại đã được cải thiện trong việc phân biệt âm thanh và sử dụng điều này để loại bỏ tiếng ồn xung quanh, nhưng chúng vẫn gặp khó khăn khi hai cá nhân trò chuyện cùng lúc.

Kỹ thuật đơn giản nhất để giải quyết vấn đề này là sắp xếp các nguồn gây tiếng ồn khác nhau bằng cách sử dụng nhiều micrô cách nhau một chút. Do đó, có thể phân biệt hai loa dựa trên vị trí của chúng thay vì cách chúng phát ra âm thanh. Nhưng để tính năng này hoạt động, các micrô phải được đặt cách xa nhau.


Vai trò của AI trong chế tạo robot


Phần lớn hàng tiêu dùng đều có micrô trong mỗi củ tai, cần được đặt cách nhau đủ để cung cấp phép đo tam giác chính xác. Nhưng theo Kim, việc truyền phát và đồng bộ hóa âm thanh từ cả hai đều nằm ngoài phạm vi của các tiêu chuẩn Bluetooth hiện tại. Vì điều này, AppleAirPods và máy trợ thính đắt tiền của Apple chứa nhiều micrô trong mỗi củ tai, cho phép chúng thực hiện phép đo tam giác giới hạn trước khi truyền từ một củ tai xuống điện thoại thông minh được kết nối.

Các nhà nghiên cứu đã tạo ra một giao thức không dây độc đáo để cho phép một trong các tai nghe phát ra đèn hiệu đồng bộ hóa thời gian để giải quyết vấn đề này. Sau đó, tai nghe thứ hai sẽ sử dụng tín hiệu này để đồng bộ hóa đồng hồ bên trong của nó với tai nghe đầu tiên, duy trì thời gian của hai luồng âm thanh. Khi thiết kế ClearBuds, nhóm đã in 3D vỏ cho tai nghe được thiết kế tùy chỉnh mà họ sử dụng để triển khai giao thức này. Tuy nhiên, việc đồng bộ hóa nguồn cấp dữ liệu từ mỗi củ tai chỉ khắc phục được một phần sự cố.

Khi thiết kế ClearBuds, nhóm đã in 3D vỏ cho tai nghe được thiết kế riêng

Các nhà nghiên cứu cần chạy phần mềm nâng cao giọng nói của họ trên điện thoại thông minh kết hợp với tai nghe để xử lý âm thanh bằng các kỹ thuật học sâu mới nhất. Hầu hết các ứng dụng thương mại sử dụng AI để tăng cường giọng nói đều dựa vào việc gửi âm thanh đến máy chủ đám mây vì những mô hình này có chi phí tính toán lớn. Ngay cả gần đây nhất smartphones Jayaram tuyên bố có một phần khả năng tính toán của thẻ GPU, thường được sử dụng để thực hiện học sâu.


Meta AI cải thiện 44% chất lượng dịch thuật


Kết quả là, họ có thể xác định vị trí nguồn bằng cách sử dụng mạng thần kinh hiện có có thể được huấn luyện để nhận ra sự khác biệt về thời gian giữa hai tín hiệu đến. Sau đó, để nó có thể hoạt động trên điện thoại thông minh, họ đã loại bỏ những yếu tố cốt lõi cốt lõi của nó bằng cách giảm số lượng tham số và lớp. Các nhà nghiên cứu đã đưa đầu ra của mạng vào một mạng khác học cách lọc các loại biến dạng này vì việc loại bỏ mạng theo cách này đã dẫn đến sự sụt giảm đáng kể về chất lượng âm thanh và tạo ra các tiếng kêu, tĩnh điện và tiếng bật.

Jayaram giải thích: “Sự đổi mới là kết hợp hai loại mạng thần kinh khác nhau, mỗi loại có thể rất nhẹ và kết hợp lại với nhau, chúng có thể đạt được hiệu suất của những mạng thần kinh thực sự lớn không thể chạy trên iPhone”.

Những người tham gia đánh giá các bản ghi âm từ bối cảnh ồn ào trong thế giới thực như ngã tư đông đúc hoặc những quán ăn ồn ào

So với Apple AirPods Pro, ClearBuds liên tục vượt trội so với chúng về tỷ lệ tín hiệu trên độ méo. Ngoài ra, 37 người tham gia đã đánh giá các bản ghi âm được lấy từ bối cảnh ồn ào trong thế giới thực như ngã tư đông đúc hoặc những quán ăn ồn ào. Những cái được phân tích bởi mạng lưới thần kinh của ClearBuds được phát hiện là có khả năng khử tiếng ồn tổng thể tốt nhất. Trong các thử nghiệm thực tế, tám người tham gia nhận thấy ClearBuds thích hợp hơn nhiều so với thiết bị thực hiện cuộc gọi mà họ thường sử dụng.

Theo Tillman Weyde, một độc giả về học máy tại Đại học Thành phố Luân Đôn, kết quả đầu ra có một số sai lệch. Tuy nhiên, về tổng thể, thuật toán này có khả năng loại bỏ tiếng ồn và giọng nói rất tốt. Anh ấy tiếp tục: “Đây là kết quả tuyệt vời từ một sinh viên và nhóm học thuật rõ ràng đã đầu tư rất nhiều công sức vào dự án này để đạt được tiến bộ hiệu quả đối với một vấn đề ảnh hưởng đến hàng trăm triệu người sử dụng tai nghe không dây.”

“Thuật toán loại bỏ tiếng ồn và giọng nói xung quanh rất tốt”

Công việc này thực sự tốt, nhưng có một hạn chế là phải mất 109 mili giây để truyền âm thanh đến điện thoại thông minh và sau đó xử lý nó, theo Alexandre Défossez, một nhà khoa học nghiên cứu tại Facebook Nghiên cứu AI Paris.

“Chúng tôi luôn nhận được độ trễ từ 50 đến 100 mili giây từ mạng. Thêm 100 mili giây nữa là một cái giá lớn phải trả. Khi hệ thống liên lạc ngày càng trở nên thông minh hơn, chúng ta sẽ gặp phải những sự chậm trễ khá đáng chú ý và khó chịu trong tất cả các hoạt động liên lạc của mình,” ông giải thích.