Trình phát hiện ngôn ngữ ký hiệu của Google Tests tới Switch ‘Loa hoạt động’ trong cuộc gọi điện video

google kiểm tra trình phát hiện ngôn ngữ ký hiệu cho cuộc gọi điện video

Hầu hết chúng ta đều ở trong nhà và điều phối công việc qua các cuộc gọi điện video do đại dịch COVID-19, bạn có thể đã làm quen với nhiều loại phần mềm hội nghị truyền hình. Một tính năng tuyệt vời của các ứng dụng gọi điện video này là tự động chuyển đổi giữa các nguồn cấp dữ liệu video của người đang nói chuyện trong thời gian thực. Tuy nhiên, điều này không hoạt động với người dùng ngôn ngữ ký hiệu và họ có thể cảm thấy bị bỏ rơi khỏi cuộc trò chuyện.

Các nhà nghiên cứu của Google đã quyết định khắc phục sự cố trợ năng này bằng cách xây dựng công cụ phát hiện ngôn ngữ ký hiệu thời gian thực. Nó có thể phát hiện khi một người trong cuộc gọi điện video đang cố gắng giao tiếp bằng ngôn ngữ ký hiệu và thu hút sự chú ý của họ. Công cụ sẽ có thể cho biết khi nào một người bắt đầu ký và biến họ thành người phát biểu tích cực.

Mô hình này đã được trình bày bởi các nhà nghiên cứu của Google tại ECCV 2020. Bài báo nghiên cứu có tiêu đề Phát hiện ngôn ngữ ký hiệu theo thời gian thực sử dụng Ước tính tư thế người nói về cách một công cụ phát hiện ‘plug and play’ được tạo cho các ứng dụng hội nghị truyền hình. Hiệu quả và độ trễ của nguồn cấp dữ liệu video là một khía cạnh quan trọng và mô hình mới có thể xử lý rất tốt cả hai. Ý tôi là, một nguồn cấp dữ liệu video bị trì hoãn và bị ngắt quãng sẽ có tác dụng gì?

Dưới đây là một cái nhìn nhanh về những gì công cụ ngôn ngữ ký hiệu nhìn thấy trong thời gian thực:

Bây giờ, nếu bạn đang tự hỏi công cụ phát hiện ngôn ngữ ký hiệu này hoạt động như thế nào thì Google đã giải thích tất cả chi tiết. Đầu tiên, video chuyển qua PoseNet, công cụ này ước tính các điểm chính của cơ thể như mắt, mũi, vai, v.v. Nó giúp động cơ tạo ra một hình người và sau đó so sánh các chuyển động của nó với một mô hình được đào tạo bằng kho ngữ liệu Ngôn ngữ ký hiệu của Đức.

Đây là cách các nhà nghiên cứu phát hiện ra rằng người đó đã bắt đầu hoặc ngừng ký. Nhưng, làm thế nào họ được giao vai trò loa chủ động khi về cơ bản không có âm thanh? Đó là một trong những trở ngại lớn nhất và Google đã vượt qua nó bằng cách xây dựng demo web truyền tín hiệu âm thanh tần số cao 20kHz với ứng dụng hội nghị truyền hình mà bạn kết nối với nó. Điều này sẽ đánh lừa ứng dụng hội nghị truyền hình nghĩ rằng người sử dụng ngôn ngữ ký hiệu đang nói và do đó, biến họ thành một diễn giả tích cực.

Các nhà nghiên cứu của Google đã cố gắng đạt được độ chính xác 80% trong việc dự đoán thời điểm một người bắt đầu ký. Nó có thể dễ dàng được tối ưu hóa để đạt độ chính xác trên 90%, điều này thật đáng kinh ngạc. Công cụ phát hiện dấu hiệu này hiện chỉ là một bản demo (và một bài báo nghiên cứu) nhưng sẽ không lâu nữa cho đến khi chúng ta thấy một trong những ứng dụng hội nghị truyền hình phổ biến, có thể là Meet hoặc Zoom, áp dụng công cụ này để giúp cuộc sống của những người câm lặng dễ dàng hơn.