Tin tức và phân tích của tất cả các thiết bị di động

Apple Giải thích cách hoạt động của ‘Hey Siri’ trong Deatil

Apple đã xuất bản một mục mới hấp dẫn trên Tạp chí Học máy trong tháng này giải thích cách thức hoạt động chi tiết của bộ dò ‘Hey Siri’ được kích hoạt bằng giọng nói.

Apple giải thích rằng iPhone và Apple Watch micrô “biến giọng nói của bạn thành một luồng mẫu dạng sóng tức thời, với tốc độ 16000 mỗi giây” trước khi máy dò trên thiết bị quyết định xem bạn có định gọi Siri bằng giọng nói của mình hay không:

Một giai đoạn phân tích phổ chuyển đổi dòng mẫu dạng sóng thành một chuỗi các khung, mỗi khung mô tả phổ âm thanh xấp xỉ 00,01 giây. Khoảng hai mươi khung hình này cùng một lúc (0.2 giây âm thanh) được cung cấp cho mô hình âm thanh, Mạng thần kinh sâu (DNN) chuyển đổi từng mô hình âm thanh này thành phân phối xác suất trên một tập hợp các lớp âm thanh giọng nói: những lớp được sử dụng trong cụm từ “Hey Siri”, cộng với im lặng và bài phát biểu khác, tổng cộng có khoảng 20 lớp âm thanh.

Apple cũng có một ngưỡng thay đổi để quyết định xem bạn có đang cố gọi Siri hay không:

Chúng tôi đã xây dựng một số tính linh hoạt để giúp kích hoạt Siri dễ dàng hơn trong các điều kiện khó khăn trong khi không làm tăng đáng kể số lần kích hoạt sai. Có một ngưỡng chính hoặc ngưỡng bình thường và một ngưỡng thấp hơn thường không kích hoạt Siri. Nếu điểm số vượt quá ngưỡng thấp hơn nhưng không phải ngưỡng trên, thì có thể chúng tôi đã bỏ lỡ một sự kiện “Hey Siri” thực sự. Khi điểm số nằm trong phạm vi này, hệ thống sẽ chuyển sang trạng thái nhạy cảm hơn trong vài giây, do đó nếu người dùng lặp lại cụm từ, ngay cả khi không cố gắng nhiều hơn, thì Siri sẽ kích hoạt. Cơ chế cơ hội thứ hai này cải thiện đáng kể khả năng sử dụng của hệ thống, mà không làm tăng tỷ lệ báo động sai quá nhiều vì nó chỉ ở trạng thái cực nhạy này trong một thời gian ngắn.

Như chúng ta đã biết, ‘Hey Siri’ dựa vào bộ đồng xử lý trong iPhone để nghe từ kích hoạt mà không yêu cầu tương tác vật lý hoặc ngốn pin và Apple Watch đối xử với ‘Hey Siri’ theo cách khác vì nó yêu cầu phải bật màn hình. Apple giải thích rằng ‘Hey Siri’ chỉ sử dụng about 5% ngân sách tính toán bằng cách sử dụng phương pháp này.

Bộ dò “Hey Siri” chỉ chạy khi bộ đồng xử lý chuyển động của đồng hồ phát hiện cử chỉ giơ cổ tay, thao tác này sẽ bật màn hình. Tại thời điểm đó, WatchOS có rất nhiều việc phải làm — khởi động, chuẩn bị màn hình, v.v. — vì vậy hệ thống chỉ phân bổ “Hey Siri” chỉ một tỷ lệ nhỏ (~5%) của ngân sách máy tính khá hạn chế. Việc bắt đầu thu âm thanh đúng lúc để bắt đầu cụm từ kích hoạt là một thách thức, vì vậy chúng tôi thực hiện cho phép việc cắt ngắn có thể xảy ra theo cách chúng tôi khởi tạo bộ phát hiện.

Cuối cùng, tại sao Apple chọn cụm từ ‘Hey Siri’ làm kích hoạt?

Trước khi có tính năng Hey Siri, một tỷ lệ nhỏ người dùng sẽ nói “Hey Siri” khi bắt đầu yêu cầu, sau khi bắt đầu bằng cách nhấn nút. Chúng tôi đã sử dụng cách nói “Hey Siri” như vậy cho bộ đào tạo ban đầu cho mô hình máy dò tiếng Anh của Hoa Kỳ. Chúng tôi cũng bao gồm các ví dụ về giọng nói chung, như được sử dụng để đào tạo trình nhận dạng giọng nói chính. Trong cả hai trường hợp, chúng tôi đã sử dụng phiên âm tự động cho các cụm từ đào tạo. Các thành viên trong nhóm Siri đã kiểm tra độ chính xác của một tập hợp con các bản ghi âm.

Chúng tôi đã tạo một đặc tả ngữ âm dành riêng cho ngôn ngữ của cụm từ “Hey Siri”. Trong tiếng Anh Mỹ, chúng tôi có hai biến thể, với các nguyên âm đầu khác nhau trong “Siri” —một biến thể là “nghiêm túc” và biến thể khác là trong “Syria”.

Mục nhập đầy đủ được đọc gọn gàng, đặc biệt nếu bạn quan tâm đến nhận dạng giọng nói hoặc sử dụng ‘Hey Siri’ trên iPhone của bạn hoặc Apple Watch.

Nguồn: 9to5mac