Tin tức và phân tích của tất cả các thiết bị di động

Tổng quan về công nghệ, xu hướng và thách thức trong lĩnh vực giọng nói

Trong khi việc sử dụng giọng nói là một phần trong cuộc sống hàng ngày của nhiều người dùng và xu hướng hiện đang nổi lên, do cuộc khủng hoảng sức khỏe hiện nay, chúng tôi đã phỏng vấn Mélissa Périé, người đứng đầu hội nghị tại Voice Tech Paris, chương trình tham khảo dành riêng cho công nghệ giọng nói được tổ chức từ ngày 23 đến 24 tháng 11 trực tuyến. Nó cung cấp cho chúng tôi một bản kiểm kê về thị trường, chỉ rõ các lĩnh vực ứng dụng của nó trong các lĩnh vực hoạt động nhất định (ô tô, y tế, v.v.), cũng như các thông lệ tốt cần được áp dụng để sử dụng nó.

Các xu hướng trong công nghệ giọng nói là gì?

Tiết kiệm thời gian, quảng bá không tiếp xúc … Cuộc khủng hoảng mà chúng ta đang trải qua đã cho phép một số xu hướng thanh nhạc xuất hiện. Sinh trắc học giọng nói, tức là xác thực bằng giọng nói, đang trở nên phổ biến hơn và công nghệ này chính xác hơn. Thật vậy, đảm bảo hoạt động và đạt được hoặc duy trì sự tin tưởng của khách hàng là điều cần thiết. Ngay cả khi nó không phải là không có nguy hiểm, với giả giọng trầm, ý tưởng rằng giọng nói của chúng ta cũng là một bản in giọng nói vẫn là một kỳ công. Công nghệ này cũng đã thúc đẩy sự phát triển của mua sắm và thanh toán bằng giọng nói. Cả sinh trắc học giọng nói và nhận dạng giọng nói đều mang lại vị trí tự hào cho Voice Commerce (V-Commerce). Những gã khổng lồ của web và phân phối hàng loạt đã hiểu rõ điều này. Giờ đây, bạn có thể đặt hàng một cuốn sách hoặc tài liệu tự làm từ chiếc ghế dài bằng cách đưa ra yêu cầu với người phát âm của bạn.

Phân tích kỹ năng nghe và giọng nói cũng có tầm quan trọng lớn. Chúng không chỉ cho phép bạn biết khách hàng của mình tốt hơn mà còn phản hồi nhanh hơn các yêu cầu được xác định trước. Thật vậy, callbots và các voicebots khác hiện có thể hiểu được vô số yêu cầu và việc phân tích các trao đổi cho phép các nhà quảng cáo xem xét các chiến lược của họ. Nhờ các công nghệ nhận dạng ngôn ngữ, từ đó có NLU (hiểu ngôn ngữ tự nhiên, cụ thể là hiểu sâu về ngôn ngữ của con người) hoặc NLG (tạo ngôn ngữ tự nhiên, hoặc tự động tạo ra các phản ứng logic), các bot ngày càng trở nên mạnh mẽ hơn và nhân hoá. Các công nghệ này ngày càng được sử dụng nhiều hơn để tạo ra các báo cáo cuộc họp hoặc y tế một cách tự động.

Cuối cùng, việc nhận biết cảm xúc được mô phỏng. Đây là một vấn đề chính và là một xu hướng ngày càng tăng trong lĩnh vực giọng nói. Nó bao gồm việc phát hiện không chỉ ngôn ngữ mà còn cả cảm xúc và tính cách tại một thời điểm nhất định. Ngữ điệu, hơi thở hoặc thậm chí cả chấn động, là một phần của các đặc điểm mà máy tính hiện có thể phát hiện được. Bots có thể điều chỉnh các trao đổi theo cách này. Công nghệ này cũng đã được sử dụng để phân tích phản ứng của con người với các tình huống mới.

UX thoại là gì và nó có thể cải thiện trải nghiệm người dùng như thế nào?

Voice UX là một ngành học hấp dẫn được dẫn dắt bởi các nhà thiết kế UX bằng giọng nói. Họ suy nghĩ một cách tổng thể nhưng cũng thực dụng bằng cách tạo ra các lệnh thoại và giao diện thân thiện với người dùng. Giống như UX, voice UX là trải nghiệm người dùng trải qua khi sử dụng ứng dụng thoại. Nó được thiết kế để đảm bảo các cấp độ trải nghiệm khác nhau cho người dùng: tính linh hoạt khi sử dụng, hiểu nhanh các yêu cầu, v.v. Điều này đặc biệt cho phép sự trung thành của người dùng.

Thiết kế này có thể thực hiện được thông qua công việc điều tra chuyên sâu của các nhà thiết kế UX. Người dùng sẽ sử dụng ứng dụng trong ngữ cảnh nào (nấu ăn, khi đang vội, lái xe ô tô, v.v.)? Tính cách nào và những từ vựng nào chúng ta nên trao đổi với robot sẽ trao đổi trong bối cảnh này? Vô số các kịch bản cần xem xét là gì? Đây là tất cả các câu hỏi và yếu tố chính phải được tính đến và điều đó sẽ hình thành một ứng dụng thoại phù hợp.

Voice UX là một phần không thể thiếu của ứng dụng thoại và nó cho phép bạn thiết lập mối liên hệ tốt nhất có thể với khách hàng.

Công nghệ giọng nói có thể cách mạng hóa lĩnh vực ô tô như thế nào?

Công ty Deloitte ước tính rằng thị trường trợ lý giọng nói trong xe hơi có thể đạt 7 tỷ euro vào năm 2021, trong khi nó đại diện 1,5 tỷ trong năm 2017. Hầu hết tất cả các mẫu ô tô mới hiện nay đều được trang bị trợ lý giọng nói, vì công nghệ hiểu ngôn ngữ tự nhiên đã phát triển đáng kể. Chúng ta đang nói ngày càng nhiều về những chiếc xe tự hành được trang bị công nghệ giọng nói, tuy nhiên, trợ lý không chỉ can thiệp vào những chiếc xe tự hành. Vai trò của nó là thông báo và đảm bảo lái xe. Không cần phải nói rằng ngồi sau tay lái của một chiếc xe hơi có thể đại diện cho những nguy hiểm, giống như những gì xung quanh người lái xe: hành khách, những người lái xe khác, thời tiết xấu…. Trợ lý giọng nói, cùng với các ứng dụng xe hơi khác, giảm việc sử dụng điện thoại gây nguy hiểm và cung cấp thông tin thiết thực và quan trọng (vị trí của bãi đỗ xe gần nhất, phát hiện nguy hiểm sắp xảy ra, v.v.).

Do đó, trợ lý đảm bảo an toàn hơn trên tàu nhưng cũng là một thách thức kinh doanh đối với các thương hiệu. Thật vậy, bạn hoàn toàn có thể sử dụng các ứng dụng thông thường của trợ lý giọng nói trên ô tô của mình. Viết tin nhắn, đọc tin tức, mua sắm … Cuối cùng, nó cũng là một tài sản thương mại cho các nhà sản xuất xe hơi, những người đang tìm cách khác biệt hóa bản thân và mang lại trải nghiệm mới cho khách hàng, đồng thời lướt qua làn sóng “trợ giúp” và “bảo mật ” thuận lợi. Cuối cùng, UX thoại dành riêng cho trợ lý giọng nói là một vấn đề cốt yếu, một mặt phải tính đến các vấn đề an toàn liên quan đến việc lái xe, mặt khác là trải nghiệm người dùng phải đơn giản và nhanh nhất có thể, vì vậy để không làm người lái mất tập trung. Người ta có thể tưởng tượng rằng trên xe ô tô tự lái, người lái xe sẽ có thể ra lệnh cho một số chỉ dẫn nhất định cho người lái xe ảo.

Tiếng nói có thể mang lại điều gì cho ngành y tế (AlloCovid, v.v.)?

Đối với ô tô, giọng nói là một phần của cuộc cách mạng đang diễn ra trong lĩnh vực y tế, và cụ thể hơn là trong Medtech. Chưa bao giờ nhiều dự án được thực hiện và phát triển như kể từ khi bắt đầu đại dịch toàn cầu. Giọng hát thực sự đã được minh họa khi bắt đầu bị giam giữ ở Pháp, thông qua máy chủ thoại tương tác AlloCovid. Nghiên cứu được triển khai và việc tạo ra các thuật toán đã cho phép các bên liên quan khác nhau (AlloMédia, Oui SNCF, Inserm, v.v.) triển khai một nền tảng lắng nghe và tư vấn tự động quy mô lớn. Trên thực tế, 1 000 rô bốt bằng giọng nói có thể phản hồi cùng lúc với 1 000 người có khả năng dương tính với COVID-19 và hướng họ đến những hành động đúng đắn cần thực hiện: làm bài kiểm tra, không lo lắng, và thậm chí tự động gọi đến SAMU nếu người nghe điện thoại bị suy hô hấp. Công cụ rất mạnh mẽ này đã giúp tiết kiệm thời gian của con người trong việc chẩn đoán hoặc trấn an mọi người.

Ở một quy mô khác, chuyển giọng nói thành văn bản, là một công nghệ bao gồm việc chuyển lời nói bằng miệng thành văn bản, cho phép ngành y tế tự động nhập các báo cáo y tế của họ. Sức mạnh này không chỉ giúp bạn có thể tự động cập nhật các tệp y tế của bệnh nhân, để phân tích chúng nhanh hơn mà còn dành nhiều thời gian hơn cho bệnh nhân hoặc để xem thêm về họ. Một bệnh viện ở Boston đã triển khai một ứng dụng thoại, thông qua Alexa từAmazongiúp cha mẹ có trẻ em bị bệnh tim sau phẫu thuật có thể đáp ứng được và do đó đảm bảo việc theo dõi. Amazongiống như Google và chắc chắn là các GAFAM khác, hiểu rằng đầu tư vào sức khỏe kết nối thông qua giọng nói là một thị trường có tương lai tươi sáng.

Cuối cùng, trong sách trắng về trợ lý giọng nói được xuất bản vào tháng 9 năm ngoái, CNIL dự đoán rằng vào năm 2023, CPAM sẽ khởi động hoạt động “Bác sĩ đa khoa của tôi là một chatbot”. Điều này sẽ cung cấp một cuộc tư vấn sơ bộ với một trợ lý ảo trước một cuộc hẹn khám sức khỏe tiềm năng. Khi chúng ta nhìn thấy sức mạnh của AlloCovid, nó dường như không phải là không thể và có thể là một giải pháp để giảm bớt ngành y tế.

V-Commerce là gì? Bạn có bất kỳ ví dụ ứng dụng nào không?

Đây là hành động mua hàng bằng lệnh thoại, từ nghiên cứu sản phẩm, tạo giỏ hàng và thanh toán. Điều này có thể được thực hiện qua điện thoại của anh ấy cũng như qua loa phát thanh của anh ấy, vì vậy người du mục cũng như ít vận động. Ví dụ nổi bật nhất gần đây là ứng dụng giọng nói mới nhất của Carrefour. Thật vậy, nó cung cấp khả năng thực hiện giỏ sản phẩm của mình hoàn toàn bằng giọng nói, sửa đổi nó theo ý muốn và đi đến giai đoạn cuối cùng của quá trình mua hàng. Các lệnh thoại được ghi lại và giúp Carrefour có thể biết được sở thích của người dùng, và do đó, Carrefour sẽ nhắm mục tiêu đúng khách hàng của mình trong tương lai. Các nhà bán lẻ lớn đã có thể nắm bắt cơ hội của thương mại bằng giọng nói. Vì vậy, Flipkart, công ty con của Walmart tại Ấn Độ, đã tung ra dịch vụ đặt hàng tạp hóa bằng giọng nói. Sức mạnh của công cụ này? Nó có thể phát hiện tất cả các ngôn ngữ, ngay cả ngôn ngữ địa phương và cũng cho phép bạn thanh toán bằng giọng nói.

Các phương pháp hay nhất cho công nghệ giọng nói khi nói đến quyền riêng tư của người dùng là gì?

Vào đầu tháng 9 năm 2020, CNIL đã xuất bản một sách trắng mang tên “Dịch vụ của bạn”. Nó làm nổi bật rằng giọng nói và các yếu tố nó mang lại thông qua lời nói (giọng, xuất xứ, tính cách, v.v.), nằm trong phạm vi cá nhân và cung cấp thông tin nhận dạng (sinh trắc học), cũng có thể bị chiếm đoạt. Ngày nay, trợ lý giọng nói bắt buộc phải yêu cầu quyền ghi và sử dụng dữ liệu giọng nói của họ.

Mặt khác, sự kiểm soát của người dùng vẫn không rõ ràng. Thật vậy, không có cách nào để kiểm soát dữ liệu của nó, hoặc nó đi đâu và nó sẽ thực sự được sử dụng để làm gì. CNIL đang tích cực làm việc trên các khía cạnh của thông lệ tốt, giống như các tập đoàn khác. Vào đầu năm 2020, thử thách VoicePrivacy đã được đưa ra. Các nhà nghiên cứu đang nghiên cứu phát triển các giải pháp ẩn danh dữ liệu giọng nói, bằng cách xóa dữ liệu cá nhân. Những sáng kiến ​​này cho thấy rằng vấn đề tôn trọng quyền riêng tư thực sự đã được đặt ra.

Cuối cùng, trong sách trắng của mình, CNIL đưa ra các ví dụ về hạnh kiểm tốt trong 5 các bước, sẽ được thông qua để tuân thủ pháp luật hiện hành. Tóm lại, vấn đề là xác định xem đó có phải là dữ liệu cá nhân hay không, xác định quá trình xử lý, người chịu trách nhiệm và cơ sở pháp lý của nó, xác định dữ liệu nào được chọn, thời gian lưu giữ của chúng, thông báo cho mọi người và cuối cùng là bảo vệ chúng và bảo mật chúng. Điều này áp dụng cho người dùng cũng như nhà thiết kế.

Sự kiện Voice Tech Paris sẽ có những điểm gì nổi bật?

Voice Tech Paris là 2 ngày gặp gỡ hệ sinh thái của công nghệ giọng nói, cả người dùng và nhà cung cấp. Chúng tôi cung cấp khả năng trao đổi với các nhà thiết kế các giải pháp thông qua các gian hàng ảo của họ. Cũng có thể tham dự 20 hội nghị: phản hồi từ những người chơi trong các lĩnh vực khác nhau (ngân hàng và bảo hiểm, công nghiệp, vận tải, dịch vụ, v.v.) nhưng cũng có các bài phát biểu chính và các cuộc tranh luận chiến lược hơn. Đặc biệt, chúng tôi đã thiết lập một cuộc tranh luận về tiếng nói trong xã hội ngày mai. Chúng tôi cũng sẽ giải quyết câu hỏi quan trọng về công cụ nhận dạng giọng nói miễn phí hay âm thanh giả sâu. Các chương trình của chúng tôi được thiết lập để cung cấp một bức tranh toàn cảnh về công nghệ và các vấn đề liên quan đến lĩnh vực giọng nói.

Khám phá toàn bộ chương trình và đặt vé trên trang web của Voice Tech Paris 2020.