Công nghệ AI mới của Microsoft có thể chú thích hình ảnh chính xác như con người

Công nghệ tạo phụ đề AI hình ảnh mới của Microsoft

Kể từ khi các nhà nghiên cứu bắt đầu làm việc với trí thông minh nhân tạo (AI), một trong những mục tiêu chính luôn là một hệ thống phụ đề hình ảnh tiên tiến. Nhiều công ty đang đầu tư các nguồn lực quý giá của họ vào AI để phát triển các sản phẩm ngày càng tốt hơn. Giờ đây, Microsoft đã đưa ra một hệ thống AI mới có thể chú thích và mô tả hình ảnh chính xác hơn những gì con người có thể làm được.

Người khổng lồ Redmond gần đây đã công bố bước đột phá này thông qua một bài đăng trên blog chính thức. Mặc dù tạo phụ đề hình ảnh là một trong những nhiệm vụ khó nhất đối với hệ thống AI, nhưng Microsoft cho biết rằng AI “Nâng cao hình ảnh” mới của họ có khả năng tạo phụ đề hình ảnh tốt như con người. Và bước đột phá về công nghệ AI này sẽ giúp công ty đẩy mạnh các sản phẩm và dịch vụ của mình trên thị trường.

Chú thích hình ảnh ở mức tốt nhất

Bây giờ, tạo phụ đề hình ảnh tự động nghe có vẻ không phải là một công việc quan trọng, nhưng hãy tin tôi đi. Công nghệ tiện lợi này giúp người dùng truy cập nội dung trong một hình ảnh, cho dù nó nằm trong thư viện của bạn hay một nơi nào đó trong 5-trang tài liệu. Ví dụ: khi bạn tìm kiếm “con chó” trong thư viện hình ảnh của mình, ứng dụng được chỉ định sử dụng khả năng nhận dạng hình ảnh của nó để sắp xếp mọi hình ảnh có một con chó trong đó và sau đó thu hẹp tìm kiếm của bạn. Đây là một trong nhiều nhiệm vụ đòi hỏi hệ thống phải có khả năng nhận dạng hình ảnh tuyệt vời.

Mô hình mới của Microsoft có thể tạo ra những chú thích tốt hơn cho hình ảnh so với những người tiền nhiệm của nó. Và những chú thích này, thực sự, tương tự như những gì một con người sẽ viết để mô tả hình ảnh.

AI hình ảnh của Microsoft 1

Vì vậy, như bạn có thể thấy, AI “Phụ đề hình ảnh nâng cao” mới trong mô tả hình ảnh chính xác hơn nhiều so với trước đây. Hơn nữa, mô hình mới này thậm chí có thể nhận ra bối cảnh của một hình ảnh. Kiểm tra hình ảnh khác này.

AI hình ảnh của Microsoft 2

Trong hình ảnh trên, hệ thống trước đó đã đưa ra một mô tả mơ hồ mà không cho biết người chơi đang làm gì. Tuy nhiên, mô hình mới biết rằng các cầu thủ đang ăn mừng và thực sự là cầu thủ bóng đá, không phải cầu thủ bóng chày!

Khả năng tiếp cận: Dành cho người khiếm thị

Giờ đây, khả năng tạo phụ đề hình ảnh này rất hữu ích cho người dùng, nhưng những người mà công nghệ này quan trọng nhất là những người bị mù hoặc có thị lực kém. Những người này phải dựa vào khẩu lệnh khi điều hướng qua hệ thống máy tính. Vì vậy, chú thích hình ảnh giúp họ duyệt qua các phương tiện truyền thông xã hội hoặc tin nhắn dễ dàng hơn.

“Việc sử dụng chú thích hình ảnh để tạo mô tả ảnh, được gọi là văn bản thay thế, trong một trang web hoặc tài liệu, đặc biệt quan trọng đối với những người bị mù hoặc có thị lực kém,” Saqib Shaikh, Giám đốc kỹ sư phần mềm tại bộ phận AI của Microsoft ở Redmond cho biết.

Kết quả là, Windows nhà sản xuất bây giờ là tích hợp hệ thống AI tạo phụ đề hình ảnh mới này vào ứng dụng camera nói chuyện của nó, See AI, được sản xuất đặc biệt dành cho người khiếm thị. Ứng dụng này sử dụng khả năng chú thích hình ảnh của AI để mô tả hình ảnh trong thiết bị di động của người dùng và thậm chí trong hồ sơ mạng xã hội.

Ngoài việc tích hợp trong ứng dụng See AI, Microsoft cũng cung cấp hệ thống AI mới cho các ứng dụng Azure AI. Nó hiện tồn tại như một phần của Tầm nhìn Máy tính Dịch vụ Nhận thức Azure và các nhà phát triển có thể sử dụng các khả năng của nó trong các ứng dụng và dịch vụ của riêng họ, nếu họ muốn.

Hơn nữa, công nghệ chú thích hình ảnh AI cũng sẽ đến với các ứng dụng Microsoft Office, chẳng hạn như Microsoft Word, PowerPoint và Outlook, vào cuối năm nay.