▷ Làm quen với SAM, công cụ phân đoạn hình ảnh AI mới của Meta xử lý các hình ảnh phức tạp cho bạn

Mô hình Bất kỳ Phân khúc Mới của Meta đã được tiết lộ. Mô hình SAM là một cách mới để tạo mặt nạ chất lượng cao cho phân đoạn hình ảnh.

Lời nhắc nhở: Phân đoạn hình ảnh là một nhiệm vụ cơ bản trong thị giác máy tính nhằm mục đích phân chia hình ảnh thành các vùng tương ứng với các đối tượng hoặc danh mục ngữ nghĩa khác nhau và có nhiều ứng dụng, chẳng hạn như phát hiện đối tượng, hiểu cảnh, chỉnh sửa hình ảnh và phân tích video.

Tuy nhiên, phân đoạn hình ảnh cũng là một vấn đề đầy thách thức, đặc biệt khi xử lý các cảnh phức tạp chứa nhiều đối tượng với hình dạng, kích thước và diện mạo khác nhau. Hơn nữa, hầu hết các phương pháp phân đoạn hình ảnh hiện tại đều yêu cầu lượng lớn dữ liệu được chú thích để huấn luyện, việc thu thập có thể tốn kém và mất thời gian. Meta muốn giải quyết vấn đề này bằng mô hình SAM.

Mô hình SAM: Mô hình bất kỳ phân khúc mới của Meta là gì?

Segment Anything Model (SAM) là một mô hình trí tuệ nhân tạo mới và mạnh mẽ, có thể phân đoạn bất kỳ đối tượng nào trong hình ảnh hoặc video với chất lượng và hiệu quả cao. Phân đoạn là quá trình tách một đối tượng khỏi nền của nó hoặc các đối tượng khác và tạo ra một mặt nạ phác thảo hình dạng và ranh giới của nó. Với mô hình SAM, các tác vụ chỉnh sửa, tổng hợp, theo dõi, nhận dạng và phân tích của bạn sẽ trở nên dễ dàng hơn.

SAM khác với các mô hình phân khúc khác ở một số điểm, chẳng hạn như:

SAM có thể nhắc nhở, nghĩa là nó có thể nhận nhiều lời nhắc đầu vào khác nhau, chẳng hạn như điểm hoặc hộp, để chỉ định đối tượng cần phân đoạn. Ví dụ: bạn có thể vẽ một hộp xung quanh khuôn mặt của một người và Mô hình bất kỳ phân đoạn nào sẽ tạo ra một mặt nạ cho khuôn mặt. Bạn cũng có thể đưa ra nhiều lời nhắc để phân đoạn nhiều đối tượng cùng một lúc. Mô hình SAM có thể xử lý các cảnh phức tạp với sự che khuất, phản chiếu và bóng tối.
SAM được đào tạo trên bộ dữ liệu khổng lồ gồm 11 triệu hình ảnh và 1.1 tỷ mặt nạ, đây là tập dữ liệu phân đoạn lớn nhất cho đến nay. Bộ dữ liệu này bao gồm nhiều đối tượng và danh mục, chẳng hạn như động vật, thực vật, xe cộ, đồ nội thất, thực phẩm, v.v. SAM có thể phân đoạn các đối tượng mà nó chưa từng thấy trước đây nhờ khả năng khái quát hóa và đa dạng dữ liệu.
SAM có hiệu suất bắn không mạnh mẽ trong nhiều nhiệm vụ phân đoạn khác nhau. Zero-shot có nghĩa là SAM có thể phân đoạn các đối tượng mà không cần đào tạo thêm hoặc tinh chỉnh về một nhiệm vụ hoặc miền cụ thể. Ví dụ: SAM có thể phân đoạn khuôn mặt, bàn tay, tóc, quần áo và phụ kiện mà không cần bất kỳ kiến thức hoặc sự giám sát nào trước đó. SAM cũng có thể phân đoạn các đối tượng theo các phương thức khác nhau, chẳng hạn như hình ảnh hồng ngoại hoặc bản đồ độ sâu.

Mô hình SAM đạt được kết quả ấn tượng trên nhiều tiêu chuẩn phân đoạn hình ảnh khác nhau, chẳng hạn như COCO. SAM cũng hoạt động tốt hơn hoặc phù hợp với các phương pháp được giám sát hoàn toàn trước đây trong một số tác vụ phân đoạn không cần chụp, chẳng hạn như phân đoạn biểu tượng, văn bản, khuôn mặt hoặc bản phác thảo. Nó thể hiện tính linh hoạt và mạnh mẽ của nó trên các lĩnh vực và tình huống khác nhau.

Trong tương lai: Dự án Mô hình bất cứ phân khúc nào (mô hình SAM) vẫn đang ở giai đoạn đầu. Theo Meta, đây là một số ứng dụng trong tương lai của Mô hình phân khúc bất cứ thứ gì:

Kính AR trong tương lai có thể sử dụng SAM để nhận dạng các vật thể thông thường và đưa ra lời nhắc cũng như hướng dẫn hữu ích.

SAM có khả năng tác động đến nhiều lĩnh vực khác như nông nghiệp, sinh học. Một ngày nào đó, nó thậm chí có thể mang lại lợi ích cho nông dân và các nhà khoa học.

Mô hình SAM có thể là bước đột phá trong nghiên cứu thị giác máy tính và trí tuệ nhân tạo. Nó chứng tỏ tiềm năng của các mô hình nền tảng cho tầm nhìn, là những mô hình có thể học hỏi từ dữ liệu quy mô lớn và chuyển sang các nhiệm vụ và lĩnh vực mới.

Các tính năng của Mô hình phân khúc bất kỳ (mô hình SAM)

Dưới đây là một số khả năng của mô hình SAM:

Sử dụng mô hình SAM, người dùng có thể nhanh chóng và dễ dàng phân đoạn các đối tượng bằng cách chọn các điểm riêng lẻ để bao gồm hoặc bỏ qua khỏi quá trình phân đoạn. Hộp ranh giới cũng có thể được sử dụng làm gợi ý cho mô hình.
Khi có sự không chắc chắn về mục được phân đoạn, mô hình SAM có thể tạo ra nhiều mặt nạ hợp lệ, một kỹ năng quan trọng và quan trọng để giải quyết việc phân đoạn trong thế giới thực.
Việc phát hiện và che giấu đối tượng tự động giờ đây trở nên đơn giản với Mô hình bất kỳ phân đoạn nào.
Sau khi tính toán trước việc nhúng hình ảnh, Mô hình phân đoạn bất kỳ có thể cung cấp mặt nạ phân đoạn cho bất kỳ lời nhắc nào ngay lập tức, cho phép tương tác trong thời gian thực với mô hình.

Thật ấn tượng phải không? Vậy công nghệ đằng sau nó là gì?

Mô hình SAM hoạt động như thế nào?

Một trong những khám phá hấp dẫn nhất trong NLP và gần đây hơn là trong thị giác máy tính là việc sử dụng các phương pháp tiếp cận “nhắc nhở” để cho phép học không cần chụp và không cần chụp trên các tập dữ liệu và nhiệm vụ mới bằng cách sử dụng các mô hình nền tảng. Meta tìm thấy động lực trong lĩnh vực này.

Nếu được cung cấp các điểm tiền cảnh/nền sau, hộp hoặc mặt nạ thô, văn bản dạng tự do hoặc bất kỳ thông tin đầu vào nào khác cho biết nội dung cần phân đoạn trong hình ảnh, nhóm Meta AI đã hướng dẫn Mô hình phân đoạn bất kỳ cách nào để tạo mặt nạ phân đoạn thích hợp. Nhu cầu về mặt nạ thích hợp chỉ ngụ ý rằng đầu ra phải là mặt nạ thích hợp cho một trong những thứ mà lời nhắc có thể đề cập đến (ví dụ: một điểm trên áo sơ mi có thể tượng trưng cho chiếc áo sơ mi hoặc người mặc nó). Nhiệm vụ này được sử dụng để đào tạo trước mô hình và hướng dẫn giải pháp cho các vấn đề phân đoạn chung ở phía dưới.

Meta nhận thấy rằng nhiệm vụ đào tạo trước và thu thập dữ liệu tương tác đặt ra những hạn chế nhất định đối với việc xây dựng mô hình. Đặc biệt, người chú thích của họ cần có khả năng sử dụng Mô hình bất kỳ phân đoạn nào trong trình duyệt, mang tính tương tác, trong thời gian thực, trên CPU để mô hình này hoạt động hiệu quả. Mặc dù thực tế là phải có sự thỏa hiệp nào đó giữa chất lượng và tốc độ để đáp ứng yêu cầu về thời gian chạy, nhưng họ phát hiện ra rằng cách tiếp cận đơn giản sẽ mang lại kết quả khả quan.

Ở mặt sau, bộ mã hóa hình ảnh tạo ra cách nhúng duy nhất cho hình ảnh, trong khi bộ mã hóa nhẹ có thể chuyển đổi ngay lập tức bất kỳ truy vấn nào thành vectơ nhúng. Sau đó, một bộ giải mã hạng nhẹ sẽ được sử dụng để hợp nhất hai nguồn dữ liệu này nhằm dự đoán mặt nạ phân đoạn. Sau khi tính toán nhúng hình ảnh, SAM có thể trả lời mọi truy vấn trong trình duyệt web với một phân đoạn trong khoảng 50 mili giây.

SAM là một công cụ hữu ích dành cho các chuyên gia và những người đam mê sáng tạo muốn chỉnh sửa hình ảnh và video một cách dễ dàng và linh hoạt. Nhưng trước tiên, bạn cần học cách truy cập và sử dụng nó.

Làm cách nào để sử dụng Mô hình phân đoạn bất kỳ (mô hình SAM)?

SAM được phát triển bởi Meta AI Research (trước đây là Facebook Nghiên cứu AI), và nó được công bố rộng rãi trên GitHub. Bạn cũng có thể thử SAM trực tuyến với thử nghiệm hoặc tải xuống tập dữ liệu (SA-1B) của 1 tỷ mặt nạ và 11 triệu hình ảnh. Mô hình này khá dễ sử dụng; chỉ cần làm theo các bước sau:

Tải xuống bản demo hoặc đi tới bản demo Mô hình phân đoạn bất kỳ.
Tải lên một hình ảnh hoặc chọn một hình ảnh trong thư viện.
Thêm và các lĩnh vực chủ đề
- Che dấu các khu vực bằng cách thêm điểm. Chọn Thêm vùng, sau đó chọn đối tượng. Tinh chỉnh mặt nạ bằng cách chọn Remove Area, sau đó chọn vùng.

Sau đó hoàn thành nhiệm vụ của bạn như bạn muốn!

Để biết thêm thông tin, hãy nhấp vào đây.

Hình ảnh lịch sự: Meta

AI 101

Bạn là người mới làm quen với AI? Bạn vẫn có thể lên tàu AI! Chúng tôi đã tạo một bảng chú giải chi tiết về AI cho các thuật ngữ trí tuệ nhân tạo được sử dụng phổ biến nhất và giải thích những kiến thức cơ bản về trí tuệ nhân tạo cũng như những rủi ro và lợi ích của AI. Hãy thoải mái sử dụng chúng. Học cách sử dụng AI là yếu tố thay đổi cuộc chơi! Các mô hình AI sẽ thay đổi thế giới.

Các công cụ AI chúng tôi đã xem xét

Hầu như mỗi ngày, một công cụ, mô hình hoặc tính năng mới xuất hiện và thay đổi cuộc sống của chúng ta, chẳng hạn như các plugin OpenAI ChatGPT mới và chúng tôi đã xem xét một số plugin tốt nhất:

Bạn có muốn tìm hiểu cách sử dụng ChatGPT hiệu quả? Chúng tôi có một số mẹo và thủ thuật dành cho bạn mà không cần chuyển sang ChatGPT Plus! Khi muốn sử dụng công cụ AI, bạn có thể gặp các lỗi như “ChatGPT hiện đang hoạt động hết công suất” và “quá nhiều yêu cầu trong 1-giờ thử lại sau”. Vâng, đó thực sự là những lỗi khó chịu, nhưng đừng lo lắng; chúng tôi biết cách khắc phục chúng. Đạo văn ChatGPT có miễn phí không? Đó là một câu hỏi khó để tìm ra một câu trả lời duy nhất. Nếu bạn sợ đạo văn, hãy sử dụng công cụ kiểm tra đạo văn AI. Ngoài ra, bạn có thể kiểm tra các chatbot AI và người viết bài luận AI khác để có kết quả tốt hơn.

Trong khi vẫn còn một số tranh luận về hình ảnh do trí tuệ nhân tạo tạo ra, mọi người vẫn đang tìm kiếm những công cụ tạo nghệ thuật AI tốt nhất. AI sẽ thay thế các nhà thiết kế? Hãy tiếp tục đọc và tìm hiểu.

Mục lục

Làm quen với SAM, công cụ phân đoạn hình ảnh AI mới của Meta xử lý các hình ảnh phức tạp cho bạn