Tin tức và phân tích của tất cả các thiết bị di động

Công cụ AI mới của Google có thể phóng to và nâng cao, giống như trong phim

ảnh trước và sau của công cụ nâng cấp ảnh AI mới của Google

Bạn biết đấy, trong các bộ phim, khi có một hình ảnh trên máy tính và thám tử đứng cạnh The Guy In The Chair nói “bạn có thể phóng to và nâng cấp biển số xe đó không?” Công nghệ đó giờ đã trở thành hiện thực, nhờ vào các công cụ AI mới nhất của Google.

Quá trình để làm điều này là cực kỳ phức tạp và khó thành thạo, vì chúng dựa trên các mô hình khuếch tán (và một số toán học nâng cao nghiêm túc) và làm việc để thêm các chi tiết vào một hình ảnh ban đầu không có ở đó. Điều này được thực hiện bằng cách phỏng đoán sử dụng các hình ảnh tương tự và là một kỹ thuật mà Google gọi là tổng hợp hình ảnh tự nhiên và trong trường hợp này là hình ảnh siêu phân giải.

Rõ ràng, bạn bắt đầu với một hình ảnh nhỏ và có nhiều pixel (giống như các hình ảnh ở bên trái của mỗi bộ hình ảnh ở trên) và kết thúc với một hình ảnh có độ phân giải cao hơn nhiều, không chỉ trông sắc nét hơn mà còn trông thật đối với mắt người, thậm chí nếu nó không khớp chính xác 100% với bản gốc. Để hoàn thành công việc, Google đã sử dụng hai công cụ AI mới: Siêu phân giải thông qua sàng lọc lặp lại (SR3) và Mô hình khuếch tán theo tầng (CDM).

Đầu tiên, SR3, thêm nhiễu vào hình ảnh (điều này trông tương tự như tĩnh hoặc tuyết mà bạn nhìn thấy trên màn hình TV khi tín hiệu yếu), sau đó đảo ngược quá trình. Nó sử dụng một cơ sở dữ liệu lớn về hình ảnh và một loạt các phép tính xác suất để vạch ra phiên bản có độ phân giải thấp của hình ảnh trông như thế nào, Nhà nghiên cứu của Google Chitwan Saharia sẽ đi sâu hơn vào đây.

Các thế hệ ví dụ đã chọn của hình ảnh tự nhiên 256 × 256 có điều kiện của lớp để công cụ AI học hỏi.  Mỗi hàng chứa các ví dụ từ một lớp cụ thể.

Saharia giải thích: “Các mô hình khuếch tán hoạt động bằng cách làm hỏng dữ liệu huấn luyện bằng cách thêm dần tiếng ồn Gaussian, từ từ xóa sạch các chi tiết trong dữ liệu cho đến khi nó trở thành tiếng ồn thuần túy và sau đó đào tạo mạng nơ-ron để đảo ngược quá trình hỏng hóc này.

Công cụ thứ hai, CDM, sử dụng “đường ống” mà các mô hình khuếch tán khác nhau (bao gồm cả SR3) có thể được điều hướng thông qua để tạo ra các bản nâng cấp có độ phân giải cao. Công cụ này tạo ra những hình ảnh lớn hơn về các mô hình nâng cao bằng cách sử dụng các mô phỏng được tính toán cẩn thận dựa trên các xác suất nâng cao, mà Google đã xuất bản một bài báo nghiên cứu.

Kết quả cuối cùng? Khi nghiên cứu trình bày những hình ảnh cuối cùng cho mọi người trong một bài kiểm tra, họ đã chọn những khuôn mặt được tạo ra đã bị nhầm với khuôn mặt thật trong khoảng một nửa thời gian. Mặc dù tỷ lệ 50% có vẻ không thành công, nhưng nó phù hợp với những gì chúng ta có thể mong đợi với một thuật toán hoàn hảo. Google cho biết phương pháp này tạo ra kết quả tốt hơn các tùy chọn nâng cao hình ảnh khác, bao gồm các mạng đối thủ chung sử dụng các mạng thần kinh cạnh tranh để tinh chỉnh hình ảnh.

Google cho biết họ dự định làm nhiều việc hơn với các công cụ AI này và các công nghệ liên quan của chúng, ngoài phạm vi nâng cấp hình ảnh, giống như các lĩnh vực mô hình xác suất khác. Và mặc dù công nghệ “thu phóng và nâng cao” này sẽ giúp bạn dễ dàng thực hiện những việc như nâng cấp ảnh cũ, nhưng nó chắc chắn cũng có tiềm năng không thể phủ nhận, chẳng hạn như phóng to và chỉnh sửa ảnh hoặc biển số xe hoặc bất cứ thứ gì khác.

qua Science Alert