Tin tức và phân tích của tất cả các thiết bị di động

Công nghệ OpenAI Point-E mang tính cách mạng cho phép tạo mô hình 3D trong vài phút

OpenAI Point-E đưa trí tuệ nhân tạo vào các trình tạo mô hình 3D, tiến thêm một bước nữa vào tương lai ngọt ngào, do robot, thống trị bởi AI. Giống như cách DALL-E đã cách mạng hóa cách chúng ta tạo ra đồ họa hai chiều, Point-E sẽ làm điều tương tự đối với đồ họa ba chiều và đã nhanh hơn đáng kể so với các đối thủ cạnh tranh như Dreamfusion của Google hay Magic3D của Nvidia. Nhưng nó có hoàn hảo không?

Theo nghĩa thông thường, Point-E không tạo ra vật thể 3D. Thay vào đó, nó tạo ra các đám mây điểm hoặc mô hình 3D được tạo thành từ các nhóm điểm dữ liệu riêng biệt trong không gian. Chúng ta hãy nhìn sâu hơn để xem liệu có đúng là OpenAI Point-E tốt hơn đối thủ của nó dù độ phân giải thấp hay không.

OpenAI Point-E là gì?

OpenAI Point-E là trình tạo mô hình 3D tạo ra hình ảnh 3D trong vài phút. Point-E, một hệ thống máy học có thể tạo vật thể 3D từ thao tác nhập văn bản, đã được OpenAI phát hành vào cộng đồng nguồn mở.

Hình ảnh lịch sự: OpenAI

Sử dụng công nghệ chuyển văn bản thành hình ảnh, OpenAI đã phát hành một phần mềm nguồn mở mới có tên Point-E. Trọng tâm của phần mềm là tạo ra các mô hình 3D như là kết quả cuối cùng. Nó vẫn ưu tiên phổ biến công nghệ trí tuệ nhân tạo từ quá trình phát triển của mình, nhưng không giống như DALL-E, nó sẽ đưa ra các mô hình ba chiều thay vì sản xuất hình ảnh tĩnh. Nói cách khác, OpenAI đã phát triển công nghệ này tương tự như dòng DALL-E, nhưng người tiêu dùng không nên mong đợi kết quả tương tự.

OpenAI Point-E kết hợp hai mô hình riêng biệt:

  • Mô hình chuyển đổi hình ảnh thành 3D và mô hình GLIDE. Cái trước có thể tạo hình ảnh từ các mô tả bằng văn bản, bao gồm các chương trình như DALL-E hoặc Stable Diffusion.
  • OpenAI đã sử dụng ảnh và vật thể 3D để dạy mô hình thứ hai của họ cách tạo đám mây điểm từ ảnh. Nhiều triệu vật thể 3D và thông tin của chúng đã được sử dụng trong chương trình đào tạo của công ty.

Hình ảnh lịch sự: OpenAI

Theo phát hiện của OpenAI, vẫn có chỗ xảy ra lỗi trong quy trình hai giai đoạn này. Tuy nhiên, nó nhanh đến mức có thể tạo ra các vật thể nhanh hơn Dreamfusion khoảng 600 lần.

“Chúng tôi đã trình bày Point·E, một hệ thống tổng hợp có điều kiện văn bản của các đám mây điểm 3D, trước tiên tạo ra các chế độ xem tổng hợp và sau đó tạo ra các đám mây điểm được tô màu dựa trên các chế độ xem này. Chúng tôi thấy rằng Point·E có khả năng tạo ra các hình dạng 3D đa dạng và phức tạp một cách hiệu quả dựa trên lời nhắc văn bản.”

OpenAI

Không giống như các phần mềm khác, có thể mất hàng giờ để tạo ra kết quả tương tự, phần mềm này chỉ cần sử dụng một GPU duy nhất để xử lý yêu cầu của người dùng đối với mô hình 3D nói trên. Có thể tiết kiệm thời gian và công sức trong khi vẫn nhận được kết quả mong muốn từ các nghệ sĩ và nhà thiết kế kết xuất mô hình 3D.

Hình ảnh thu được có thể được sử dụng trong bất kỳ mục đích nào yêu cầu mức độ chi tiết cao theo ba chiều: trò chơi điện tử, ứng dụng metaverse hoặc hậu kỳ cho phim.

Hình ảnh lịch sự (OpenAI): Ghế quả bơ, ghế bắt chước quả bơ

Hệ thống DALL-E đã biến đổi cách chuyển đổi văn bản thành hình ảnh; Point-E dự định làm điều tương tự cho chiều thứ ba. Việc tạo cảnh quan 3D bằng AI đòi hỏi phải tạo ra các vật thể và hình thức 3D theo yêu cầu ở tốc độ cao.


Kiểm tra chatbot OpenAI ChatGPT; mọi người đã yêu nó rồi!


OpenAI Point-E hoạt động như thế nào?

Nhóm OpenAI đã xây dựng một bộ sưu tập chứa hàng triệu mô hình 3D và xuất nó từ Blender. Một đám mây điểm được tạo từ những kết xuất này để thể hiện mật độ bố cục của đối tượng 3D. Sau khi xử lý thêm, tập dữ liệu đã được chuẩn bị để nhập vào mô hình Xem tổng hợp GLIDE, bao gồm loại bỏ các đối tượng phẳng và phân cụm dựa trên thuộc tính CLIP.

Bằng cách mô hình hóa đám mây điểm dưới dạng một tensor có hình dạng, nhóm nghiên cứu đã phát triển một cách tiếp cận mới để khuếch tán đám mây điểm. Sau đó, các tensor này được khử nhiễu dần dần để có dạng vật thể 3D cần thiết, chuyển từ hình dạng ngẫu nhiên hơn sang hình dạng mong muốn. Sau đó, đầu ra của mô hình khuếch tán này được gửi đến bộ lấy mẫu đám mây điểm, nâng cao chất lượng của sản phẩm cuối cùng. Sau đó, Blender được sử dụng để chuyển đổi các đám mây điểm thành các mắt lưới, giúp chúng có thể sử dụng được trong hầu hết các chương trình tạo mô hình 3D.

Để trả lời một truy vấn văn bản, chẳng hạn như “Một con mèo đang ăn bánh burrito”, Point-E trước tiên sẽ tạo ra một biểu diễn 3D phối cảnh tổng hợp về một con mèo đang ăn bánh tortilla. Sau khi tạo ra một hình ảnh, nó sẽ trải qua một chuỗi các mô hình khuếch tán để tạo ra đám mây điểm 3D, RGB của hình ảnh gốc, bắt đầu bằng một mô hình thô của 1,024 điểm và kết thúc bằng một mô hình tốt về 4,096 điểm.

OpenAI đã đăng mã nguồn mở của dự án trên Github.

Ví dụ về OpenAI Point-E

OpenAI Point-E vẫn đang ở giai đoạn đầu, nhưng kết quả rất hứa hẹn.

Tất nhiên, OpenAI Point-E không hoàn hảo. Hãy xem ví dụ dưới đây.

Hình ảnh lịch sự: OpenAI

Bạn có thể thử nó bằng cách nhấp vào đây. Bản trình diễn này tạo ra các đám mây điểm 3D từ các mô tả văn bản bằng cách sử dụng mô hình chuyển văn bản thành 3D nhỏ, chất lượng thấp hơn.


Bạn đang tự hỏi căn phòng của bạn sẽ như thế nào theo phong cách cyberpunk? Hãy thử AI nội thất


Trí tuệ nhân tạo gây tranh cãi giữa các nhà thiết kế

Chúng ta có thể mong đợi những loại tranh chấp sở hữu trí tuệ nào sẽ xảy ra trong tương lai? Các nghệ sĩ có thể bán tác phẩm của mình trên các trang web như CGStudio và CreativeMarket, đáp ứng nhu cầu ngày càng tăng về mô hình 3D. Các nghệ sĩ mô hình có thể phản đối nếu Point-E trở nên phổ biến và các mô hình của nó gia nhập thị trường, lập luận rằng AI thế hệ hiện tại đánh cắp đáng kể dữ liệu đào tạo của nó, trong ví dụ này là các mô hình 3D hiện có.

Giống như DALL-E 2Point-E không thừa nhận hoặc đề cập đến bất kỳ nghệ sĩ hoặc nhà sáng tạo nào khác có thể ảnh hưởng đến sự phát triển của nó.

Ngoài ra còn có một cuộc tranh luận đang diễn ra trên ArtStation và các nhà thiết kế nói “Không với hình ảnh do AI tạo ra”.

Tuy nhiên, OpenAI hiện đang tạm gác lại mối lo ngại đó. Bài viết của Point-E và trang GitHub đều không trích dẫn bản quyền.

AI sẽ thay thế các nhà thiết kế?

Cơn sốt mới nhất trong thiết kế là trí tuệ nhân tạo. Ngày nay, nhiều tổ chức và cá nhân CNTT đang chuyển sang sử dụng trí tuệ nhân tạo để tự động hóa hoàn toàn các quy trình của họ. Họ hành động theo cách này vì họ hiểu rằng xã hội tương lai sẽ bị cai trị bởi những công nghệ có thể cắt giảm đáng kể số lượng lao động mà con người phải thực hiện.

Nhiều nghệ sĩ trên ArtStation tin rằng việc so sánh hình ảnh do AI tạo ra với tác phẩm của họ là hạ thấp phẩm giá và làm suy yếu thời gian cũng như tài năng dành cho nó.

Ngành thiết kế không phải là một ngoại lệ, vì chúng ta đã bắt đầu chứng kiến ​​xu hướng phát triển của ngành nhờ AI. Chúng tôi đã giải thích những ưu điểm và nhược điểm của thiết kế trí tuệ nhân tạo. Đừng quyết định trước khi kiểm tra nó.


Kiểm tra các trình tạo nghệ thuật AI miễn phí tốt nhất


Chào mừng đến với kỷ nguyên do AI điều khiển

Chúng tôi đã giải thích một số công cụ AI tốt nhất như Uberduck AI, MOVIO AI, Meta’s Galactica AI, Notion AI, Make-A-Video, AI Dungeon, Chai và NovelAI. Bạn có biết còn có robot nghệ thuật AI? Kiểm tra Ai-Da.

Bạn có thích tạo hình ảnh AI không? Bạn có thể thử những công cụ này:

Đừng sợ thuật ngữ AI; chúng tôi đã tạo một bảng chú giải chi tiết về AI cho các thuật ngữ trí tuệ nhân tạo được sử dụng phổ biến nhất và giải thích những kiến ​​thức cơ bản về trí tuệ nhân tạo cũng như những rủi ro và lợi ích của trí tuệ nhân tạo.