OpenAI 推出 Point-E,類似於 DALL-E,但用於 3D 建模

OpenAI 推出了 POINT-E,這是一種類似 DALL-E 的演算法,但適用於 3D 模型。結果已經非常令人印象深刻。

開放人工智慧,啟動人工智慧由馬斯克創立,負責流行的 DALL-E 文字到圖像生成器,宣佈出版其新的 POINT-E 演算法,能夠根據文本指導產生 3D 點雲。 Google DreamFusion 等現有系統通常需要幾個小時和大量運算能力才能產生影像,而 POINT-E 只需要一個 GPU 和一分鐘的工作時間。

3D建模應用於許多產業應用。現代大電影的 CGI 效果電玩遊戲、VR與AR、NASA的隕石坑測繪任務、Google的地標保護計畫、Meta的虛擬宇宙願景,都依賴3D建模。話雖如此,儘管 NVIDIA 致力於自動化物件生成和行動應用程序,但創建逼真的 3D 圖像仍然需要大量資源和時間現實捕捉來自 Epic Games 工作室,任何擁有 iOS 智慧型手機的人都可以將現實世界的物件掃描成 3D 模型。

文字到圖像系統,例如OpenAI DALL-E 2而 Craiyon、DeepAI、Prisma Lab Lensa 和 Hugging Face Stable Diffusion 迅速獲得知名度和惡名,但近年來也引發了激烈的爭議。 Text-to-3D 是這些系統的擴充。 POINT-E 與類似系統不同,“使用大量關聯(文字、圖像),使其能夠遵循多樣化且複雜的指示,而我們的 3D 圖像到模型是在更嚴格的成對資料庫(圖像、 3D)” ,Alex Nichol 領導的OpenAI 研究團隊在一篇技術論文中解釋。 「為了從簡單文字生成 3D 對象,我們首先使用文字到圖像模型獲取圖像,然後從該 2D 圖像生成 3D 圖像。這兩個步驟可以在幾秒鐘內完成,並且不需要昂貴的優化程序。 »

結果已經非常令人印象深刻

如果您輸入“貓吃墨西哥捲餅”之類的文本,POINT-E 將首先生成貓吃墨西哥捲餅的合成 2D 視圖。然後,它將透過一系列擴散模型運行該影像,以創建初始影像的 3D RGB 點雲,首先產生 1,024 個點雲模型,然後產生更精細的 4,096 個點雲模型。 「在實踐中,我們假設圖像包含文本中的相關信息,並且沒有明確條件文本中的點雲,」該團隊表示。

這些交付模型都經過「數百萬」3D 模型的訓練,並全部轉換為標準化格式。 「儘管我們的方法在這方面的使用效率低於最先進的技術,」該團隊承認,「但它生成內容的時間僅為這些相同技術所需時間的一小部分。 » 如果您想親自嘗試 POINT-E,請知道 OpenAI 已發布了該程式碼GitHub 上的開源專案