矽谷101論壇:AI如何形塑沉浸式世界、遊戲與自動駕駛的未來

主持人:Jackie Feng ,矽谷101

講者:Shizhe Shen;Meta Metaverse顯示與光學部門資深總監;Yuanming Hu,Meshy.ai創辦人;Dheera Venkatraman,Wayve首席工程師,此前在Amazon擔任應用首席科學家

摘要

本篇記錄了矽谷101論壇的專家對談,深入探討了沉浸式世界的定義與挑戰。來自XR硬體、AI遊戲資產生成(Meshy)以及自動駕駛(Wave)領域的講者,分享了AI與生成式AI如何在各自的產業中,解決從硬體設計、內容創作到機器人訓練的關鍵問題,並討論了Sora 2等最新技術的影響,以及給予有志投入此領域者的建議。

Highlight

1.

VR設備的挑戰

Shizhe: 我們仍處於那個邊緣,還沒有真正起飛。但我認為這裡有兩個挑戰。

第一是,我們如何確保能透過我們的電子硬體和軟體,說服人們、說服人們的大腦去感受,「好的,這在某種程度上與真實世界相關,但又超越了它」。這是挑戰的一部分。

另一面是「隱形」,隱形指的是你如何讓顧客或使用者在使用這些設備或服務時,感覺不到中間有任何媒介;他們感覺不到重量,也感覺不到硬體和軟體造成的摩擦。

但在過去的10年或15年裡,這個行業已經進步了很多。供應鏈正在成熟,技術也在成熟,很多新事物正在出現。我確實覺得我們仍然只是觸及了XR的表面,或者現在在AI時代,這對我們的說服力方面有幫助,另一方面也從供應鏈、從我們如何改進計算等方面幫助我們。所以我希望我們能在不久的將來達到那個目標。

2.

Dheera:

模擬技術在AI出現之前就已經存在很長時間了。人們過去用非常傳統的模擬器來做,他們模擬這些物體的物理特性並把它們組合在一起。事實上,即使你去看Nvidia的Isaac,一個現在非常知名的模擬平台,它主要也是基於物理的。這對於很多事情來說是一個很好的起點,比如教機器人操縱、平衡或行走,因為這些都相對直接可以模型化。

當你開始進入更高級的東西,比如我們如何模擬路上的冰、雨、沙子、草地等等,用軟體以傳統方式去嘗試就變得不可能了。這時我們開始轉向思考,AI能否在有足夠數據的情況下,大規模地學習這些東西。

當然,你還必須平衡這一點與運行基於新型AI方法的模擬所需的計算資源。擴散模型(diffusion models)運行成本非常高,但不一定比派一堆人到真實世界去收集數據更昂貴。

逐字稿

定義沉浸式世界:挑戰與願景

Shizhe: 我們仍處於那個邊緣,還沒有真正起飛。但我認為這裡有兩個挑戰。

第一是,我們如何確保能透過我們的電子硬體和軟體,說服人們、說服人們的大腦去感受,「好的,這在某種程度上與真實世界相關,但又超越了它」。這是挑戰的一部分。

另一面是「隱形」,隱形指的是你如何讓顧客或使用者在使用這些設備或服務時,感覺不到中間有任何媒介;他們感覺不到重量,也感覺不到硬體和軟體造成的摩擦。

所以我會這樣定義這兩點。從我的領域來看,我從事顯示光學工作,思考第一個問題,也就是說服力。人們可能會想到,如果你用過任何VR設備,大家會討論視野、解析度或延遲等問題,所有這些都是為了確保當你使用它時,它能說服你。另一面,關於「隱形」的部分,我們還做得不夠好,但我們正在努力,也就是讓它變得輕巧、電池續航力更佳、易於穿戴和取下,並且體驗是無縫的。

Yuanming Hu: 我會將沉浸式世界定義為...我會將討論聚焦在電玩遊戲產業上,因為電玩遊戲是一個年營收達3000億美元的產業。而且我感覺電玩遊戲是我們目前擁有最受歡迎、商業上最成功的沉浸式世界。我認為電玩遊戲有兩個核心要素:第一,它們很有趣;第二,它們具有互動性。

有趣意味著人們會花費數小時,甚至數十小時的時間玩這些遊戲。而互動性則意味著它比其他形式的內容,如電影、音樂或小說,更具沉浸感。玩電玩遊戲正是透過讓玩家參與其中,以及遊戲如何圍繞你演進,來創造那種沉浸式體驗。那種即時回饋、在虛擬世界中的沉浸感,確實創造了那種有趣的體驗。這也使得電玩遊戲在商業上能夠持續發展,成為現今世界上最大的內容產業之一。

Dheera: 大家好,你們可能會好奇一個從事自動駕駛的人為什麼會出現在這個論壇上。我們生活在一個非常令人興奮的時代,沉浸式世界和生成式AI正與機器人技術結合在一起。主要原因是,我們都看到了ChatGPT和類似大型語言模型(LLM)的巨大成功。不幸的是,它們需要整個網路的數據來進行訓練。所以你在數萬億的tokens上進行訓練,幸運的是這些資訊存在,而且他們有基礎設施來訓練如此大量的數據。

不幸的是,當你進入機器人技術和自動駕駛領域時,很難獲得那麼大量的數據。即使你開了一百萬英里,你也不會有ChatGPT訓練時所用的數據規模。因此,如果我們想要走向通用機器人技術,並創建能與物理世界互動的基礎模型,這是一個嚴重的問題。所以,目前在許多公司(包括Wave和其他公司)正在嘗試的一個有趣的策略是,我們能否轉向模擬和生成式AI,來創造世界和「健身房」,讓機器人可以在裡面與世界互動玩耍。

現在,這種方法是否會成功還沒有定論。有些公司試圖透過投入金錢來大規模獲取真實世界的數據。我們會讓數據說話,但這裡有兩種不同的方法。

沉浸式世界的最大挑戰

主持人: Dheera也分享了他們領域面臨的挑戰。那麼Yuanming Hu和Shizhe,就你們稍早描述的沉浸式世界而言,目前最大的挑戰是什麼?也許從Yuanming Hu開始。

Yuanming Hu: 好的。我覺得創造高品質電玩遊戲的最大挑戰其實是獲取資產。最大的挑戰之一就是完成資產的製作。例如,如果你正在開發一款開放世界的RPG遊戲,你大約會花費40%到50%的預算來創造所有的資產、所有的場景,以確保你的玩家不會感到無聊,因為你想確保他們看到的任何東西都是新穎且製作精良的。

在傳統上,如果你想在一個3A級電玩遊戲中創造一個英雄角色,那至少需要你一週的時間和一千美元的預算來聘請藝術家進行模型製作、貼圖,並確保燈光和動畫效果都正常。這正是我們在Meshy試圖解決的問題之一。在Meshy,我們提供高品質的圖像和文本轉3D模型服務,讓你在兩分鐘內創建一個3D模型,成本不到一美元。這比傳統創建3D模型的方式效率高出一千倍。

我認為這只是降低製作電玩遊戲預算成本的起點,這個行業還有很多事情要做。總結來說,我會說生成資產、創造資產是最大的難題之一,而我們正在解決這個問題的路上。

Shizhe: 我想回到我之前提到的「說服力」和「隱形」。我認為這兩方面都有很多挑戰。從說服力來看,我認為第一大挑戰是我們對自身系統的理解,也就是我們的感知系統、視覺系統。如果你從視覺開始,我認為有很多事情我們還沒有完全理解我們的大腦如何與視覺信號互動。所以這部分整個行業都在努力地去更深入地理解。然後你可以將這些知識帶回來,利用新技術去真正匹配它。例如,我們說,人們如何對人類的陀螺儀和視覺提示之間的反應,那裡需要更短的延遲。我們如何定義那個延遲,然後如何用硬體來實現它。

所以第二部分與「隱形」部分相關,但我認為也與說服力有關,那就是關於整體的技術,跨越顯示光學(這當然是我日常工作的內容)到其他方面。比如,如果你想讓你的設備對你來說是「隱形」的,你需要戴上它整天都感覺不到它的存在,那麼你需要更好的電池、更好的晶片,以及所有其他東西,如何無線傳輸信號。所有這些我們現在都面臨挑戰。這就是為什麼今天你看不到真正那種為你設計的「隱形」設備。

但在過去的10年或15年裡,這個行業已經進步了很多。供應鏈正在成熟,技術也在成熟,很多新事物正在出現。我確實覺得我們仍然只是觸及了XR的表面,或者現在在AI時代,這對我們的說服力方面有幫助,另一方面也從供應鏈、從我們如何改進計算等方面幫助我們。所以我希望我們能在不久的將來達到那個目標。

AI:解鎖XR潛力的關鍵?

主持人: 挑戰總是與機會並存。也感謝各位與我們的觀眾分享了這些機會。現在讓我們進入個人問題。有些人可能認為AI是解鎖XR全部潛力的關鍵,你對此有何看法?我們真的很好奇,AI在XR領域的應用的真實現狀是什麼?

Dheera: 可以由我開始。在AI和模擬中,最大的問題是「模擬與現實的差距」(sim-to-real gap)。你創建了一堆模擬數據,然後用它來訓練模型,但模擬真的夠真實嗎?這是另一個完全不同的問題,我們必須圍繞它進行分析和創建嚴格的指標,來看模擬是否真的有效。

順帶一提,模擬技術在AI出現之前就已經存在很長時間了。人們過去用非常傳統的模擬器來做,他們模擬這些物體的物理特性並把它們組合在一起。事實上,即使你去看Nvidia的Isaac,一個現在非常知名的模擬平台,它主要也是基於物理的。這對於很多事情來說是一個很好的起點,比如教機器人操縱、平衡或行走,因為這些都相對直接可以模型化。

當你開始進入更高級的東西,比如我們如何模擬路上的冰、雨、沙子、草地等等,用軟體以傳統方式去嘗試就變得不可能了。這時我們開始轉向思考,AI能否在有足夠數據的情況下,大規模地學習這些東西。

當然,你還必須平衡這一點與運行基於新型AI方法的模擬所需的計算資源。擴散模型(diffusion models)運行成本非常高,但不一定比派一堆人到真實世界去收集數據更昂貴。

自動駕駛的不同技術路線

主持人: D...

Dheera: 當然。Nvidia的平台支持所有東西。在過去十年中,關於如何實現自動駕駛存在多種爭論。我將它們大致分為所謂的L2+或L3,這意味著人類有時需要接管。然後是L4、L5級別的公司,他們試圖實現讓你上車後可以睡覺、不用擔心,車子會全程自動駕駛把你送到目的地。

這在商業策略和技術上是非常不同的策略。Tesla和Wave都主要專注於前者,也就是你買自己的車,車子完成大部分駕駛,但你需要隨時注意路況並準備接管。後者則是像Waymo、Cruise以及過去十年中倒下的一大批公司,他們試圖做L4。安全要求要嚴格得多,因為你預期使用者可以睡著。你需要更多的感測器、備用系統等,還需要處理自主駕駛程式崩潰等許多問題,以及資本支出。

對於前一種方法,我個人認為,十年前很多人懷疑這種方法,因為切換需要反應時間。但FSD已經證明了它的實力,它在減少駕駛員焦慮和壓力方面做得很好,並且實際上因為駕駛員可能在方向盤前睡著而從事故中拯救了人們。FSD確實拯救了人們的生命。Wave正試圖為全球非Tesla的OEM廠商打造這項技術。

所以,這些是大致不同的方法。顯然,前一種方法,你的資本密集度會比較低,因為你必須賣出實際的車,你不能賣一輛20萬美元的車給普通人。但與此同時,感測器成本也在下降,我們有固態光達等新技術應用到新車上。

Meshy AI 的創新應用案例

主持人: 接下來的問題是給Yuanming Hu的。作為Meshy AI的顧客和粉絲,我很好奇除了娛樂業,有沒有什麼意想不到的用戶案例可以和我們分享,是讓你覺得有趣或充滿潛力的?

Yuanming Hu: 當然有。為電玩遊戲製作資產絕對是Meshy的主流用例之一,但還有很多其他的。一個最近興起的用例是3D列印。在美國,很多人會買3D印表機,但他們打開後發現的第一個問題是,「哦不,我沒有模型可以列印。」然後他們就開始在Thingiverse之類的網站上尋找3D列印模型,但他們永遠找不到符合自己想像、客製化的東西。所以他們就來到Meshy,使用文本轉3D或圖像轉3D來創建那個模型,然後把它3D列印出來。輸入可以是你孩子的一張照片,或你自己的照片,我們將它轉換成一個可列印的3D模型。

這是一個我們看到正在興起的非常有趣的用例。另一個有趣的用例,其實和Dheera提到的非常相關,人們用Meshy來創建杯子、桌子、椅子,或路上的障礙物,這樣他們就可以在模擬環境中用這些模型來訓練機器人。他們把Meshy當作合成訓練數據的來源。

最後一個我想分享的是,我們的社群裡有一位用戶,她曾經是一位非常厲害的3D模型師,但有一天因為一次意外,她再也不能做3D模型了,因為這是一項高度技巧性的工作。她非常沮喪,但她來到Meshy社群,只輸入了一些文字和一些參考圖片,突然間她感覺自己因為AI,又重新擁有了3D建模的技能。我認為這是我們做Meshy最有意義的原因,就是降低創建3D模型的門檻,這可以應用到很多行業。

Sora 2 對產業的影響

主持人: 我們都知道Sora 2這週超級受歡迎。我只是想知道這對你們目前的工作有沒有任何影響?

Dheera: 我想大家在社群媒體上都對Sora 2能做到的事印象深刻。我也想提一下,評估擴散模型有不同的方式。Sora 2很可能是根據其電影般的品質、外觀以及生成好萊塢和創作者可以使用的東西的能力來評估的。

這並不意味著它就夠真實,或者能彌補物理上的差距。事實上,我花了一些時間玩了一下,它在空間一致性方面其實做得很差。比如你往前走,轉過身,之前在那裡的東西就不見了。這對於機器人模擬或自動駕駛來說並不是很有用。所以像我們在做擴散模型時,其中一件事就是我們會非常嚴格地評估它們,看它們的空間一致性做得多好。如果你生成三個攝影機視角,這三個攝影機必須是同一個世界的。Sora可以假裝得很好,但那不是他們的指標。這可以理解,他們將會非常擅長像好萊塢那樣的東西,但在其他方面,使用擴散模型有不同的方式和不同的指標。

Yuanming Hu: 到目前為止,我大概花了四五個小時沉迷於Sora 2。它真的很有趣。但我想說,對於電玩遊戲,你需要更高層次的互動性。Sora 2作為一個影片擴散模型,無疑已經非常令人印象深刻,但問題是,你需要那種60 FPS的互動性,也就是說無論你按下哪個鍵,都會有立即的反應。我會說,在Sora 2能做到的和我們理想的互動水平之間,還有一定的距離。

Shizhe: 我唯一能說的是,我希望Sora可以支援3D影片渲染。

平衡傳統方法與AI技術

主持人: 在任何用例中,我們都需要平衡你提到的傳統物理方法,以及如何利用當前的AI技術。一個可能是關於成本,另一個是關於你提到的準確性。關於平衡這部分,能和我們分享更多嗎?

Dheera: 顯然,傳統的模擬運行起來便宜得多,但在開發人員工時和實現準確性方面,實施起來要昂貴得多。在使用這兩者之間其實還有一個中間地帶。例如,我們在Wave做的一件事,它被稱為Gaia(Generative AI for Autonomy),這是一個擴散模型,旨在測試自動駕駛車輛應對反事實情境或「假設情境」。比如,我有一段真實數據顯示車子這樣做了,這是從一輛實際車輛記錄下來的,但我們想問一個問題,「如果車子在這裡會怎麼樣?它會做什麼?」

這就是我們使用擴散模型的地方,我們會說,「好吧,把車移到這裡,像這樣重建這個世界,然後看看它可能會做什麼。」問題是,如果我們要求模型把車移到這裡並重新生成所有攝影機視角,它真的移動到我們想要它移動的地方了嗎?

所以,這裡有一個中間地帶,就是使用傳統的電腦視覺和模擬技術來評估你應用到擴散模型上的這些條件的準確性。所以我想指出,這裡有一個中間地帶,答案不必然是完全選擇其一。

Shizhe: 我或許可以把這個成本和價值的部分再概括一下。對於XR,我們長期以來一直在努力尋找人們願意付費的東西,而設備和內容的成本要下降。這一切都回歸到有一個成本部分,對我們來說是硬體成本,而另一邊是顧客的支付意願。支付意願是由價值定義的,與成本無關。無論你的成本多高,都不會直接轉化為顧客的支付意願。

所以從我們的角度來看,我們和整個行業都在努力思考如何提高XR所能提供的價值。回到AI,我認為也適用同樣的概念。AI是一個工具,它不是最終目標。最終目標是使用AI做某件事。那件事是值錢的。如果我們能提高那個價值並讓它變高,那麼成本問題就會被解決。當然,另一邊有技術進步、生產力提升,你可以降低成本,這使得這個平衡變成你的支付意願遠高於你的成本。我們希望那一天會到來。然後我們可以繼續推高支付意願,然後我們就可以設定我們的價格,讓它持續上升,那麼成本方面就不再是問題了。我希望那一天會到來。

Yuanming Hu: 我會將最近在使用影片模型於沉浸式世界方面的進展,與Google的Genie-3進行比較。使用Genie-3,你可以用方向鍵在場景中導航。我會將它與傳統的遊戲引擎如Unity或Unreal Engine比較。

讓我們想像一個非常簡單的問題:你有一個球體,在這一幀的x座標是1,下一幀你希望它移動到x座標為2的位置。在傳統遊戲引擎中,這只需要一個浮點運算,也就是1+1=2。但對於一個基於Transformer的影片擴散模型,這將需要你100 teraflops的運算量。問題是,基於Transformer的生成式AI模型用於即時互動體驗的成本,與傳統遊戲引擎的方法相比,要高得多。

好處是它對更多不同場景具有泛用性,而遊戲引擎是硬編碼的。所以必須有一個中間點,你可以獲得傳統遊戲引擎的效率,又能獲得影片擴散模型的泛用性。我認為目前的做法非常偏向於基於Transformer和AI的方法,但在更接近傳統遊戲引擎並結合AI的領域,還有一個未被充分探索的空間。所以我想可能還有另一個最佳平衡點,讓你可以兼顧效率、樂趣以及AI的泛用性。

給新進者的建議

主持人: 我相信今天很多觀眾都願意踏入這個沉浸式世界,無論是作為開發者、研究員還是創作者。你們對他們有什麼建議?

Dheera: 如果你想作為一名開發者加入,首先,學會寫程式,學習PyTorch。你應該要能熟練使用PyTorch,網路上有足夠的資源讓你自學。然後去實驗一些簡單的Transformer模型,所有這些資源在網路上都有,這絕對是基礎。一旦你做到了,就開始做一些專案來學習,持續努力,買一台幾千美元的GPU自己動手做。

當你準備好了,考慮去一家大規模做這件事的公司工作,因為有些事情你在家裡是做不到的。如果你想在PB級的數據上進行訓練,有很多技巧,尤其是在我們想要運行一個實驗,但又想運行一個較小版本的實驗時,有很多在行業內才能學到的東西。

Yuanming Hu: 我對這類問題的通用答案總是:要勇敢,採取行動,開始動手。創辦一家新創公司最困難的一步就是踏出第一步並開始。如果你們不想冒那麼大的風險,但仍想體驗新創生活,加入我們吧,我們也在招人。

Shizhe: 我們也在招人。這很難給出建議,因為觀眾背景非常多元。我會說,去找到正確的問題來解決,同時也要利用你的專業知識。對我來說重新學習程式語言可能很難,可能要花十年,那時候我希望我已經退休了。但我會說,每個人都帶來了自己獨特的知識或經驗。在這個領域,有太多不同的問題需要解決,從技術上跨越許多不同領域,到商業上,再到整個產業。所以找到正確的問題可能是最關鍵的,然後將它與你的專業知識結合,思考這兩者之間有什麼緊密的聯繫。

💡 對我們的 AI 研究助手感興趣嗎?

使用 AI 技術革新您的研究流程、提升分析效率並發掘更深層次的洞見。

了解更多