AI的下一個篇章:從語言模型到空間智慧的躍進
Roger’s Takeaway
李飛飛是另一個認為現在LLM不是AI終極解答的另一個科學家。
從李飛飛的角度,她認為語言模型是一維的,真實世界是三維的,因此這個世界AI的解答是空間智慧,也就是符合物理定律的智慧。
Yann Lecun也有類似的概念,只是他稱為世界模型。
想了解更多AI科學家重要時間軸與歷史,可以至此網頁查看。
摘要
AI的下一個篇章不是關於更好的語言模型,而是關於像理解文本一樣基礎地理解3D世界。最近,World Labs推出了他們的第一個產品Marble。World Labs的共同創辦人Fei-Fei Li和Justin Johnson與A16Z的普通合夥人Martin Casado一起,談論了2009年ImageNet的百萬圖像賭注如何解鎖了現代電腦視覺,為何今日的多模態模型儘管處理像素,卻仍被困在一維空間中,以及他們的團隊如何建立基礎設施,以便像我們今天生成文本一樣輕鬆地生成完全互動的3D世界。從重建與生成的融合重新定義了電腦視覺,到為何AR、VR和機器人迫切需要原生的3D理解,這是四位傳奇研究人員賭上一切的故事,他們相信通往通用人工智慧(AGI)的道路必須經過空間智慧。
Martin Casado
Martin Casado是本次對談的主持人,他是創投公司 Andreessen Horowitz (a16z) 的普通合夥人。他不僅是一位投資人,更是一位在電腦科學領域有著深厚背景的技術專家和成功的創業者。
創業成就:他是軟體定義網路 (Software-Defined Networking, SDN) 領域的先驅。他在 Stanford 大學攻讀博士期間的研究,催生了他共同創辦的公司 Nicira。該公司後來在2012年被 VMware 以12.6億美元收購,是當時史上最大規模的收購案之一,也徹底改變了網路產業的樣貌。
學術背景:他擁有 Stanford 大學的電腦科學博士學位,這讓他具備了與頂尖AI研究員進行深度技術對話的能力。
投資領域:在 a16z,他專注於企業軟體、基礎設施和AI領域的投資,致力於支持下一代顛覆性技術的發展。他被認為是能橫跨學術研究、成功創業與頂級投資三個領域的代表性人物。
Fei-Fei Li (李飛飛)
Fei-Fei Li 是人工智慧領域的全球權威,尤其在電腦視覺領域做出了奠基性的貢獻。她是 World Labs 的共同創辦人,也是 Stanford 大學的教授。
ImageNet計畫:她最著名的成就是創建了 ImageNet。這是一個包含超過1400萬張已標註圖像的大型數據庫,其舉辦的年度挑戰賽極大地推動了深度學習和電腦視覺的發展,被認為是點燃當前AI革命的火花。
學術領導地位:她是 Stanford 以人為本人工智慧研究院 (Institute for Human-Centered AI, HAI) 的共同院長,致力於推動AI技術在造福人類的同時,也關注其倫理和社會影響。
研究貢獻:她的研究橫跨電腦視覺、機器學習、深度學習、認知神經科學等多個領域,始終專注於實現機器的「視覺智慧」,也就是她所說的「北極星」。
Justin Johnson
Justin Johnson 是一位傑出的AI研究科學家,專長於電腦視覺和生成模型。他是 World Labs 的共同創辦人,同時也是密西根大學的助理教授。
學術與研究突破:他在 Stanford 大學攻讀博士期間(指導教授即為Fei-Fei Li),在多個前沿領域做出了重要貢-獻。他因在「神經風格轉換」(Neural Style Transfer)方面的開創性研究而聞名,該技術能將一張圖片的藝術風格應用到另一張圖片上。
3D視覺先驅:他的研究興趣從2D圖像生成,逐漸轉向更具挑戰性的3D世界理解與生成,其工作對後來的神經輻射場(NeRF)等3D表示技術產生了影響。
技術實踐者:他的職業生涯完美體現了從學術理論到實際應用的轉變,致力於將最前沿的AI演算法轉化為能解決真實世界問題的技術。
Pietro Perona 教授簡介
Pietro Perona是全球電腦視覺領域的奠基者和權威人物之一。他是加州理工學院(Caltech)電子工程與計算及神經系統學的講座教授。他的研究深刻地影響了機器如何理解和分類視覺世界。
主要經歷與成就:
電腦視覺與物體辨識的先驅:Perona教授的早期研究為現代物體辨識系統奠定了基礎。他致力於讓電腦能夠像人類一樣,從圖像中辨識和分類物體(例如貓、汽車、椅子)。
細粒度視覺分類 (Fine-grained Visual Categorization):他是該領域的開創者。這項研究不僅僅是讓電腦辨識出「一隻鳥」,而是要能精確辨識出鳥的具體品種(例如「北美紅雀」或「藍樫鳥」)。這需要極其精細的特徵分析,對後來的AI應用如商品辨識、生物多樣性監測等有重大影響。
計算與神經科學的橋樑:他的研究領域橫跨工程學和神經科學,試圖從人類視覺系統的運作方式中獲得靈感,以建立更強大的電腦視覺模型。他是加州理工學院著名的計算與神經系統 (Computation and Neural Systems, CNS) 博士課程的共同創辦人,該課程培養了許多跨領域的頂尖人才。
學術影響力與產業結合:他創辦了Visipedia計畫,這是一個結合電腦視覺專家與公民科學家(例如鳥類愛好者)的項目,共同建立大規模、高品質的視覺數據集。此外,他也曾擔任亞馬遜AWS的院士(Amazon Fellow),並共同創辦了AI公司Scyfer,該公司後來被高通(Qualcomm)收購。
總而言之,Perona教授不僅是一位傑出的科學家,更是一位充滿遠見的教育家,他培養了許多當今AI領域的領軍人物。
Pietro Perona是串聯Fei-Fei Li和Justin Johnson兩位講者的關鍵人物,是他們在加州理工學院(Caltech)時期共同的學術導師,形成了一條清晰的學術傳承鏈。
與Fei-Fei Li的關係:
Pietro Perona是Fei-Fei Li的博士學位指導教授。Fei-Fei Li在Caltech攻讀博士時,正是在Perona的指導下,專注於AI和計算神經科學的研究。這段經歷為她後來開創ImageNet計畫、成為電腦視覺領域的權威奠定了堅實的基礎。可以說,Perona是將她引領進視覺智慧這個「北極星」方向的啟蒙導師。
與Justin Johnson的關係:
Pietro Perona是Justin Johnson的大學部指導教授 (Undergraduate Advisor)。Justin在Caltech主修數學和電腦科學時,Perona教授的指導激發了他對電腦視覺和AI的濃厚興趣。在大學生涯的尾聲接觸到深度學習,並在Perona這樣的頂尖學者影響下,為他後來決定投身AI研究並前往Stanford跟隨Fei-Fei Li深造鋪平了道路。
Ben Mildenhall
Ben Mildenhall被譽為神經輻射場(NeRF)的共同發明人,這項技術徹底改變了AI從2D圖像生成3D場景的方式。
主要經歷與成就:
NeRF的發明:在加州大學柏克萊分校(UC Berkeley)攻讀博士期間,他與同事共同發表了名為**《NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis》**的論文。這項技術能夠僅用幾張2D照片,就創建出一個極其逼真、細節豐富的3D數位場景,並且可以從任何新的視角進行渲染。NeRF的出現被視為3D視覺領域的里程碑,為後續無數的研究和應用(包括高斯潑濺)開闢了道路。
神經渲染領域的領導者:NeRF的成功使他成為**神經渲染(Neural Rendering)**領域的權威人物。這是一個結合了深度學習和電腦圖學的交叉學科,旨在用AI模型來生成和操作逼真的圖像與場景。
頂尖研究經驗:在共同創辦World Labs之前,他在Google Research擔任研究科學家,持續推動3D視覺和AI技術的前沿發展。
他在團隊中的角色,是將最核心、最前沿的3D場景表示與生成技術帶入World Labs,是公司技術路線的關鍵奠基人。
Christoph Lassner
Christoph Lassner是一位在3D表示法與電腦圖學領域具有非凡遠見的科學家。他在多年前的研究就已經預示了當前主流技術的發展方向。
主要經歷與成就:
高斯潑濺(Gaussian Splatting)的先驅:高斯潑濺是目前最先進的即時3D渲染技術之一。如節目中所提,Christoph在該技術普及的五年前,就已經在研究類似的、基於點雲和高斯分佈的3D場景表示方法。這種超越時代的洞察力,使他在該領域備受尊敬。
3D人體建模專家:他的研究重點之一是創建高度逼真的數位人類模型,包括姿態、形狀和外觀的3D重建。這項工作對於虛擬實境(VR)、擴增實境(AR)以及電影特效等應用至關重要。
豐富的產學研背景:他擁有頂尖的學術背景,曾在德國著名的馬克斯·普朗克研究所(Max Planck Institute)進行研究。同時,他也曾在Meta(Facebook Reality Labs)和Amazon等頂尖科技公司工作,擁有將前沿研究轉化為實際產品的豐富經驗。
他在團隊中的角色,是貢獻其在電腦圖學、高效3D表示法以及人體建模方面的深厚專業知識,確保World Labs的技術不僅在AI層面領先,在渲染效率和真實感方面也能達到頂尖水準。
Highlight
1.
AI的下一個篇章不是關於更好的語言模型。
2.
在過去的兩年裡,我們看到消費性AI公司和技術的大量湧現,這相當瘋狂,但你們從事這項工作已經數十年了。所以也許可以稍微談談我們是如何走到這一步的,以及你們在此過程中的關鍵貢獻和見解。
這確實是一個非常激動人心的時刻。回顧過去,AI正處於一個非常激動人心的時刻。我個人從事這項工作已經超過二十年了,我們已經走出了上一個AI的寒冬,我們見證了現代AI的誕生。然後我們看到了深度學習的起飛,向我們展示了像下棋這樣的可能性。但接著我們開始看到技術的深化以及產業對一些早期可能性的採納,像是語言模型。而現在,我認為我們正處於一場寒武紀大爆發之中。這幾乎是字面意義上的,因為現在除了文本,你還能看到像素、影片、音訊,所有這些都伴隨著可能的AI應用和模型出現。所以這是一個非常令人興奮的時刻。
3.
Justin Johnson
我第一次接觸AI是在大學畢業時。我在Caltech主修數學和電腦科學,那段經歷很棒。但在那段時間的尾聲,有一篇論文發表了,當時是一篇非常著名的論文,也就是「貓咪論文」,來自Honglak Lee、Andrew Ng和其他當時在Google Brain的學者。那是我第一次接觸到深度學習這個概念。對我來說,那感覺像是一項驚人的技術。這是我第一次接觸到這個配方,它後來定義了我生命中接下來的十多年,也就是你可以得到這些非常強大且通用的學習演算法,將它們與大量的運算能力和大量的數據結合起來,當你結合這些元素時,神奇的事情就開始發生了。我第一次接觸這個想法大約是在2011年、2012年左右,我當時就想,天啊,這就是我想做的事。
很明顯,要做這件事就必須去念研究所,然後我看到Fei-Fei在Stanford,是當時世界上少數幾個走在這條路上的人之一。那真是一個投身深度學習和電腦視覺領域的絕佳時機。因為那正是這個領域從最初萌芽的技術開始真正發揮作用,並被開發和擴展到大量不同應用的時代。在那段時間裡,我們看到了語言模型的開端,我們看到了判別式電腦視覺的開端,你可以拍攝照片並以多種不同方式理解其中的內容。我們也看到了一些我們現在稱之為生成式AI的早期雛形,生成模型、生成圖像、生成文本。很多這些核心演算法的要素其實是在我讀博士期間由學術界解決的。那段時間,我每天早上醒來,查看arXiv上的新論文,就像在聖誕節拆禮物一樣。每天你都知道世界上某個地方會有驚人的新發現,驚人的新應用或演算法。接下來的兩年,世界上的其他人也意識到了同樣的事情,開始利用AI每天獲得新的聖誕禮物。但我想對於我們這些在這個領域待了十年或更久的人來說,我們很早就已經有這種體驗了。
4.
李飛飛
我是從一個不同的角度接觸AI的,那就是物理學,因為我的大學背景是物理學。物理學是那種教你思考大膽問題的學科,思考世界上還剩下什麼未解之謎。當然,在物理學中,這是關於原子世界、宇宙等等。但不知何故,那種思維訓練引導我思考那些真正抓住我想像力的大膽問題,也就是智慧。所以,我在Caltech攻讀了AI和計算神經科學的博士學位。所以Justin和我其實沒有重疊,但我們共享同一個母校Caltech。
還有同一個指導教授。
是的,同一個指導教授,你的大學指導教授和我的博士指導教授Pietro Perona。在我的博士時期,這和你的博士時期很像,當時AI在公眾眼中仍處於寒冬。但它在我的眼中並非寒冬,因為那是春天來臨前的冬眠期,充滿了生機。機器學習、統計模型正在真正獲得力量。我認為我是機器學習和AI的原生代,而我認為Justin這一代是深度學習的原生代。所以機器學習是深度學習的前身,我們當時正在試驗各種模型。
但在我博士學位快結束,以及我剛開始擔任助理教授時,出現了一件事。AI中有一個被忽略的元素,它在數學上對於推動泛化至關重要。但整個領域並沒有那樣思考,那就是數據。因為我們當時在思考貝氏模型或核方法的複雜性等等。但我和我的實驗室學生可能比大多數人更早意識到一個根本性的問題,那就是如果你讓數據驅動模型,你就能釋放出我們前所未見的力量。
這就是我們在ImageNet上進行那場瘋狂賭注的真正原因,也就是,忘掉我們現在看到的任何規模,那時只有幾千個數據點。當時,我記得自然語言處理社群有他們自己的數據集,UCIrvine數據集或NLP中的某些數據集都很小。電腦視覺社群也有他們的數據集,但都只有幾千或幾萬的規模。而我們當時的想法是,我們需要將它推向網路規模。幸運的是,那也正是網路時代的來臨,所以我們乘著那股浪潮。那時我來到Stanford。
5.
Justin
我認為最大的突破是運算能力。我知道AI的故事常常是關於運算能力的故事,但無論人們談論多少,我認為人們都低估了它。我們在過去十年中看到的運算能力增長是驚人的。真正被認為是深度學習在電腦視覺領域取得突破性時刻的論文是AlexNet。那是在2012年的一篇論文,其中一個深度神經網路在ImageNet挑戰賽上表現出色,並且完全超越了所有其他Fei-Fei曾經研究過的演算法,也就是在她讀研究所時期的那些演算法。那個AlexNet是一個擁有6000萬參數的深度神經網路,它在兩張GTX 580上訓練了六天,這是當時頂級的消費級顯卡,於2010年推出。
6.
李飛飛
實際上,AlexNet和卷積神經網絡之間唯一的差別,差別在於那兩顆GPU和海量的數據。
我想現在大多數人都熟悉所謂的「慘痛教訓」。這個教訓是說,如果你在設計演算法,別耍小聰明,只要確保它能利用現有的運算能力就好,因為運算能力總會出現。
另一方面,還有另一種說法,在我看來也同樣可信,那就是新的數據來源才是解鎖深度學習的關鍵,對吧?像ImageNet就是一個很好的例子。
自注意力機制對於Transformer來說很棒,但也有人會說,這是一種利用人類標註數據的方式,因為是人類將結構放入句子中。如果你看CLIP,嗯,我會說我們正在利用網路,讓人類使用alt標籤來標註圖像,對吧?所以這是一個關於數據的故事,而不是一個關於運算能力的故事。所以答案是兩者皆是,還是說其中一個比另一個更重要?
我認為是兩者皆是。但你觸及了另一個很好的點。我認為實際上,在演算法上,有兩個對我來說相當不同的時代。ImageNet時代其實是監督式學習的時代。在監督式學習的時代,你有很多數據,但你不知道如何單獨使用數據。對於ImageNet和那個時期的其他數據集,當時的期望是,我們會得到很多圖像,但我們需要人們來標註每一張圖像。所有我們將要訓練的數據,都有一位人類標註員看過並對該圖像說了一些話。
而演算法上的重大突破是,我們知道如何在不需要人類標註數據的情況下進行訓練。
7.
李飛飛
即使在我念研究所的時候,生成模型就已經存在了。我們想做生成,沒人記得,即使是字母和數字,我們也試圖做一些生成。Geoff Hinton發表過生成模型的論文。我們當時在思考如何生成。事實上,如果你從機率分佈的角度思考,你在數學上是可以生成的,只是我們生成的任何東西都無法讓人驚艷。所以,這個生成的概念,在數學上、理論上是存在的。
但沒有任何東西行得通。
Justin的博士學位,他整個博士生涯幾乎就是這個領域發展軌跡的縮影。他第一個專案是從數據開始的,我逼他做的。他並不喜歡。
8.
Justin
2015年有一篇論文發表,叫做「神經風格藝術演算法」,由Leon Gatys主導。論文發表後,他們展示了一些真實世界的照片,並將它們轉換成梵谷風格。我們在2024年對這類東西已經習以為常了,但那是在2015年。有一天這篇論文突然出現在arXiv上,讓我大開眼界。我2015年腦中就中了這個生成式AI的毒,它對我產生了影響,我心想,天啊,我需要理解這個演算法,我需要玩玩看,我需要把我的照片也變成梵谷風格。所以,我讀了那篇論文,然後在一個長週末,我重新實現了那個東西,並讓它成功運作。這其實是一個非常簡單的演算法。所以我的實作大概是300行的Lua程式碼,因為當時是前PyTorch時代。
9.
李飛飛
所以空間智慧是關於機器在3D空間和時間中感知、推理和行動的能力。去理解物體和事件如何在3D空間和時間中定位,世界中的互動如何影響它們在時空中的4D位置,並且能夠感知、推理、生成、互動,真正地將機器從主機或數據中心中解放出來,放到真實世界中,並以其所有的豐富性理解3D、4D世界。
所以為了非常清楚,我們是在談論物理世界,還是只是一個抽象的世界概念?
我認為兩者都可以。我認為兩者都可以,而且這也涵蓋了我們長期的願景。即使你在生成世界,即使你在生成內容,將其定位在3D空間中也有很多好處。或者,如果你在辨識真實世界,能夠將3D理解應用於真實世界也是其中的一部分。
10.
這是你長期旅程的一部分嗎?你為什麼決定現在做這件事?這是一個技術上的突破,還是個人的突破?帶我們從AI研究的那個環境進入到World Labs的世界。
對我來說,這既是個人的也是學術上的。我的整個學術旅程其實就是追尋北極星的熱情,同時也相信那些北極星對於我們領域的進步至關重要。
所以在剛開始,我記得研究所畢業後,我以為我的北極星是講述圖像的故事,因為對我來說,那是視覺智慧中非常重要的一部分,也是你所說的AI或AGI的一部分。但當Justin和Andrej做到那件事時,我心想,天啊,這就是我一生的事業,接下來我該做什麼?
所以,它的到來比我想像的快得多。我以為那需要一百年才能做到。但視覺智慧是我的熱情所在,因為我確實相信,對於每一個有智慧的生物,像是人類或機器人,或其他形式,知道如何看見世界、推理它、與之互動,無論是導航、操作還是創造事物,你甚至可以在此基礎上建立文明。
視覺空間智慧是如此基礎,它和語言一樣基礎,甚至可能在某些方面更古老、更根本。所以對我來說,我的北極星是解鎖空間智慧,這是很自然的。
時機對我來說是恰當的。
我們已經擁有了這些要素。我們有運算能力,我們對數據有了更深刻的理解,比ImageNet時代深刻得多。相較於那個時代,我們現在要複雜得多。而且我們在演算法上也有了一些進展,包括World Labs的共同創辦人,像是Ben Mildenhall和Christoph Lassner,他們都處於nerf的前沿。我們正處於一個正確的時機,真正下注並專注於解鎖這件事。
11.
我認為這裡還有另一個方面,也許領域外的人不太理解。那也是大型語言模型開始起飛的時候。所以很多關於語言模型的工作,其實在學術界已經發展了,甚至在我讀博士期間,我還和Andrej Karpathy做了一些早期的語言模型工作,那是在2014年。
是的,有LSTM、RNN、GRU,那是在Transformer之前。但後來,大約在GPT-2時期,你基本上無法在學術界再做那類模型了,因為它們需要太多的資源。但有一件非常有趣的事情,Ben提出的Nerf方法,你可以在單一GPU上幾個小時內訓練好。所以我認為在那個時候,出現了一種動態,那就是我認為很多學術研究人員最終都專注於這些問題,因為有核心的演算法問題需要解決,而且你可以在沒有大量運算能力的情況下做很多事情,並且在單一GPU上獲得最先進的結果。由於這些動態,有很多研究,很多學術界的研究人員開始思考,我們可以用哪些核心的演算法方法來推動這個領域的發展。
12.
Justin
語言模型和我們今天看到的多模態語言模型,它們底層的表示法是一個一維的表示法。我們談論上下文長度,我們談論Transformer,我們談論序列,注意力機制。從根本上說,它們對世界的表示是一維的。所以這些東西基本上是在一個一維的標記序列上運作的。當你在處理語言時,這是一種非常自然的表示法,因為書面文本就是一個一維的離散字母序列。所以那種底層的表示法,就是導致大型語言模型誕生的東西。而現在我們看到的多模態大型語言模型,你有點像是把其他模態硬塞進這個一維標記序列的底層表示法中。現在,當我們轉向空間智慧時,情況正好相反,我們認為世界的三維本質應該是表示法的核心。所以從演算法的角度來看,這為我們以不同的方式處理數據,獲得不同種類的輸出,以及解決稍微不同的問題打開了大門。所以即使從表面上看,你看著外面說,哦,多模態大型語言模型也可以看圖像,嗯,它們可以,但我認為它們沒有那個根本的3D表示法作為其方法的覈心。
13.
李飛飛
我完全同意Justin的看法。我認為談論一維與根本上的三維表示法,是其最核心的區別之一。另一件事,這有點哲學性,但對我來說非常重要,那就是語言從根本上說是一個純粹生成的信號。世界上並不存在現成的語言,你不會在自然界中發現寫在天上的文字。無論你輸入什麼數據,你基本上都可以用足夠的泛化能力,重新 regurgitate 出相同的數據,這就是語言到語言的過程。但3D世界不是,確實存在一個3D世界,它遵循物理定律,由於材料和其他許多因素而有其自身的結構。從根本上把那些資訊還原出來,並且能夠表示它、生成它,這根本上是個非常不同的問題。我們會借鑒語言和大型語言模型的相似或有用的想法,但這在哲學上根本是個不同的問題。
14.
是的,我不認為我們能完全達到。我認為這是一件非常根本的事情,宇宙是一個巨大的、不斷演變的四維結構。而廣義上的空間智慧,就是以其所有的深度去理解它,並找出所有與之相關的應用。所以我認為,儘管我們今天心中有一套特定的想法,但這趟旅程將會帶我們去到我們現在無法想像的地方。
好的技術的魔力在於,技術會開啟更多的可能性和未知。所以我們會不斷推進,然後可能性也會不斷擴大。
逐字稿
對我來說,這在哲學上根本是個不同的問題。過去十年主要在於理解已經存在的數據。但未來十年將是關於理解新的數據。
視覺空間智慧是如此基礎,它和語言一樣基礎。
就像在聖誕節拆禮物一樣,每天你都知道會有某個驚人的新發現,某個驚人的新應用或演算法出現。
如果我們看見某樣東西,或者我們想像某樣東西,兩者都可以趨向於生成它。
我認為我們正處於一場寒武紀大爆發之中。
AI的下一個篇章不是關於更好的語言模型。
它是關於像理解文本一樣基礎地理解3D世界。
最近,World Labs推出了他們的第一個產品Marble。因此,我們正在重播迄今為止最受歡迎的一段對話,這是與World Labs共同創辦人Fei-Fei Li和Justin Johnson的討論,探討為何空間智慧是實現真正智慧機器的關鍵缺失環節。
Fei-Fei和Justin與A16Z的普通合夥人Martin Casado一起,談論了2009年ImageNet的百萬圖像賭注如何解鎖了現代電腦視覺。
為何今日的多模態模型儘管處理像素,卻仍被困在一維空間中,以及他們的團隊如何建立基礎設施,以便像我們今天生成文本一樣輕鬆地生成完全互動的3D世界。
從重建與生成的融合重新定義了電腦視覺,到為何AR、VR和機器人迫切需要原生的3D理解。
這是四位傳奇研究人員賭上一切的故事,他們相信通往通用人工智慧(AGI)的道路必須經過空間智慧。
讓我們開始吧。
在過去的兩年裡,我們看到消費性AI公司和技術的大量湧現,這相當瘋狂,但你們從事這項工作已經數十年了。所以也許可以稍微談談我們是如何走到這一步的,以及你們在此過程中的關鍵貢獻和見解。
這確實是一個非常激動人心的時刻。回顧過去,AI正處於一個非常激動人心的時刻。我個人從事這項工作已經超過二十年了,我們已經走出了上一個AI的寒冬,我們見證了現代AI的誕生。然後我們看到了深度學習的起飛,向我們展示了像下棋這樣的可能性。但接著我們開始看到技術的深化以及產業對一些早期可能性的採納,像是語言模型。而現在,我認為我們正處於一場寒武紀大爆發之中。這幾乎是字面意義上的,因為現在除了文本,你還能看到像素、影片、音訊,所有這些都伴隨著可能的AI應用和模型出現。所以這是一個非常令人興奮的時刻。
我知道你們兩位都非常出色,很多人也因為你們在該領域的傑出表現而認識你們。但並不是每個人都隨著AI成長。所以也許值得簡單介紹一下你們的背景,讓聽眾有所了解。
好的,當然。我第一次接觸AI是在大學畢業時。我在Caltech主修數學和電腦科學,那段經歷很棒。但在那段時間的尾聲,有一篇論文發表了,當時是一篇非常著名的論文,也就是「貓咪論文」,來自Honglak Lee、Andrew Ng和其他當時在Google Brain的學者。那是我第一次接觸到深度學習這個概念。對我來說,那感覺像是一項驚人的技術。這是我第一次接觸到這個配方,它後來定義了我生命中接下來的十多年,也就是你可以得到這些非常強大且通用的學習演算法,將它們與大量的運算能力和大量的數據結合起來,當你結合這些元素時,神奇的事情就開始發生了。我第一次接觸這個想法大約是在2011年、2012年左右,我當時就想,天啊,這就是我想做的事。很明顯,要做這件事就必須去念研究所,然後我看到Fei-Fei在Stanford,是當時世界上少數幾個走在這條路上的人之一。那真是一個投身深度學習和電腦視覺領域的絕佳時機。因為那正是這個領域從最初萌芽的技術開始真正發揮作用,並被開發和擴展到大量不同應用的時代。在那段時間裡,我們看到了語言模型的開端,我們看到了判別式電腦視覺的開端,你可以拍攝照片並以多種不同方式理解其中的內容。我們也看到了一些我們現在稱之為生成式AI的早期雛形,生成模型、生成圖像、生成文本。很多這些核心演算法的要素其實是在我讀博士期間由學術界解決的。那段時間,我每天早上醒來,查看arXiv上的新論文,就像在聖誕節拆禮物一樣。每天你都知道世界上某個地方會有驚人的新發現,驚人的新應用或演算法。接下來的兩年,世界上的其他人也意識到了同樣的事情,開始利用AI每天獲得新的聖誕禮物。但我想對於我們這些在這個領域待了十年或更久的人來說,我們很早就已經有這種體驗了。
我是從一個不同的角度接觸AI的,那就是物理學,因為我的大學背景是物理學。物理學是那種教你思考大膽問題的學科,思考世界上還剩下什麼未解之謎。當然,在物理學中,這是關於原子世界、宇宙等等。但不知何故,那種思維訓練引導我思考那些真正抓住我想像力的大膽問題,也就是智慧。所以,我在Caltech攻讀了AI和計算神經科學的博士學位。所以Justin和我其實沒有重疊,但我們共享同一個母校Caltech。
還有同一個指導教授。
是的,同一個指導教授,你的大學指導教授和我的博士指導教授Pietro Perona。在我的博士時期,這和你的博士時期很像,當時AI在公眾眼中仍處於寒冬。但它在我的眼中並非寒冬,因為那是春天來臨前的冬眠期,充滿了生機。機器學習、統計模型正在真正獲得力量。我認為我是機器學習和AI的原生代,而我認為Justin這一代是深度學習的原生代。所以機器學習是深度學習的前身,我們當時正在試驗各種模型。
但在我博士學位快結束,以及我剛開始擔任助理教授時,出現了一件事。AI中有一個被忽略的元素,它在數學上對於推動泛化至關重要。但整個領域並沒有那樣思考,那就是數據。因為我們當時在思考貝氏模型或核方法的複雜性等等。但我和我的實驗室學生可能比大多數人更早意識到一個根本性的問題,那就是如果你讓數據驅動模型,你就能釋放出我們前所未見的力量。這就是我們在ImageNet上進行那場瘋狂賭注的真正原因,也就是,忘掉我們現在看到的任何規模,那時只有幾千個數據點。當時,我記得自然語言處理社群有他們自己的數據集,UCIrvine數據集或NLP中的某些數據集都很小。電腦視覺社群也有他們的數據集,但都只有幾千或幾萬的規模。而我們當時的想法是,我們需要將它推向網路規模。幸運的是,那也正是網路時代的來臨,所以我們乘著那股浪潮。那時我來到Stanford。
所以這些時代是我們經常談論的。ImageNet顯然是創造了,或者至少是普及並使電腦視覺可行的時代。在生成式AI浪潮中,我們談論兩個核心的突破,一個是Transformer論文,也就是注意力機制,另一個是Stable Diffusion。這樣想是合理的嗎?也就是說,有這兩個來自學術界或Google的演算法突破,然後一切都源於此?還是說這是一個更審慎的過程?或者還有其他我們不常提及的重大突破?
我認為最大的突破是運算能力。我知道AI的故事常常是關於運算能力的故事,但無論人們談論多少,我認為人們都低估了它。我們在過去十年中看到的運算能力增長是驚人的。真正被認為是深度學習在電腦視覺領域取得突破性時刻的論文是AlexNet。那是在2012年的一篇論文,其中一個深度神經網路在ImageNet挑戰賽上表現出色,並且完全超越了所有其他Fei-Fei曾經研究過的演算法,也就是在她讀研究所時期的那些演算法。那個AlexNet是一個擁有6000萬參數的深度神經網路,它在兩張GTX 580上訓練了六天,這是當時頂級的消費級顯卡,於2010年推出。我昨晚計算了一下數據來做個對比。那個為期兩週的訓練,在單一一個GB200上只需要不到五分鐘。
Justin提出了一個很好的觀點。2012年關於ImageNet挑戰賽的AlexNet論文,實際上是一個非常經典的模型,也就是卷積神經網絡。那是在1980年代發表的論文,我還記得在我當研究生的時候就學過。而且它也差不多有六到七層。實際上,AlexNet和卷積神經網絡之間唯一的差別,差別在於那兩顆GPU和海量的數據。
我想現在大多數人都熟悉所謂的「慘痛教訓」。這個教訓是說,如果你在設計演算法,別耍小聰明,只要確保它能利用現有的運算能力就好,因為運算能力總會出現。另一方面,還有另一種說法,在我看來也同樣可信,那就是新的數據來源才是解鎖深度學習的關鍵,對吧?像ImageNet就是一個很好的例子。自注意力機制對於Transformer來說很棒,但也有人會說,這是一種利用人類標註數據的方式,因為是人類將結構放入句子中。如果你看CLIP,嗯,我會說我們正在利用網路,讓人類使用alt標籤來標註圖像,對吧?所以這是一個關於數據的故事,而不是一個關於運算能力的故事。所以答案是兩者皆是,還是說其中一個比另一個更重要?
我認為是兩者皆是。但你觸及了另一個很好的點。我認為實際上,在演算法上,有兩個對我來說相當不同的時代。ImageNet時代其實是監督式學習的時代。在監督式學習的時代,你有很多數據,但你不知道如何單獨使用數據。對於ImageNet和那個時期的其他數據集,當時的期望是,我們會得到很多圖像,但我們需要人們來標註每一張圖像。所有我們將要訓練的數據,都有一位人類標註員看過並對該圖像說了一些話。
而演算法上的重大突破是,我們知道如何在不需要人類標註數據的情況下進行訓練。
我敢打賭,房間裡那個沒有AI背景的天真的人會說,如果你在用人類數據訓練,那人類已經標註過了,只是沒有明確標示出來。
我知道你會這麼說,Martin,我知道。是的,從哲學上來說,這是一個非常重要的問題。但這在語言中比在像素中更為真實。
說得有道理,是的,百分之百。
是的,是的,是的。但我確實認為這是一個重要的區別,因為CLIP確實是人類標註的。我認為注意力機制是人類已經弄清楚事物之間的關係,然後你再學習它們。所以它也是人類標註的,只是更隱晦而非明確。
它仍然是人類標註的。區別在於,對於這個監督式學習的時代,我們的學習任務受到更多限制。你必須想出一套我們想要發現的概念的本體論,對吧?如果你在做ImageNet,Fei-Fei和你當時的學生花了很多時間思考,ImageNet挑戰賽中應該包含哪一千個類別。那個時期的其他數據集,比如用於物體偵測的COCO數據集,他們非常認真地思考了應該放入哪80個類別。
那我們來談談生成式AI吧。在我攻讀博士學位,在你來之前,我修了Andrew Ng的機器學習,然後我修了Daphne Koller的貝氏什麼非常複雜的課程,對我來說很複雜。其中很多只是預測性模型。然後我記得你解鎖的整個視覺領域。但生成式的東西是在過去四年出現的,對我來說這非常不同。你不是在識別物體,你不是在預測什麼,你是在生成什麼。所以也許可以談談讓我們走到這一步的關鍵突破,以及它為何不同,我們是否應該用不同的方式思考它,它是連續發展的一部分還是不是?
這非常有趣,即使在我念研究所的時候,生成模型就已經存在了。我們想做生成,沒人記得,即使是字母和數字,我們也試圖做一些生成。Geoff Hinton發表過生成模型的論文。我們當時在思考如何生成。事實上,如果你從機率分佈的角度思考,你在數學上是可以生成的,只是我們生成的任何東西都無法讓人驚艷。所以,這個生成的概念,在數學上、理論上是存在的。
但沒有任何東西行得通。
Justin的博士學位,他整個博士生涯幾乎就是這個領域發展軌跡的縮影。他第一個專案是從數據開始的,我逼他做的。他並不喜歡。
所以…
回想起來,我學到了很多有用的東西。
我很高興你現在這麼說。
事實上,我的第一篇論文,無論是我的博士論文還是我學術生涯的第一篇發表,都是關於用場景圖進行圖像檢索的。
然後我們從輸入像素生成文字,Justin和Andrej在這方面做了很多工作。但那仍然是一種非常耗損資訊的生成方式,從像素世界中獲取資訊。
然後在這中間,Justin離開去做了一項非常有名的工作。那也是第一次有人將它實現為即時的,對吧?
是的,是的。故事是這樣的,2015年有一篇論文發表,叫做「神經風格藝術演算法」,由Leon Gatys主導。論文發表後,他們展示了一些真實世界的照片,並將它們轉換成梵谷風格。我們在2024年對這類東西已經習以為常了,但那是在2015年。有一天這篇論文突然出現在arXiv上,讓我大開眼界。我2015年腦中就中了這個生成式AI的毒,它對我產生了影響,我心想,天啊,我需要理解這個演算法,我需要玩玩看,我需要把我的照片也變成梵谷風格。所以,我讀了那篇論文,然後在一個長週末,我重新實現了那個東西,並讓它成功運作。這其實是一個非常簡單的演算法。所以我的實作大概是300行的Lua程式碼,因為當時是前PyTorch時代。
是Lua。
是的,是Lua。當時是前PyTorch時代,所以我們用的是Lua Torch。但這是一個非常簡單的演算法,但它很慢。這是一種基於優化的方法,每生成一張圖像,你都需要運行這個優化循環,運行這個梯度下降循環。你生成的圖像都很漂亮。但我就是希望它能更快。
Justin就做到了。那其實是我認為你第一次體驗到學術工作對產業產生影響。
當時有很多人看過這種藝術風格轉換的東西,我和其他幾個人幾乎同時想出了不同的方法來加速它。但我的方法是獲得最多關注的。
在世界理解生成式AI之前,Justin博士學位的最後一項工作,實際上是輸入語言,然後得到一整張圖片。這是最早的生成式AI作品之一,它使用了GAN,那時的GAN非常難用。問題是我們還沒有準備好使用自然的語言片段,所以Justin,你聽過他做過場景圖,所以我們必須輸入一個場景圖的語言結構。
所以,羊、草、天空,用圖形的方式。那真的是我們的照片之一,對吧?然後他和另一位非常優秀的碩士生Grim,他們讓那個GAN成功運作了。所以你可以看到,從數據到匹配,到風格轉換,再到生成圖像,我們開始看到,你問這是不是一個突然的改變,對於像我們這樣的人來說,它是一直在持續發生的。但對世界來說,結果是更突然的。
你問過這個問題,我想即使對我來說,這在哲學上根本是個不同的問題。
所以,我讀了你的書,對於正在收聽的人來說,這是一本很棒的書。我真的推薦你們去讀。看起來,很長一段時間以來,你的很多研究,我現在是對著Fei-Fei說,你的很多研究和你的方向一直是朝著空間、像素和智慧發展。而現在你正在做World Labs,這也與空間智慧有關。所以也許可以談談,這是你長期旅程的一部分嗎?你為什麼決定現在做這件事?這是一個技術上的突破,還是個人的突破?帶我們從AI研究的那個環境進入到World Labs的世界。
對我來說,這既是個人的也是學術上的。我的整個學術旅程其實就是追尋北極星的熱情,同時也相信那些北極星對於我們領域的進步至關重要。所以在剛開始,我記得研究所畢業後,我以為我的北極星是講述圖像的故事,因為對我來說,那是視覺智慧中非常重要的一部分,也是你所說的AI或AGI的一部分。但當Justin和Andrej做到那件事時,我心想,天啊,這就是我一生的事業,接下來我該做什麼?所以,它的到來比我想像的快得多。我以為那需要一百年才能做到。但視覺智慧是我的熱情所在,因為我確實相信,對於每一個有智慧的生物,像是人類或機器人,或其他形式,知道如何看見世界、推理它、與之互動,無論是導航、操作還是創造事物,你甚至可以在此基礎上建立文明。視覺空間智慧是如此基礎,它和語言一樣基礎,甚至可能在某些方面更古老、更根本。所以對我來說,我的北極星是解鎖空間智慧,這是很自然的。時機對我來說是恰當的。我們已經擁有了這些要素。我們有運算能力,我們對數據有了更深刻的理解,比ImageNet時代深刻得多。相較於那個時代,我們現在要複雜得多。而且我們在演算法上也有了一些進展,包括World Labs的共同創辦人,像是Ben Mildenhall和Christoph Lassner,他們都處於nerf的前沿。我們正處於一個正確的時機,真正下注並專注於解鎖這件事。
我想澄清一下,讓聽眾明白。你正在創辦這家公司World Labs,空間智慧是你對你正在解決的問題的普遍描述。你能試著更精確地描述那是什麼意思嗎?
所以空間智慧是關於機器在3D空間和時間中感知、推理和行動的能力。去理解物體和事件如何在3D空間和時間中定位,世界中的互動如何影響它們在時空中的4D位置,並且能夠感知、推理、生成、互動,真正地將機器從主機或數據中心中解放出來,放到真實世界中,並以其所有的豐富性理解3D、4D世界。
所以為了非常清楚,我們是在談論物理世界,還是只是一個抽象的世界概念?
我認為兩者都可以。我認為兩者都可以,而且這也涵蓋了我們長期的願景。即使你在生成世界,即使你在生成內容,將其定位在3D空間中也有很多好處。或者,如果你在辨識真實世界,能夠將3D理解應用於真實世界也是其中的一部分。
只是為了讓大家知道,另外兩位共同創辦人Ben Mildenhall和Christoph Lassner在該領域絕對是傳奇人物,與他們處於同一水平。這四位決定現在出來創辦這家公司。所以我試著深入了解,為什麼現在是正確的時機。
是的,我的意思是,這再次是我更長遠發展的一部分。但在博士後時期,當我真正想要發展成為獨立研究員,為我之後的職業生涯做準備時,我一直在思考AI和電腦視覺領域的重大問題是什麼。我當時得出的結論是,過去十年主要在於理解已經存在的數據。但未來十年將是關於理解新的數據。如果我們這樣想,已經存在的數據就是所有已經存在於網路上的圖像和影片。而未來十年將是關於理解新的數據。人們有智慧型手機,智慧型手機正在收集相機數據,那些相機有新的感測器,那些相機被定位在3D世界中。你不再只是從網路上得到一堆像素,對它一無所知,然後試圖判斷它是貓還是狗。我們希望將這些圖像視為通往物理世界的通用感測器。我們如何利用它來理解世界的3D和4D結構,無論是在物理空間還是生成空間。所以,我在博士後時期做了一個相當大的轉變,轉向3D電腦視覺,預測物體的3D形狀,當時我和我在FAIR的一些同事一起工作。後來,我對通過2D學習3D結構的想法非常著迷。因為我們經常談論數據,3D數據本身很難獲得,但因為這裡有很強的數學關聯,我們的2D圖像其實是3D世界的投影。這裡有很多數學結構我們可以利用。所以即使你有很多2D數據,也有很多人做了很棒的工作,研究如何從大量的2D觀測中反推出世界的3D結構。然後在2020年,你問到重大突破的時刻,確實有一個非常大的突破時刻,來自我們的共同創辦人Ben Mildenhall,當時他發表了名為Nerf的論文,也就是神經輻射場。那是一種非常簡單、非常清晰的方法,可以從2D觀測中反推出3D結構。那真的點燃了整個空間,也就是3D電腦視覺的領域。
我認為這裡還有另一個方面,也許領域外的人不太理解。那也是大型語言模型開始起飛的時候。所以很多關於語言模型的工作,其實在學術界已經發展了,甚至在我讀博士期間,我還和Andrej Karpathy做了一些早期的語言模型工作,那是在2014年。
LSTM。
是的,是的,有LSTM、RNN、GRU,那是在Transformer之前。但後來,大約在GPT-2時期,你基本上無法在學術界再做那類模型了,因為它們需要太多的資源。但有一件非常有趣的事情,Ben提出的Nerf方法,你可以在單一GPU上幾個小時內訓練好。所以我認為在那個時候,出現了一種動態,那就是我認為很多學術研究人員最終都專注於這些問題,因為有核心的演算法問題需要解決,而且你可以在沒有大量運算能力的情況下做很多事情,並且在單一GPU上獲得最先進的結果。由於這些動態,有很多研究,很多學術界的研究人員開始思考,我們可以用哪些核心的演算法方法來推動這個領域的發展。
然後我最終和Fei-Fei聊了更多,我意識到我們其實…
她非常有說服力。
她非常有說服力。嗯,那是一方面,但你談到試圖從你的指導教授那裡找出你自己的獨立研究軌跡,結果發現我們最終…
哦不。
我們有點在…
又趨於一致了。
在相似的事情上趨於一致。
從我的角度來看,我想和最聰明的人交談,我找到了Justin,這毫無疑問。
我還想談談一個非常有趣的技術故事,關於像素,這是大多數從事語言工作的人不了解的。那就是在生成式AI之前,在電腦視覺領域,我們這些研究像素的人,其實在一個稱為重建的研究領域有很長的歷史,它可以追溯到70年代。你可以拍攝照片,因為人類有兩隻眼睛,所以一般來說,它是從立體照片開始的,然後你試圖三角測量幾何形狀,並從中製作出3D形狀。這是一個非常非常困難的問題。直到今天,它還沒有被根本解決,因為有對應關係等等問題。所以這整個領域,它是一種思考3D的較舊方式,一直存在並且取得了很好的進展。但當Nerf在生成方法的背景下出現,在擴散模型的背景下出現時,突然間,重建和生成開始真正融合。現在,在很短的時間內,在電腦視覺領域,很難再區分重建和生成了。我們突然有了一個時刻,如果我們看見某樣東西,或者我們想像某樣東西,兩者都可以趨向於生成它。這對我來說,是電腦視覺一個非常重要的時刻,但大多數人都錯過了,因為我們談論它的頻率不像大型語言模型那麼高。
對。所以在像素空間中,有重建,也就是你重建一個真實的場景,然後如果你看不到那個場景,你就用生成技術,所以這些東西非常相似。
在這次談話中,你一直在談論語言和像素。所以現在也許是個好時機,談談空間智慧和你正在做的工作,與語言方法有何對比,當然,語言方法現在非常流行。它們是互補的,還是正交的?
我認為它們是互補的。
我不想太引導性。也許可以對比一下。就像每個人都說,我知道OpenAI,我知道GPT,我知道多模態模型,而你談論的很多東西是,它們有像素,它們有語言,這難道不能做到我們想用空間推理來做的事情嗎?
是的,所以要做到那一點,你需要打開黑盒子,稍微了解一下這些系統在底層是如何運作的。對於語言模型和我們今天看到的多模態語言模型,它們底層的表示法是一個一維的表示法。我們談論上下文長度,我們談論Transformer,我們談論序列,注意力機制。從根本上說,它們對世界的表示是一維的。所以這些東西基本上是在一個一維的標記序列上運作的。當你在處理語言時,這是一種非常自然的表示法,因為書面文本就是一個一維的離散字母序列。所以那種底層的表示法,就是導致大型語言模型誕生的東西。而現在我們看到的多模態大型語言模型,你有點像是把其他模態硬塞進這個一維標記序列的底層表示法中。現在,當我們轉向空間智慧時,情況正好相反,我們認為世界的三維本質應該是表示法的核心。所以從演算法的角度來看,這為我們以不同的方式處理數據,獲得不同種類的輸出,以及解決稍微不同的問題打開了大門。所以即使從表面上看,你看著外面說,哦,多模態大型語言模型也可以看圖像,嗯,它們可以,但我認為它們沒有那個根本的3D表示法作為其方法的覈心。
我完全同意Justin的看法。我認為談論一維與根本上的三維表示法,是其最核心的區別之一。另一件事,這有點哲學性,但對我來說非常重要,那就是語言從根本上說是一個純粹生成的信號。世界上並不存在現成的語言,你不會在自然界中發現寫在天上的文字。無論你輸入什麼數據,你基本上都可以用足夠的泛化能力,重新 regurgitate 出相同的數據,這就是語言到語言的過程。但3D世界不是,確實存在一個3D世界,它遵循物理定律,由於材料和其他許多因素而有其自身的結構。從根本上把那些資訊還原出來,並且能夠表示它、生成它,這根本上是個非常不同的問題。我們會借鑒語言和大型語言模型的相似或有用的想法,但這在哲學上根本是個不同的問題。
所以語言是一維的,而且可能是對物理世界的一個糟糕的表示,因為它是由人類生成的,而且可能是有損的。還有另一種生成式AI模型的模態,那就是像素,這些是2D圖像和2D影片。有人可能會說,如果你看一段影片,你可以看到3D的東西,因為你可以移動相機之類的。所以空間智慧會和2D影片有何不同?
當我思考這個問題時,區分兩件事是有用的。一個是底層的表示法,另一個是你能為用戶提供的功能。這裡有時會讓人感到困惑。因為我們基本上看到的是2D,我們的視網膜是我們身體裡的2D結構,而且我們有兩隻。所以從根本上說,我們的視覺系統感知的是2D圖像。但問題是,根據你使用的表示法不同,可能會有一些功能更自然或更不自然。所以即使你最終看到的可能是2D圖像或2D影片,你的大腦正在將其感知為3D世界的投影。所以有些事情你可能想做,比如移動物體,移動相機。原則上,你或許可以用純2D的表示法和模型來做這些事,但這並不適合你要求模型去做的那些問題,對吧?模擬一個動態3D世界的2D投影,是一個可能可以被建模的函數。但通過將3D表示法置於模型的覈心,模型的表示方式和你想讓模型執行的任務之間會有更好的契合度。所以我們的賭注是,通過在底層加入更多的3D結構,將能為用戶帶來更好的功能。
這也回歸到北極星的問題。對我來說,為什麼是空間智慧,而不是平面像素智慧?因為我認為智慧的弧線必須走向Justin所說的功能性。而智慧的弧線,如果你看演化,對吧,智慧的弧線最終使動物和人類,特別是作為智慧生物的人類,能夠在世界中移動,與之互動,創造文明,創造生命,做一塊三明治,無論你在這個3D世界中做什麼。將其轉化為一項技術,原生的3D特性對於大量可能的應用至關重要。即使其中一些,它們的呈現方式看起來是2D的,但對我來說,它本質上是3D的。
我認為這是一個非常微妙且極其重要的觀點,所以我覺得值得深入探討。一個好的方法是談論使用案例。所以,為了讓大家明白,我們正在談論生成一種技術,稱之為模型,它可以進行空間智慧。所以也許在抽象的層面上,這在更具體的層面上會是什麼樣子?
我們想像這些具有空間智慧的模型隨著時間的推移能夠做幾種不同的事情。其中一個我非常期待的是世界生成。我們都習慣了像文本到圖像生成器,或者開始看到文本到影片生成器,你輸入圖像,輸入影片,然後就會跳出一個驚人的圖像或一個驚人的兩秒鐘片段。但我想你可以想像將其提升一個層次,得到3D世界。所以,我們能夠想像空間智慧在未來幫助我們的一件事,就是將這些體驗提升到3D。你得到的是一個完整的虛擬、模擬的,但充滿活力和互動性的3D世界。
也許是為了遊戲,也許是為了虛擬攝影,你懂的。即使你讓這個東西成功運作,也會有百萬種應用。
為了教育。我的意思是,在某種程度上,這催生了一種新的媒體形式。因為我們已經有能力創造虛擬的互動世界,但這需要數億美元的成本和大量的開發時間。結果,人們驅動這種技術能力的地方是電玩遊戲。但因為製作成本太高,唯一經濟上可行的用途就是可以賣70美元給數百萬人的遊戲,以回收投資。如果我們有能力創造這些同樣的虛擬、互動、充滿活力的3D世界,你就可以看到很多其他的應用。因為如果你降低了製作那種內容的成本,人們就會用它來做其他事情。如果你能有一個個人化的3D體驗,它和那些耗資數億美元製作的3A級電玩遊戲一樣好、一樣豐富、一樣細膩,但它可以針對某個非常小眾的東西,可能只有幾個人會想要那個特定的東西。那不是一個特定的產品或一個特定的路線圖,但我認為那是一個新媒體形式的願景,它將由生成領域的空間智慧所催生。
如果我想到一個世界,我實際上想到的是不只是場景生成,我想到的是像移動和物理這樣的東西。所以,在極限情況下,那也包括在內嗎?然後,如果我與之互動,比如,有語義嗎?我的意思是,如果我打開一本書,有書頁嗎?有文字嗎?它們有意義嗎?我們是在談論一個完整的深度體驗,還是只是在談論一個靜態的場景?
我認為我們會看到這項技術隨著時間的推移而進步。這真的是很難建立的東西。所以我認為靜態問題會稍微容易一些。但在極限情況下,我認為我們希望這是完全動態、完全可互動的,你剛才說的所有東西都包括在內。
我的意思是,這就是空間智慧的定義。
是的。
所以會有一個進展。我們會從更靜態的開始。但你說的一切都在空間智慧的路線圖上。
我的意思是,這有點像公司名稱的內涵。World Labs。World這個詞是關於建立和理解世界。這其實有點內幕消息。我意識到在我們告訴人們這個名字後,他們並不總能理解。因為在電腦視覺、重建和生成領域,我們經常對可以做的事情種類進行區分或劃分。第一層級是物體,比如一個麥克風、一個杯子、一張椅子。這些是世界中離散的東西。很多像ImageNet風格的東西,Fei-Fei研究的,都是關於辨識世界中的物體。然後,超越物體的下一個層級,我認為是場景。場景是物體的組合。現在我們有這個錄音室,有桌子、麥克風、人和椅子,這是物體的某種組合。但我們設想世界是超越場景的一步。場景有點像是個別的東西,但我們想要打破界限,走出門外。從桌子旁站起來,走出門,走到街上,看到汽車呼嘯而過,看到樹葉在動,並能夠與那些東西互動。
另一件非常令人興奮的事情是,Justin提到了「新媒體」這個詞。有了這項技術,真實世界、虛擬世界、想像世界、擴增世界或預測世界之間的界線都變得模糊了。真實世界是3D的。所以,在數位世界中,你必須有一個3D的表示法,才能與真實世界融合。你不能用2D,也不能用1D,來有效地與真實的3D世界介面。有了這項技術,它解鎖了這一點。所以它的使用案例可能相當無限,因為有這個原因。
對。所以第一個使用案例是Justin談到的,為任何數量的使用案例生成虛擬世界。你剛剛提到的那個,更像是一種擴增實境,對吧?
是的。就在World Labs成立前後,Vision Pro由Apple發布了,他們用了「空間運算」這個詞。我們幾乎覺得,他們幾乎偷了我們的…但我們是「空間智慧」。所以空間運算需要空間智慧。這完全正確。所以我們不知道它會以什麼樣的硬體形式出現,可能是護目鏡、眼鏡。
隱形眼鏡。
隱形眼鏡。但那個真實世界與你可以在其上做的事情之間的介面,無論是為了幫助你增強你的能力,去修理一台機器,修理你的車,即使你不是一個受過訓練的技工,或者是突然進入一個寶可夢的世界。突然之間,這項技術將成為AR、VR、混合實境的基本作業系統。
在極限情況下,一個AR設備需要做什麼?它是一個永遠開啟的東西,它跟著你,它看著外面的世界。所以它需要理解你所看到的東西,也許還能在日常生活中幫助你完成任務。但我對虛擬與物理之間的融合也感到非常興奮,這變得非常關鍵。如果你有能力即時、完美地以3D方式理解周遭的事物,那麼它其實也開始讓現實世界的大部分東西變得過時。比如現在,我們為了不同的使用案例擁有多少不同尺寸的螢幕?
太多了。
你有你的手機,你的iPad,你的電腦螢幕,你的電視,你的手錶。這些基本上都是不同尺寸的螢幕,因為它們需要以不同的方式和位置向你呈現資訊。但如果你有能力將虛擬內容與物理世界無縫融合,那麼這基本上就讓所有這些東西都變得不再必要了。理想情況下,它只是在你需要的時刻,用正確的機制,無縫地融合你需要的資訊。
另一個能夠融合數位虛擬世界與3D物理世界的巨大案例,是讓任何代理人能夠在物理世界中做事。如果人類使用這種混合實境設備來做事,就像我說的,我不知道怎麼修車,但如果我必須修,我戴上這個護目鏡或眼鏡,突然之間我就被引導去做了。但還有其他類型的代理人,也就是機器人。任何種類的機器人,不只是人形機器人。而它們的介面,根據定義,就是3D世界。但它們的運算,它們的大腦,根據定義,是數位世界。那麼,從學習到行為,連接機器人大腦和真實世界的,是什麼?那必須是空間智慧。
所以,你談到了虛擬世界,你談到了更像擴增實境的東西,然後你又談到了純粹的物理世界,這基本上可以用於機器人。對於任何公司來說,這都會是一個非常大的章程,特別是如果你要深入其中。你如何看待深度技術與任何這些特定應用領域之間的關係?
我們將自己視為一家深度技術公司。作為提供模型的平台公司,可以服務於不同的使用案例。
在這三者之中,你認為有沒有哪一個在早期更自然,人們可以期待公司會傾向於那個方向?
我想可以這麼說,設備還沒有完全準備好。
事實上,我在研究所時就有了我的第一台VR頭盔。那是我經歷過的變革性技術體驗之一。你戴上它,你會覺得,天啊,這太瘋狂了。我想很多人第一次使用VR時都有這種體驗。所以我對這個領域感到興奮已經很長時間了。我喜歡Vision Pro,我熬夜訂購了第一批中的一台,就在它上市的第一天。但我認為現實是,作為一個面向大眾市場的平台,它還沒有準備好。
所以很可能,作為一家公司,我們會進入一個比那個更成熟的市場,但是,我們是一家深度技術公司。
我認為有時候,通用性中也存在簡單性。我們有這個成為一家深度技術公司的概念。我們相信,確實存在一些根本性的問題,需要被很好地解決,如果解決得好,就可以應用到很多不同的領域。我們確實將這家公司的長期發展視為建立並實現空間智慧的夢想。
所以這需要建立大量的技術,在我看來。
是的,我認為這是一個非常困難的問題。我認為有時候,對於那些不是直接在AI領域的人來說,他們只是把AI看作是一個人才的無差別集合。而對於我們這些在這裡待了更久的人來說,你意識到要建立AI中的任何東西,特別是這個,需要很多不同種類的人才聚集在一起。我們談了一點數據問題,我們談了一點我在博士期間研究的一些演算法,但我們還需要做很多其他的事情。你需要非常高品質的大規模工程,你需要對3D世界有非常深刻的理解。這其實與電腦圖學有很多關聯,因為他們一直在從相反的方向解決很多相同的問題。所以當我們考慮團隊建設時,我們考慮的是,如何在這些不同的子領域中,找到世界上絕對頂尖的專家,這些子領域對於建立這個非常困難的東西是必要的。
當我思考我們如何為World Labs組建最好的創始團隊時,它必須從一群傑出的跨領域創辦人開始。當然,Justin對我來說是自然人選,Justin請摀住你的耳朵,他是我最好的學生之一,也是最聰明的技術專家之一。但還有另外兩個人,我聞名已久,其中一位Justin甚至合作過,我對他們垂涎三尺。一位是Ben Mildenhall,我們談過他在Nerf上的開創性工作。但另一個人是Christoph Lassner,他在電腦圖學社群中享有盛譽,特別是他有遠見地在一個高斯潑濺的前身,也就是3D建模的表示法上工作了五年,對吧?在…
在高斯潑濺技術起飛之前。
Ben和Christoph是傳奇人物。也許可以簡單談談你對團隊其他成員的組建想法,因為就像…
是的,這是我迄今為止個人最自豪的事情,就是我們組建的這個強大的團隊。我有幸在我整個職業生涯中與最聰明、最年輕的人共事,對吧?從頂尖大學到在Stanford當教授,但我們在這裡World Labs聚集的人才類型,真是驚人。我從未見過如此集中的人才。我認為這裡最大的差異化因素是,我們是空間智慧的信徒。所有跨領域的人才,無論是系統工程、機器學習基礎設施,到生成模型,到數據,到圖形學,我們所有人,無論是我們的個人研究旅程,還是技術旅程,甚至是個人愛好,我們都…這就是我們找到我們創始團隊的方式,而那股能量和才華的集中,對我來說是令人謙卑的。我就是喜歡它。
所以,我知道你一直被一顆北極星指引著。關於北極星有一點是,你其實無法到達它們。因為它們在天上,但這是一個很好的指引方式。所以你將如何知道你已經完成了你設定的目標?還是說這是一件終身的事情,將會無限地持續下去?
首先,有真實的北極星和虛擬的北極星。有時候你可以到達虛擬的北極星。
在世界模型中是合理的。你可以到達北極星。
就像我說的,我以為我的一個北極星,也就是講述圖像的故事,需要一百年,但Justin和Andrej,在我看來,為我解決了它。所以我們是有可能到達我們的北極星的。但我想對我來說,是當有那麼多人,那麼多企業,都在使用我們的模型來解鎖他們對空間智慧的需求時,那一刻我就知道我們已經達到了一個重要的里程碑。
實際部署,實際影響。
是的,我不認為我們能完全達到。我認為這是一件非常根本的事情,宇宙是一個巨大的、不斷演變的四維結構。而廣義上的空間智慧,就是以其所有的深度去理解它,並找出所有與之相關的應用。所以我認為,儘管我們今天心中有一套特定的想法,但這趟旅程將會帶我們去到我們現在無法想像的地方。
好的技術的魔力在於,技術會開啟更多的可能性和未知。所以我們會不斷推進,然後可能性也會不斷擴大。
太棒了。謝謝Justin,謝謝Fei-Fei。這真是太棒了。
謝謝你,Martin。
謝謝你,Martin。
感謝收聽本集的A16Z podcast。