Reid Hoffman 專訪 Fei-Fei Li:從 ImageNet 到空間智慧,AI 的下一個前沿與 World Labs 的願景
Roger’s Takeaway
這是近期李飛飛第三篇訪談,我覺得同時高密度的看同一個人多次訪談或是一次看好幾本相同領域的書籍,有幾個好處,一是更理解這個人的不同面向,二是讓自己對這個領域越來越熟悉。
儘管李飛飛肯定是為了Marketing World Labs ,但無礙於我更理解李飛飛一些。
在此次訪談中,我感受到的是其實頂尖科學家也是多領域的,儘管現代是追求專業化的時代,每個領域的知識都非常深,一個人很難不用一輩子的時間去鑽研。
但是對於在領域邊界的人來說,必須要建立多元思維模型,才能幫助自己邁向前方。
以AI來說,就像Rich Sutton說的,不學人類(生物)的AI最後都被證明是錯誤的。
李飛飛研究AI,他其實也借鑒哲學、生物/演化反過來思考AI,這也是他為什麼認為理解複雜的空間智慧,才是現實世界的大腦,因此現在的LLM不是最終的解答。
而在世界模型,或是空間智慧的應用上,現在是比較多在多媒體創作者身上應用,未來會應用到設計、工業、醫療保健、醫學和教育上。
我自己看過這次Gemini 3 pro的體驗之後,也深刻感受到,除了語言文字之外,人類,或是AI其實有更多的表達方式,而解放這些表達方式,將有助於人類透過AI發現更多有趣的事情,以及提升或加速人類的生產力。
摘要
本文由 Reid Hoffman 專訪著名電腦科學家 Fei-Fei Li,探討她從 Stanford HAI 到創辦 World Labs 的歷程。對話深入解析了「空間智慧」與「世界建模」的概念,說明 AI 如何從語言處理跨越到理解三維物理世界,以及這對機器人技術和人類未來的意義。
人物簡介
Ludwig Wittgenstein (路德維希·維根斯坦)
這位出生於維也納的哲學天才,早年於劍橋大學師從羅素,在一戰戰壕中完成了早期曠世巨作《邏輯哲學論》,主張「語言圖像說」並宣告解決了所有哲學問題;短暫離開學術界擔任小學教師與園丁後,於1929年重返劍橋任教,晚期思想發生巨大轉向並著有《哲學研究》,提出「語言遊戲」理論,從此確立了他在分析哲學史中,身兼邏輯實證主義先驅與日常語言學派奠基者的雙重宗師地位。
Rosalind Franklin (羅莎琳·富蘭克林)
早年專精於煤炭與石墨的微觀結構研究,1950年代進入倫敦國王學院擔任研究員,利用精湛的X射線晶體學技術拍下了關鍵的「第51號照片」,提供了DNA雙螺旋結構最決定性的實驗證據;隨後轉往伯貝克學院領導病毒結構研究(如菸草鑲嵌病毒),雖因早逝而與諾貝爾獎擦身而過,但其在分子生物學誕生前夕所提供的精確數據,已被後世公認為解開生命奧秘不可或缺的關鍵拼圖。
Francis Crick (弗朗西斯·克里克)
二戰後由物理學轉向生物學,於劍橋大學卡文迪許實驗室期間與華生合作,在1953年共同構建了DNA雙螺旋結構模型,開啟了分子生物學時代;隨後他提出了著名的「中心法則」(Central Dogma)解釋遺傳訊息流向,並破解了遺傳密碼的三聯體性質,晚年則轉至索爾克研究所(Salk Institute)致力於神經科學與意識的研究,畢生致力於揭示生命與心靈的物質基礎。
James Watson (詹姆斯·華生)
以年僅20多歲之姿從美國前往劍橋大學,與克里克聯手整合各方數據解開了DNA結構之謎,並於1962年共享諾貝爾生理學或醫學獎;此後長期任教於哈佛大學並編撰經典教科書《基因的分子生物學》,更接掌冷泉港實驗室長達數十年使其成為世界級研究中心,晚年則成為「人類基因組計畫」的首任領導者,推動了人類對自身遺傳圖譜的全面解碼。
Sebastian Thrun (塞巴斯蒂安·史朗)
早年於卡內基美隆大學與史丹佛大學致力於「概率機器人學」研究並發明SLAM技術,2005年帶領史丹佛團隊以無人車「Stanley」贏得DARPA挑戰賽冠軍;隨後加入Google創立傳奇的Google X實驗室,被譽為「Google自動駕駛汽車之父」並催生了Google Glass與街景服務,後期則轉向教育科技,創辦Udacity推廣大規模開放線上課程(MOOCs),致力於將人工智慧與自駕技術知識普及於全球。
Highlight
1.
在 Stanford 有個很特別的專業叫符號系統(Symbolic Systems),結合了哲學、認知科學和電腦科學。
Wittgenstein 曾說,語言定義了世界的界限。但我其實不同意這點。我認為語言定義了世界可以用符號形式描述的某種邊界,但在這之外,世界實際上是無限的。那個世界是什麼?我們該如何定義它?這與智慧有什麼關係?我們如何使用機器來表達它?我將這一整套概念歸納為世界建模(World Modeling)。
世界建模與語言密切相關,因為語言是一種與世界互動的形式,但它也包含了視覺、光線、語義、空間和物理動作。這一切仍處於 AI 的黎明期,是 AI 的下一個階段。這就是 World Labs 的核心,我們試圖進行世界建模,並試圖將這種空間智慧帶入 AI 的下一個篇章。
2.
我們已經看到了這方面的萌芽。許多說故事的人是使用多種媒體的創作者,無論是像素、電影、雕塑還是數位藝術,這是一個高度互動、極具創造力的世界,你不能僅僅用語言來表達。世界建模這種能夠生成事物、生成你可以沉浸其中並互動的世界的能力,對於創作者來說是非常誘人且令人興奮的。這就是你看到世界建模可以應用的一種方式。
這不僅僅是為了娛樂和說故事,這也可以用於設計,甚至工業用途,一直到醫療保健、醫學和教育。此外,目前被動娛樂與主動參與體驗之間的距離正在迅速縮小,擁有機器來創建世界模型,將能實現那種沉浸式體驗,這真的很強大。
這也切入到了模擬(Simulation)的領域。模擬對於人類體驗、人類學習以及具身 AI(Embodied AI)都非常重要。機器人需要從模擬中學習,就像它需要從現實世界中學習一樣。我們可以深入探討機器人的歷史,包括自動駕駛汽車以及模擬所扮演的關鍵角色。所以,這個應用的範圍真的是無限的。
3.
其中一個挑戰是數據。與語言不同,語言數據遍布整個網路。當涉及到世界建模時,數據並不像語言那樣顯而易見且容易獲取。當然還有影片數據,這是世界建模最關鍵的數據形式之一,但世界本質上是非常多模態(multimodal)的,它是高度空間化的,具有基礎的 3D 資訊、幾何學、物理學和動力學,而其中一些數據是不容易獲得的。
4.
這帶我回到了演化論。大約 5 億 3000 萬年前,發生了一個令人難以置信的演化事件,稱為寒武紀大爆發(Cambrian explosion),動物物種數量急劇增加。這也是神經系統的開端,光感細胞的開端。閱讀了大量文獻並思考後,我意識到動物擁有感知的演化原因其實是為了活動(activity)和互動。這意味著感知和感知智慧是運動的基礎。
起初,運動非常簡單,只是將身體移動到某處。很快地,運動變得更加互動,為了食物而戰、交配、築巢、撫養後代。看看哺乳動物和人類,我們移動的能力非常複雜,我們手指、腳趾和身體軀幹之間的自由度非常高。這一切都需要對我們所處的世界有基本的感知空間智慧,以便我們了解並規劃所有的動作。
所以在我看來,這種細緻、複雜的空間世界理解水平,是具身智慧(包括機器人)的大腦。
5.
如果回顧人類文明建立的里程碑,有許多里程碑是不可能僅靠語言實現的。空間和空間推理、世界建模的細微差別非常明顯。舉個早期的例子,金字塔的建造。開始抽象出幾何學、對大型物體的構建感,這其中包含了大量的認知空間推理,這不是簡單的「我看到東西,我想移動它」這種事務性行為。
另一個例子是 DNA 結構的推導。如果你知道 DNA 被發現的歷史,許多科學家都有預感遺傳學中有某種基本的構建塊。Rosalind Franklin 拍下了這些 X 射線影像,但 Francis Crick 和 James Watson 當然也在深入思考這個問題。要從 X 射線影像(二維)推導出 3D 雙螺旋交織結構,這是深度的空間推理。你無法透過語言推導出這種結論。
6.
在 AI 時代,信任不能外包給機器。信任本質上是人類的。它存在於個人層面、社區層面和社會層面。這就是為什麼我參與了 Stanford 以人為本 AI 研究院的工作。我們認識到,隨著機器在計算和推理能力上變得更強大,我們需要建立一種新的規範,這種規範需要成為社會結構的一部分。在這種規範下,人類繼續擁有建立信任的代理權(agency),這是與彼此建立信任,利用像 AI 這樣的新工具,利用更強大的產品,並最終將這種信任更新到我們的治理模式中,不僅僅是社區和公司的治理,而是整個社會的治理。
7.
如果科學家需要無畏,我認為創業家需要更加無畏。無畏對我來說就是自由。擺脫束縛你創造力、勇氣和你完成事情能力的枷鎖。
人類並不是地球上最快或最強壯的動物,但我們的思想和靈魂中有某種東西,能驅使我們為世界、為自己、為彼此做出不可思議的事情。其中很大一部分來自於我們獨特的創造力以及我們的社區意識。為了釋放這一點,特別是在技術發展如此迅速的時候,對我來說,情感上的基礎標準就是要有創造力,要自由,這轉化為無畏。你要敢於面對不確定性,敢於提出大膽的想法,敢於面對沒人做過的困難任務。選擇那些更不確定的任務,因為那樣你的創造力會運作得更強烈,這就是奇蹟發生的地方。我喜歡「無畏」這個詞,因為那是界限被打破、創造力被釋放、奇蹟發生的地方。
逐字稿
本週我們將分享 Reid Hoffman 與 Dr. Fei-Fei Li 在 2025 年 Masters of Scale 高峰會上的對談。Fei-Fei 是一位傑出的電腦科學家和作家,數十年來一直處於 AI 發展的最前沿。她是 Stanford 以人為本人工智慧研究院(Stanford HAI)的創始院長,現在則是 World Labs 的共同創辦人兼執行長。她與 Reid 同台,坦率地反思了我們在 AI 演進過程中所處的位置以及未來的方向。
從學術界到創業:World Labs 的誕生
Reid Hoffman:對於任何關注你職業生涯的人來說,都知道你是 AI 領域的元老級人物(OG)。ImageNet 以及許多基礎貢獻造就了我們今天的局面。現在你正致力於空間智慧(Spatial Intelligence)和世界構建。請談談你為何決定從你熱愛的 Stanford HAI 工作中暫時休假,創辦這家公司?你們正在做什麼?
Fei-Fei Li:OpenAI 成立時,我們曾談論過關於 AGI 的夢想。作為一名 AI 科學家,我對於 AI 與 AGI 這兩個詞有些糾結,因為這對我來說意義大同小異。對我而言,AGI 代表著機器智慧的能力,它們與人類相當,在許多情況下甚至可能超越人類。
我將其視為通往未來的一扇門,而在這扇門上有多個鑰匙孔。語言是其中一個主要的鑰匙孔,因為語言是智慧的重要組成部分。我知道你主修過哲學,雖然我也算是半個哲學專業,但在 Stanford 有個很特別的專業叫符號系統(Symbolic Systems),結合了哲學、認知科學和電腦科學。
Wittgenstein 曾說,語言定義了世界的界限。但我其實不同意這點。我認為語言定義了世界可以用符號形式描述的某種邊界,但在這之外,世界實際上是無限的。那個世界是什麼?我們該如何定義它?這與智慧有什麼關係?我們如何使用機器來表達它?我將這一整套概念歸納為世界建模(World Modeling)。
世界建模與語言密切相關,因為語言是一種與世界互動的形式,但它也包含了視覺、光線、語義、空間和物理動作。這一切仍處於 AI 的黎明期,是 AI 的下一個階段。這就是 World Labs 的核心,我們試圖進行世界建模,並試圖將這種空間智慧帶入 AI 的下一個篇章。
空間智慧與世界建模的定義
Reid Hoffman:由於現場可能只有少數人深入了解這個領域,但大多數人對 LLMs 的主要體驗來自 ChatGPT 或 Gemini 等工具。請說明除了認知能力之外,大家應該如何理解這種不同的空間智慧?此外,未來的發展路徑是什麼?要克服哪些挑戰?
Fei-Fei Li:當我們擁有世界建模時,我們會得到什麼?我們已經看到了這方面的萌芽。許多說故事的人是使用多種媒體的創作者,無論是像素、電影、雕塑還是數位藝術,這是一個高度互動、極具創造力的世界,你不能僅僅用語言來表達。世界建模這種能夠生成事物、生成你可以沉浸其中並互動的世界的能力,對於創作者來說是非常誘人且令人興奮的。這就是你看到世界建模可以應用的一種方式。
這不僅僅是為了娛樂和說故事,這也可以用於設計,甚至工業用途,一直到醫療保健、醫學和教育。此外,目前被動娛樂與主動參與體驗之間的距離正在迅速縮小,擁有機器來創建世界模型,將能實現那種沉浸式體驗,這真的很強大。
這也切入到了模擬(Simulation)的領域。模擬對於人類體驗、人類學習以及具身 AI(Embodied AI)都非常重要。機器人需要從模擬中學習,就像它需要從現實世界中學習一樣。我們可以深入探討機器人的歷史,包括自動駕駛汽車以及模擬所扮演的關鍵角色。所以,這個應用的範圍真的是無限的。
挑戰方面,其中一個挑戰是數據。與語言不同,語言數據遍布整個網路。當涉及到世界建模時,數據並不像語言那樣顯而易見且容易獲取。當然還有影片數據,這是世界建模最關鍵的數據形式之一,但世界本質上是非常多模態(multimodal)的,它是高度空間化的,具有基礎的 3D 資訊、幾何學、物理學和動力學,而其中一些數據是不容易獲得的。
空間智慧對機器人與人類的重要性
Reid Hoffman:關於機器人技術已經有很多討論。我們應該為大家劃重點,了解世界建模對於提升機器人和人類工作條件的重要性。為什麼這組認知能力如此關鍵?
Fei-Fei Li:我花了很多時間思考這個問題。在 ImageNet 之後,在電腦視覺達到一定的保真度和品質的第一波浪潮之後,我實際上陷入了一點危機,開始深入探索感知的本質、視覺的目的是什麼。我原以為我需要一百年才能解決物體識別的問題,但進展比我想像的要快一點。所以我需要另一個北極星。
這帶我回到了演化論。大約 5 億 3000 萬年前,發生了一個令人難以置信的演化事件,稱為寒武紀大爆發(Cambrian explosion),動物物種數量急劇增加。這也是神經系統的開端,光感細胞的開端。閱讀了大量文獻並思考後,我意識到動物擁有感知的演化原因其實是為了活動(activity)和互動。這意味著感知和感知智慧是運動的基礎。
起初,運動非常簡單,只是將身體移動到某處。很快地,運動變得更加互動,為了食物而戰、交配、築巢、撫養後代。看看哺乳動物和人類,我們移動的能力非常複雜,我們手指、腳趾和身體軀幹之間的自由度非常高。這一切都需要對我們所處的世界有基本的感知空間智慧,以便我們了解並規劃所有的動作。
所以在我看來,這種細緻、複雜的空間世界理解水平,是具身智慧(包括機器人)的大腦。
Reid Hoffman:機器人提供了一種特殊的感覺,即它們需要具身智慧才能運作。但除此之外,這也有助於實際的認知推理能力,而不僅僅是語言方面。你認為在所有 AI 系統中,不僅僅是機器人,加入空間智慧後會產生哪些推理特徵?
Fei-Fei Li:如果回顧人類文明建立的里程碑,有許多里程碑是不可能僅靠語言實現的。空間和空間推理、世界建模的細微差別非常明顯。舉個早期的例子,金字塔的建造。開始抽象出幾何學、對大型物體的構建感,這其中包含了大量的認知空間推理,這不是簡單的「我看到東西,我想移動它」這種事務性行為。
另一個例子是 DNA 結構的推導。如果你知道 DNA 被發現的歷史,許多科學家都有預感遺傳學中有某種基本的構建塊。Rosalind Franklin 拍下了這些 X 射線影像,但 Francis Crick 和 James Watson 當然也在深入思考這個問題。要從 X 射線影像(二維)推導出 3D 雙螺旋交織結構,這是深度的空間推理。你無法透過語言推導出這種結論。
這是一個很好的例子,說明人類利用空間推理和認知能力來發現我們從未做過的事情。隨著我們賦予 AI 這種能力,這不僅僅是為了能撿起眼鏡或方塊的機器人,這是為了提升全人類的能力,因為我們可以與擁有這種能力的機器合作。
AI 時代的信任與無畏
Reid Hoffman:對於 AI 是否被過度炒作或低估有很多討論。你對於目前關於 AI 發生的事情有什麼看法?在這些討論中,我們應該如何區分虛實?
Fei-Fei Li:AI 是一種文明級的技術。即便你是受人類和演化啟發,這種能思考、能行動的能力對人類來說是根本的,而一種能做到這點的技術是驚人的。在我看來,它並沒有被過度炒作,因為 AI 是新的計算方式。
看看今天的世界,只要有晶片的地方就有運算,有運算的地方,如果還沒有 AI,未來就會有 AI。從這個角度來看,無論是從商業還是應用案例的角度,AI 都是未來。當然,關於炒作,我們必須要細緻一點。例如,自動駕駛汽車花了 20 多年的時間,才從 Sebastian Thrun 的第一輛能在內華達沙漠行駛 130 英里的車,發展到 Waymo 在舊金山的運行。
你可能會說,那是因為當時是軟體時代,是深度學習之前的時代,發展比較慢。沒錯,深度學習確實加速了自動駕駛汽車的大腦發展。但我們也不能忘記汽車工業,整個供應鏈以及客戶群已經建立了 100 多年,那是一個非常成熟的商業模式和基礎設施。所以我認為機器人技術仍有一段路要走。
Reid Hoffman:實現這種文明級技術的一部分是建立信任。無論是技術專家還是公司,我們應該做些什麼來幫助建立信任?因為只有當我們到達那裡時,才能真正意識到好處。
Fei-Fei Li:在 AI 時代,信任不能外包給機器。信任本質上是人類的。它存在於個人層面、社區層面和社會層面。這就是為什麼我參與了 Stanford 以人為本 AI 研究院的工作。我們認識到,隨著機器在計算和推理能力上變得更強大,我們需要建立一種新的規範,這種規範需要成為社會結構的一部分。在這種規範下,人類繼續擁有建立信任的代理權(agency),這是與彼此建立信任,利用像 AI 這樣的新工具,利用更強大的產品,並最終將這種信任更新到我們的治理模式中,不僅僅是社區和公司的治理,而是整個社會的治理。
我認為信任是一個非常重要的元素。對於創業者來說,無論你做什麼產品或業務,都要從一開始就關注這一點。有些人可能在醫療保健領域,你知道這有多重要。有些人可能只是在基礎設施、SaaS 應用,你可能覺得這離我很遠,但在我看來並非如此,因為你在服務人,你在服務企業。擁有這種人類代理權作為信任的源頭是非常重要的。
Reid Hoffman:這也是為什麼我們希望今天的活動由你開場。讓我們從科學方面轉向關於創業精神和人性的部分。你談到了無畏(fearlessness)。這對於科學家和創業家意味著什麼?
Fei-Fei Li:如果科學家需要無畏,我認為創業家需要更加無畏。無畏對我來說就是自由。擺脫束縛你創造力、勇氣和你完成事情能力的枷鎖。
人類並不是地球上最快或最強壯的動物,但我們的思想和靈魂中有某種東西,能驅使我們為世界、為自己、為彼此做出不可思議的事情。其中很大一部分來自於我們獨特的創造力以及我們的社區意識。為了釋放這一點,特別是在技術發展如此迅速的時候,對我來說,情感上的基礎標準就是要有創造力,要自由,這轉化為無畏。你要敢於面對不確定性,敢於提出大膽的想法,敢於面對沒人做過的困難任務。選擇那些更不確定的任務,因為那樣你的創造力會運作得更強烈,這就是奇蹟發生的地方。我喜歡「無畏」這個詞,因為那是界限被打破、創造力被釋放、奇蹟發生的地方。