AI 教母 Fei-Fei Li:從 AI 寒冬到世界模型,洞悉人工智慧的過去與未來
Roger’s Takeaway
我之前整理過一個AI大歷史,這次在聽 Fei-Fei Li 講述一次AI簡史,也是非常精彩,人類在從1940年代開始思考「思考的機器」以來,已經過了約80年。
從控制論、專家系統到類神經網絡,AI繞了很多彎路,經過二次寒冬,才找到目前AI的黃金公式,大數據、類神經網路和 GPU。
這次,李飛飛想在此基礎上,走向世界模型,也就是她的新創World Models Labs。
李飛飛在這次演講中,講了更多空間智慧的概念。他認為空間智慧是創造、推理、互動、理解深度空間世界的能力,無論是 2D、3D 還是 4D,包括動態等等。
此外,他也是一直在跟人類學習,之所以要打造空間智慧,是因為人類是深度視覺化的動物。
最後他提到,每個大腦大約僅有20w,雖然是個小數字,但卻令人難以置信。
我不知道的是,李飛飛的世界模型,是否跟Yann Lecun的一樣,只需要花費少少的token就能完成世界三維的任務。
但是顯然世界模型是現在所有AI科學家、機器人學家的共同目標。
摘要
被譽為「AI 教母」的 Fei-Fei Li 博士分享了她對人工智慧的深刻見解。她回顧了 AI 從被視為「髒話」的寒冬時期,到由她主導的 ImageNet 計畫如何點燃今日的 AI 革命。她認為 AI 的影響是好是壞完全取決於人類,並強調了視覺智慧與龐大數據集的重要性。在訪談中,她也深入探討了當前技術的侷限,並介紹了她的新創公司 World Models Labs 所推出的首個大型世界模型「Marble」,旨在讓 AI 理解並模擬物理世界,為機器人、虛擬製作與科學發現等領域帶來突破。
Highlight
1.
我確實相信科技對人類來說是淨正面的,如果你看看文明的長遠進程。我認為我們從根本上說是一個創新的物種,如果你從幾千年前的書面記錄看到現在,人類不斷地創新自己和我們的工具,藉此我們改善了生活,改善了工作,我們建立了文明。我確實相信 AI 是其中的一部分。
這就是樂觀的來源。但是,我認為每項科技都是一把雙面刃,如果我們作為一個物種、一個社會、一個社群、作為個體沒有做對的事情,我們也可能搞砸這一切。
2.
大多數人開始聽說並關心 AI,也就是今天所稱的 AI,大概是幾年前 ChatGPT 出現的時候,也許是三年前。
在這之前有很長很長的歷史,人們一直在研究,當時稱為機器學習,還有其他術語,現在一切都統稱為 AI。有一段很長的時期,很多人在研究它,然後出現了人們所說的 AI 寒冬,那時人們幾乎放棄了,大多數人都放棄了,認為這個想法行不通。
我甚至不是第一代 AI 研究者。第一代真的要追溯到 50 年代和 60 年代。Alan Turing 在 40 年代就領先於他的時代,他向人類提出了一個大膽的問題:「是否存在會思考的機器?」當然,他有一種特定的方式來測試這個「會思考的機器」的概念,那就是一個對話式的聊天機器人。以他的標準來看,我們現在已經有了會思考的機器。但那只是一個較為軼事的靈感。
這個領域真正開始於 50 年代,當時的電腦科學家們聚集在一起,研究如何利用電腦程式和演算法來建立能夠完成以往只有人類認知能力才能做到的事情的程式。那就是開端,還有達特茅斯工作坊的創始元老們。在 1956 年,John McCarthy 教授後來來到 Stanford,他創造了「人工智慧」這個詞。
在 50、60、70 和 80 年代之間,是 AI 探索的早期階段,我們有邏輯系統、專家系統,我們也有類神經網路的早期探索。
然後,時間來到 80 年代末、90 年代,以及 21 世紀的開端。這段大約 20 年的時間,其實是機器學習的開端,是電腦程式設計與統計學習的結合。這種結合為 AI 帶來了一個非常關鍵的概念,那就是純粹基於規則的程式,無法涵蓋我們想像中電腦能做到的龐大認知能力。
所以我們必須利用機器來學習模式。一旦機器能夠學習模式,它就有希望做更多的事情。例如,如果你給它三隻貓,希望不僅僅是讓機器辨識這三隻貓,而是希望機器能夠辨識第四隻、第五隻、第六隻貓,以及所有其他的貓。這是一種學習能力,對人類和許多動物來說都是根本的。我們作為一個領域意識到,我們需要機器學習。
那就是直到 21 世紀初的情況。我在 2000 年進入 AI 領域,那時我開始在 Caltech 攻讀博士學位。所以我是第一代機器學習研究者之一。我們已經在研究機器學習的概念,特別是類神經網路。我記得那是我在 Caltech 上的第一門課之一,叫做類神經網路。
但那段時間非常痛苦,正值所謂的 AI 寒冬中期,意味著公眾對此不太關注,資金也不多。但同時也有很多想法在流傳。
3.
我認為有兩件事發生在我自己身上,讓我的職業生涯與現代 AI 的誕生如此緊密地聯繫在一起。
那就是我選擇透過視覺智慧的視角來看待人工智慧,因為人類是深度視覺化的動物。我們可以稍後多談一些,但我們大量的智慧是建立在視覺感知、空間理解之上,而不僅僅是語言本身。我認為它們是互補的。
所以我選擇研究視覺智慧,在我的博士和早期教授生涯中,我和我的學生們都致力於一個北極星問題,那就是解決物體辨識的問題,因為這是感知世界的基礎建構模組。我們在世界各地走動、詮釋、推理並與之互動,或多或少都是在物體層面。我們不與分子層面的世界互動,我們也不與世界互動,比如說,我們有時候會,但很少。
我是最早一批將此認定為北極星問題的研究者之一。但我認為之後發生的事是,作為一名 AI 學生和研究者,我研究了各種數學模型,包括類神經網路、貝氏網路以及許多其他模型,但有一個單一的痛點,就是這些模型沒有數據可以訓練。
所以,我和我的學生們推測,要讓 AI 活起來,一個被嚴重忽略的關鍵要素就是大數據。
4.
然後我們在 2006、2007 年開始了這個 ImageNet 計畫,我們非常有野心,想要獲取網路上所有關於物體的影像數據。當然,當時的網路比現在小得多,所以我感覺那個野心至少沒有太瘋狂。現在要這麼想就完全是妄想了。
但那就是我們所做的。我們非常仔細地整理了 1500 萬張網路上的影像,創建了一個包含 22,000 個概念的分類體系,借鑒了其他研究者的成果,像是語言學家在 WordNet 上的工作,那是一種特定的詞典化方式。我們將這些結合到 ImageNet 中,並將其開源給研究社群。我們舉辦了年度 ImageNet 挑戰賽,鼓勵大家參與,我們也繼續做我們自己的研究。
但 2012 年是許多人認為深度學習的開端或現代 AI 誕生的時刻,因為由 Geoff Hinton 教授領導的一群 Toronto 的研究人員,參加了 ImageNet 挑戰賽,使用了 ImageNet 的大數據和兩顆來自 Nvidia 的 GPU,成功地創建了第一個類神經網路演算法,它可以——雖然沒有完全解決,但在解決物體辨識問題上取得了巨大進展。
5.
這三種技術的結合:大數據、類神經網路和 GPU,成為了現代 AI 的黃金配方。
如果你檢視促成 ChatGPT 問世的要素,技術上仍然是使用了這三種成分:現在是網路規模的數據,主要是文字;一個比 2012 年複雜得多的類神經網路架構,但仍然是類神經網路;以及更多的 GPU,但仍然是 GPU。所以這三個成分仍然是現代 AI 的核心。
6.
作為一名科學家,我非常認真地對待科學,我進入這個領域是因為我被那個大膽的問題所啟發:機器能否思考和做事,就像人類一樣。對我來說,這一直是 AI 的北極星。從這個角度來看,我不知道 AI 和 AGI 有什麼區別。我認為我們在實現部分目標方面做得很好,包括對話式 AI,但我不認為我們已經完全征服了 AI 的所有目標。我認為我們的創始元老,像 Alan Turing,我想知道如果 Alan Turing 今天還在,你請他比較 AI 和 AGI,他可能會聳聳肩說,我在 1940 年代就問了同樣的問題。
所以我不想陷入定義 AI 與 AGI 的無謂爭論中。我覺得 AGI 更像是一個行銷術語,而不是科學術語。作為一名科學家和技術專家,AI 是我的北極星,是我的領域的北極星,我很高興人們用他們想用的任何名字來稱呼它。
7.
我認為現有模型架構的擴展法則,也就是更多的數據、更多的 GPU,仍然有很大的發展空間,但我絕對認為我們需要創新。人類歷史上沒有任何一個深度科學的學科,發展到一個地步說,我們完成了,我們不需要再創新了。而 AI 是人類文明中,如果不是最年輕的話,也是最年輕的學科之一。在科學和技術方面,我們還只是觸及了表面。
我們將要談到世界模型,今天你拿一個模型,讓它看一段幾個辦公室房間的影片,然後要求模型計算椅子的數量。這是一個學齡前兒童,或者也許是一個小學生可以做到的事情。但 AI 做不到。所以 AI 今天還有很多事情做不到。
更不用說思考像 Isaac Newton 這樣的人是如何觀察天體的運動,然後推導出一個或一組方程式來統御所有物體的運動。那種層次的創造力、外推、抽象,我們今天沒有任何方法能讓 AI 做到。
然後讓我們看看情感智慧。如果你看一個學生走進老師的辦公室,進行一場關於動機、熱情、該學什麼、什麼問題困擾著你的對話。那樣的對話,儘管今天的對話機器人很強大,但你得不到那種層次的情感、認知智慧。所以,我們還有很多可以做得更好的地方,我不相信我們已經停止創新了。
8.
我很高興看到越來越多的人在談論世界模型,像是 Elon 和 Jensen。
我一生都在思考如何真正推動 AI 向前發展。
過去幾年出現的大型語言模型,非常鼓舞人心,即使對我這樣的研究者也是如此。我記得 GPT-2 出來的時候,大概是 2020 年末,我當時是 Stanford 以人為本 AI 研究所的共同主任,現在仍然是,但當時是全職。
我記得那時公眾還沒有意識到大型語言模型的威力,但作為研究者,我們已經看到了未來。我與我的自然語言處理同事,像是 Percy Liang 和 Chris Manning 進行了很長的對話,我們談論這項技術將會有多麼關鍵。Stanford HAI 是第一個為基礎模型設立完整研究中心的機構。Percy Liang 和許多研究者領導了第一篇關於基礎模型的學術論文。所以,這對我來說非常鼓舞人心。
我來自視覺智慧的世界,我一直在想,除了語言之外,我們還有很多可以推進的地方,因為人類——人類利用我們的空間智慧和世界理解來做很多事情,這些都超越了語言。
有一件事對我來說非常清楚,那就是我真的想和最聰明的人一起工作,並盡快將這項技術帶入生活。這就是我們創辦這家名為 World Labs 的公司的原因。你可以看到,「世界」這個詞就在我們公司的名字裡,因為我們非常相信世界建模和空間智慧。
9.
我認為理解世界模型的一個簡單方法是,這個模型可以讓任何人透過提示,無論是影像還是句子,在腦海中創造任何世界。並且能夠在這個世界中互動,無論是瀏覽、行走、拾取物體,還是改變事物。同時,也能夠在這個世界中進行推理。例如,如果使用這個世界模型輸出的代理人是個機器人,它應該能夠規劃路徑,幫助整理廚房等等。所以,世界模型是一個基礎,你可以用它來推理、互動和創造世界。
10.
World Labs 的論點是,空間智慧是根本上非常重要的,而空間智慧不僅僅是關於影片。事實上,世界不是被動地觀看影片流逝。我喜歡柏拉圖用洞穴的寓言來類比視覺。他說,想像一個囚犯被綁在他的椅子上,雖然不太人道,但在一個洞穴裡,看著一個完整的生命劇場,但實際上演出的生命劇場,演員們在他的背後表演,只是透過光線投射,將劇場的投影呈現在洞穴的牆壁上。然後,這個囚犯的任務就是搞清楚發生了什麼事。這是一個相當極端的例子,但它確實描述了視覺的本質,那就是從 2D 中理解 3D 或 4D 的世界。
所以,對我來說,空間智慧比僅僅創造那個平面的 2D 世界更深層。對我來說,空間智慧是創造、推理、互動、理解深度空間世界的能力,無論是 2D、3D 還是 4D,包括動態等等。所以 World Labs 專注於此。當然,創造影片本身的能力可以是這其中的一部分。事實上,幾週前,我們推出了世界上第一個可以在單一 H100 GPU 上即時展示的影片生成。所以我們的技術有一部分包含了這個。
11.
創造出你剛推出的這種東西需要什麼?
這需要大量的腦力。我們剛才談到每個大腦大約 20 瓦。所以從這個角度來看,這是一個小數字,但實際上是令人難以置信的,是數億年的演化才給了我們這些能力。我們現在有一個大約 30 人的團隊,我們主要是研究人員和研究工程師。但我們也有設計師和產品人員。我們實際上非常相信,我們想創建一家公司,既植根於空間智慧的深度技術,又真正打造嚴肅的產品。所以我們的研發和產品化是整合在一起的。
當然,我們用了大量的 GPU。很高興聽到這個。那是技術性的答案。
逐字稿
很多人稱您為 AI 教母。事實上,正是您的研究點燃了火花,帶領我們走出了 AI 的寒冬。
在 2015 年中到 2016 年中,一些科技公司避免使用「AI」這個詞,因為他們不確定這是不是一個髒話。2017 年左右,公司才開始稱自己為 AI 公司。
我記得您在國會報告時說過一句話:AI 並沒有什麼人工之處,它由人啟發、由人創造,最重要的是,它影響著人們。
我並不是說我認為 AI 對工作或人們沒有任何影響。事實上,我相信無論 AI 現在或未來做什麼,都取決於我們,取決於人們。我確實相信科技對人類來說是淨正面的,但我也認為每項科技都是一把雙面刃,如果我們作為一個社會、作為個體沒有做對的事情,我們也可能搞砸這一切。
您有了一個突破性的洞見,就是我們可以訓練機器像人類一樣思考,只是它們缺少了人類兒童時期學習所需的大量數據。
我選擇透過視覺智慧的視角來看待人工智慧,因為人類是深度視覺化的動物。我們需要用盡可能多的物體影像資訊來訓練機器。但是,物體非常、非常難以學習。單一物體可以有無限多種可能性呈現在影像上。為了用成千上萬的物體概念來訓練電腦,你真的需要給它看數百萬個例子。
今天的來賓是 Fei-Fei Li 博士,她被譽為 AI 教母。
Fei-Fei Li 負責並處於許多重大突破的核心,這些突破點燃了我們目前正在經歷的 AI 革命。她領導創建了 ImageNet,這基本上源於她意識到 AI 需要大量的乾淨、標記過的數據才能變得更聰明。這個數據集成為了突破口,引領了當前建立和擴展 AI 模型的方法。
她曾是 Google Cloud 的首席 AI 科學家,那裡誕生了一些最早的重大技術突破。她曾是 Stanford 人工智慧實驗室 SAIL 的主任,許多最頂尖的 AI 人才都出自那裡。她也是 Stanford 以人為本 AI 研究所的共同創辦人之一,該研究所在 AI 發展方向上扮演著至關重要的角色。
她還曾是 Twitter 的董事會成員,被《時代》雜誌評為 AI 領域百大最具影響力人物之一。她也是聯合國顧問委員會的成員,我可以一直說下去。
在我們的對話中,Fei-Fei Li 簡要介紹了 AI 世界如何演變至今的歷史,包括一個令人震驚的提醒:在八、九年前,自稱 AI 公司基本上是為你的品牌敲響了喪鐘,因為沒有人相信 AI 真的會成功。今天,情況完全不同,每家公司都是 AI 公司。
我們還聊了她對 AI 未來如何影響人類的看法、現有技術能帶我們走多遠、她為何如此熱衷於建立一個世界模型,以及世界模型究竟是什麼。最令人興奮的是,她介紹了全球首個大型世界模型 Marble 的發布,這個模型剛好在本次 podcast 播出時推出。任何人都可以在 marble.worldlabs.ai 上體驗,這太瘋狂了,一定要去看看。
Fei-Fei Li 非常了不起,相對於她對世界的影響力,她的知名度實在太低了。所以我真的很高興能邀請她來,並將她的智慧分享給更多人。
非常感謝 Ben Horowitz 和 Condoleezza Rice 為這次對話提供了主題建議。
Fei-Fei,非常感謝你來到這裡,歡迎來到這個 podcast。
Lenny,我很高興能來到這裡。
我更高興能邀請到你。能和你聊天真是太榮幸了,我有很多想談的話題。
你一直處於我們現在看到的這場 AI 爆炸性發展的中心,已經很長時間了。我們將會談到很多我認為許多人甚至不知道的歷史,關於這一切是如何開始的。但首先,讓 我讀一段《Wired》雜誌關於你的引文,好讓大家有個概念,在引言中我會分享你做過的所有其他偉大事蹟,但我認為這是一個很好的切入點。
「Fei-Fei 是那一小群科學家中的一員,這群人可能小到可以圍坐在一張餐桌旁,他們對 AI 近期的顯著進展負有責任。」
很多人稱你為 AI 教母。
與許多 AI 領導者不同,你是一位 AI 樂觀主義者。你不認為 AI 會取代我們,你不認為它會奪走我們所有的工作,也不認為它會殺死我們。所以我想從這裡開始會很有趣。你對 AI 將如何影響人類的看法是什麼?
好的,Lenny,讓我說清楚,我不是一個烏托邦主義者。所以,我並不是說我認為 AI 對工作或人們沒有任何影響。事實上,我是一個以人為本的人。我相信無論 AI 現在或未來做什麼,都取決於我們,取決於人們。
所以我確實相信科技對人類來說是淨正面的,如果你看看文明的長遠進程。我認為我們從根本上說是一個創新的物種,如果你從幾千年前的書面記錄看到現在,人類不斷地創新自己和我們的工具,藉此我們改善了生活,改善了工作,我們建立了文明。我確實相信 AI 是其中的一部分。
這就是樂觀的來源。但是,我認為每項科技都是一把雙面刃,如果我們作為一個物種、一個社會、一個社群、作為個體沒有做對的事情,我們也可能搞砸這一切。
我記得您在國會報告時說過一句話:AI 並沒有什麼人工之處,它由人啟發、由人創造,最重要的是,它影響著人們。
是啊,我對此感受很深。我在二十五年前開始從事 AI 工作,過去二十年來我一直有學生。幾乎每個畢業的學生,我都會提醒他們,當他們從我的實驗室畢業時,你的領域叫做人工智慧,但其中沒有什麼是人工的。
回到你剛才說的,這一切將走向何方取決於我們。你認為我們需要做對什麼?我們該如何設定方向?我知道這是一個很難回答的問題,但你的建議是什麼?你認為我們應該注意什麼?
我們有多少時間可以談這個?我們該如何對齊 AI?
我認為人們應該成為負責任的個體,無論我們做什麼。這也是我們教導孩子們的,也是我們作為成年人需要做的,無論我們參與 AI 開發、部署或應用的哪個部分。很有可能我們中的許多人,特別是作為技術專家,都參與了多個環節。我們應該像負責任的個體一樣行事,並且關心這件事,實際上是非常關心。我認為今天每個人都應該關心 AI,因為它將影響你的個人生活,影響你的社群,影響社會和未來的世代。作為一個負責任的人去關心它,是第一步,也是最重要的一步。
AI 的簡史:從寒冬到革命
好的,那麼讓我退一步,回到 AI 的開端。
大多數人開始聽說並關心 AI,也就是今天所稱的 AI,大概是幾年前 ChatGPT 出現的時候,也許是三年前。
三年前,差不多再一個月就滿三年了。
哇,那是 ChatGPT 推出的時候,是那個里程碑嗎?
好的,那正是我看到的。
但很少人知道,在這之前有很長很長的歷史,人們一直在研究,當時稱為機器學習,還有其他術語,現在一切都統稱為 AI。有一段很長的時期,很多人在研究它,然後出現了人們所說的 AI 寒冬,那時人們幾乎放棄了,大多數人都放棄了,認為這個想法行不通。
然後,你所做的工作,基本上就是點燃火花的那個火種,帶我們走出了 AI 寒冬,並直接促成了我們現在所處的世界,AI 是我們談論的一切,就像你剛才說的,它將影響我們所做的一切。
所以,我覺得聽你講述這段簡史會非常有趣:在 ImageNet 之前世界是什麼樣子,然後你為了創建 ImageNet 所做的工作,為什麼那如此重要,以及之後發生了什麼。
對我來說,很難想像 AI 對大家來說是如此新穎的事物,因為我的整個職業生涯都活在 AI 之中。我的個人好奇心,從我剛脫離青少年時期開始,如今已成為我們文明的轉型力量,這讓我感到非常滿足。這確實是一種文明等級的技術。
所以,這段旅程大約有三十年,或二十多年,這真的很令人滿足。那麼,這一切是從哪裡開始的呢?
我甚至不是第一代 AI 研究者。第一代真的要追溯到 50 年代和 60 年代。Alan Turing 在 40 年代就領先於他的時代,他向人類提出了一個大膽的問題:「是否存在會思考的機器?」當然,他有一種特定的方式來測試這個「會思考的機器」的概念,那就是一個對話式的聊天機器人。以他的標準來看,我們現在已經有了會思考的機器。但那只是一個較為軼事的靈感。
這個領域真正開始於 50 年代,當時的電腦科學家們聚集在一起,研究如何利用電腦程式和演算法來建立能夠完成以往只有人類認知能力才能做到的事情的程式。那就是開端,還有達特茅斯工作坊的創始元老們。在 1956 年,John McCarthy 教授後來來到 Stanford,他創造了「人工智慧」這個詞。
在 50、60、70 和 80 年代之間,是 AI 探索的早期階段,我們有邏輯系統、專家系統,我們也有類神經網路的早期探索。
然後,時間來到 80 年代末、90 年代,以及 21 世紀的開端。這段大約 20 年的時間,其實是機器學習的開端,是電腦程式設計與統計學習的結合。這種結合為 AI 帶來了一個非常關鍵的概念,那就是純粹基於規則的程式,無法涵蓋我們想像中電腦能做到的龐大認知能力。
所以我們必須利用機器來學習模式。一旦機器能夠學習模式,它就有希望做更多的事情。例如,如果你給它三隻貓,希望不僅僅是讓機器辨識這三隻貓,而是希望機器能夠辨識第四隻、第五隻、第六隻貓,以及所有其他的貓。這是一種學習能力,對人類和許多動物來說都是根本的。我們作為一個領域意識到,我們需要機器學習。
那就是直到 21 世紀初的情況。我在 2000 年進入 AI 領域,那時我開始在 Caltech 攻讀博士學位。所以我是第一代機器學習研究者之一。我們已經在研究機器學習的概念,特別是類神經網路。我記得那是我在 Caltech 上的第一門課之一,叫做類神經網路。
但那段時間非常痛苦,正值所謂的 AI 寒冬中期,意味著公眾對此不太關注,資金也不多。但同時也有很多想法在流傳。
我認為有兩件事發生在我自己身上,讓我的職業生涯與現代 AI 的誕生如此緊密地聯繫在一起。
那就是我選擇透過視覺智慧的視角來看待人工智慧,因為人類是深度視覺化的動物。我們可以稍後多談一些,但我們大量的智慧是建立在視覺感知、空間理解之上,而不僅僅是語言本身。我認為它們是互補的。所以我選擇研究視覺智慧,在我的博士和早期教授生涯中,我和我的學生們都致力於一個北極星問題,那就是解決物體辨識的問題,因為這是感知世界的基礎建構模組。我們在世界各地走動、詮釋、推理並與之互動,或多或少都是在物體層面。我們不與分子層面的世界互動,我們也不與世界互動,比如說,我們有時候會,但很少。例如,如果你想拿起一個茶壺,你不會說,好吧,這個茶壺是由一百片瓷器組成的,讓我來處理這一百片瓷器。你把它看作一個物體並與之互動。所以物體非常重要。
我是最早一批將此認定為北極星問題的研究者之一。但我認為之後發生的事是,作為一名 AI 學生和研究者,我研究了各種數學模型,包括類神經網路、貝氏網路以及許多其他模型,但有一個單一的痛點,就是這些模型沒有數據可以訓練。
作為一個領域,我們太專注於這些模型,但我突然意識到,人類的學習,以及演化,實際上是一個大數據學習過程。人類透過大量的經驗不斷學習,如果你看時間,動物也是透過體驗世界來演化的。
所以,我和我的學生們推測,要讓 AI 活起來,一個被嚴重忽略的關鍵要素就是大數據。
然後我們在 2006、2007 年開始了這個 ImageNet 計畫,我們非常有野心,想要獲取網路上所有關於物體的影像數據。當然,當時的網路比現在小得多,所以我感覺那個野心至少沒有太瘋狂。現在要這麼想就完全是妄想了。
但那就是我們所做的。我們非常仔細地整理了 1500 萬張網路上的影像,創建了一個包含 22,000 個概念的分類體系,借鑒了其他研究者的成果,像是語言學家在 WordNet 上的工作,那是一種特定的詞典化方式。我們將這些結合到 ImageNet 中,並將其開源給研究社群。我們舉辦了年度 ImageNet 挑戰賽,鼓勵大家參與,我們也繼續做我們自己的研究。
但 2012 年是許多人認為深度學習的開端或現代 AI 誕生的時刻,因為由 Geoff Hinton 教授領導的一群 Toronto 的研究人員,參加了 ImageNet 挑戰賽,使用了 ImageNet 的大數據和兩顆來自 Nvidia 的 GPU,成功地創建了第一個類神經網路演算法,它可以——雖然沒有完全解決,但在解決物體辨識問題上取得了巨大進展。
這三種技術的結合:大數據、類神經網路和 GPU,成為了現代 AI 的黃金配方。
快轉到現在,ChatGPT 的時刻,也就是 AI 的大眾時刻。如果你檢視促成 ChatGPT 問世的要素,技術上仍然是使用了這三種成分:現在是網路規模的數據,主要是文字;一個比 2012 年複雜得多的類神經網路架構,但仍然是類神經網路;以及更多的 GPU,但仍然是 GPU。所以這三個成分仍然是現代 AI 的核心。
太不可思議了。我從未聽過這麼完整的故事。我喜歡它最初只用了兩顆 GPU。我真的很喜歡這個細節。現在是數十萬顆,對吧?在數量級上強大得多。而那兩顆 GPU 只是他們買來的,是像玩遊戲用的 GPU,他們只是去遊戲店買的,人們用來玩遊戲的。
正如你所說,這在很大程度上仍然是模型變得更聰明的方式。目前世界上增長最快的一些公司,我大部分都請他們上過 podcast,像 Scale AI,他們就是這樣做的,他們繼續為實驗室做這件事,給他們越來越多的標記數據,關於他們最感興趣的事物。
我記得 Scale AI 的 Alex Wang 在很早期,我大概還有他的郵件,當他創辦 Scale 時,他很客氣地一直寄郵件給我,談論 ImageNet 如何啟發了 Scale。看到這個我很開心。
AI 一詞的演變
我最喜歡的另一個收穫,就是你所分享的,這是一個關於主動性和行動力的絕佳例子。Twitter 上有個流行語就是「你可以做事情」。你只是覺得,好吧,這可能是推動 AI——當時稱為機器學習,對吧?那是當時大多數人使用的術語嗎?
我想是交替使用的。確實,我確實記得那些公司,科技公司,我不會指名道姓,但我在一次對話中,大概是 2015 年中到 2016 年中,一些科技公司避免使用「AI」這個詞,因為他們不確定這是不是一個髒話。我記得我當時其實在鼓勵大家使用「AI」這個詞,因為對我來說,這是人類在追求科學和技術的過程中提出的最勇敢的問題之一,我對這個詞感到非常自豪。但沒錯,一開始有些人並不確定。
那大約是哪一年,當 AI 還是個髒話的時候?
2016 年。我認為那是一個轉捩點,有些人開始稱之為 AI。
但我認為,如果你看看矽谷科技公司的行銷術語,我認為大概是 2017 年左右,公司才開始稱自己為 AI 公司。
這太不可思議了。世界變化得有多快。現在你不可能不稱自己為 AI 公司。差不多九年後。
天啊。好的,關於那段早期歷史,還有什麼你認為人們不知道,但在我們討論未來走向和你正在做的工作之前,你覺得很重要的事嗎?
我想,就像所有的歷史一樣,我深切地意識到,我被認為是歷史的一部分,但我知道有太多的英雄和太多的研究者。我們談論的是幾代的研究者。在我自己的世界裡,有太多的人啟發了我,我在我的書中也談到了。但我確實感覺到我們的文化,特別是矽谷,傾向於將成就歸功於單一個人。雖然這有其價值,但我們必須記住,AI 是一個至今已有 70 年歷史的領域,我們經歷了好幾代人。沒有人,沒有任何人,能夠獨自走到今天。
超越當前技術:世界模型的重要性
好的,那麼讓我問你這個問題。我們似乎總是在 AGI 的邊緣,這是一個人們拋出的模糊術語,AGI 即將來臨,它將接管一切。你對此有何看法?你認為我們距離 AGI 還有多遠?你認為我們在目前的軌道上能達到嗎?你認為我們需要更多的突破嗎?還是目前的做法就能讓我們達到目標?
Lenny,這是一個非常有趣的術語。我不知道是否有人真正定義過 AGI。有許多不同的定義,包括某種機器的超能力,一直到機器是否能在社會中成為經濟上可行的代理人,換句話說,賺取薪水來生活。那是 AGI 的定義嗎?
作為一名科學家,我非常認真地對待科學,我進入這個領域是因為我被那個大膽的問題所啟發:機器能否思考和做事,就像人類一樣。對我來說,這一直是 AI 的北極星。從這個角度來看,我不知道 AI 和 AGI 有什麼區別。我認為我們在實現部分目標方面做得很好,包括對話式 AI,但我不認為我們已經完全征服了 AI 的所有目標。我認為我們的創始元老,像 Alan Turing,我想知道如果 Alan Turing 今天還在,你請他比較 AI 和 AGI,他可能會聳聳肩說,我在 1940 年代就問了同樣的問題。
所以我不想陷入定義 AI 與 AGI 的無謂爭論中。我覺得 AGI 更像是一個行銷術語,而不是科學術語。作為一名科學家和技術專家,AI 是我的北極星,是我的領域的北極星,我很高興人們用他們想用的任何名字來稱呼它。
讓我換個方式問。就像你描述的,有一些組成部分,從 ImageNet 和 AlexNet 開始,帶我們走到了今天。基本上是 GPU、數據、標記數據,以及模型的演算法。還有 Transformer,感覺也是那個軌跡上重要的一步。你覺得這些是同樣的組成部分,能讓我們得到聰明十倍的模型,某種能改變整個世界生活的事物嗎?還是你認為我們需要更多的突破?我知道我們將要談論世界模型,我認為那是其中一個組成部分,但還有什麼你覺得,哦,這裡有個瓶頸,或者,哦,這能帶我們走下去,只需要更多的數據、更多的運算、更多的 GPU?
哦不,我絕對認為我們需要更多的創新。我認為現有模型架構的擴展法則,也就是更多的數據、更多的 GPU,仍然有很大的發展空間,但我絕對認為我們需要創新。人類歷史上沒有任何一個深度科學的學科,發展到一個地步說,我們完成了,我們不需要再創新了。而 AI 是人類文明中,如果不是最年輕的話,也是最年輕的學科之一。在科學和技術方面,我們還只是觸及了表面。
例如,就像我說的,我們將要談到世界模型,今天你拿一個模型,讓它看一段幾個辦公室房間的影片,然後要求模型計算椅子的數量。這是一個學齡前兒童,或者也許是一個小學生可以做到的事情。但 AI 做不到。所以 AI 今天還有很多事情做不到。
更不用說思考像 Isaac Newton 這樣的人是如何觀察天體的運動,然後推導出一個或一組方程式來統御所有物體的運動。那種層次的創造力、外推、抽象,我們今天沒有任何方法能讓 AI 做到。
然後讓我們看看情感智慧。如果你看一個學生走進老師的辦公室,進行一場關於動機、熱情、該學什麼、什麼問題困擾著你的對話。那樣的對話,儘管今天的對話機器人很強大,但你得不到那種層次的情感、認知智慧。所以,我們還有很多可以做得更好的地方,我不相信我們已經停止創新了。
Demis 最近有一段非常有趣的訪談,來自 DeepMind/Google,有人問他,你覺得 AGI 離我們多遠,它看起來像什麼,會從哪裡出現。他提出了一個非常有趣的處理方式,他說,如果我們給最先進的模型直到 20 世紀末的所有資訊,看看它是否能提出 Einstein 的所有突破。到目前為止,我們還遠遠達不到。
不,我們做不到。事實上,情況更糟。讓我們給 AI 所有的數據,包括現代的天體儀器數據,這是 Newton 所沒有的,然後要求 AI 創造出 17 世紀關於物體運動定律的那組方程式。今天的 AI 做不到。
好吧,我們還有很長的路要走,我聽到了。
推出 Marble:首個大型世界模型
好的,我們來談談世界模型。對我來說,這又是另一個非常驚人的例子,顯示你走在人們最終會到達的地方的前面。你很早就意識到,好吧,我們需要大量的乾淨數據來讓 AI 和類神經網路學習。你談論世界模型的概念已經很久了,你創辦了一家公司來建立——基本上,有語言模型,這是一個不同的東西,這是一個世界模型,我們會談論這是什麼。現在,當我準備這次訪談時,Elon Musk 也在談論世界模型,Jensen Huang 也在談論世界模型,我知道 Google 也在做這個。你做這個已經很久了。你實際上剛推出了一些東西,我們將會談到。
談談什麼是世界模型,為什麼它如此重要?
我很高興看到越來越多的人在談論世界模型,像是 Elon 和 Jensen。我一生都在思考如何真正推動 AI 向前發展。過去幾年出現的大型語言模型,非常鼓舞人心,即使對我這樣的研究者也是如此。我記得 GPT-2 出來的時候,大概是 2020 年末,我當時是 Stanford 以人為本 AI 研究所的共同主任,現在仍然是,但當時是全職。我記得那時公眾還沒有意識到大型語言模型的威力,但作為研究者,我們已經看到了未來。我與我的自然語言處理同事,像是 Percy Liang 和 Chris Manning 進行了很長的對話,我們談論這項技術將會有多麼關鍵。Stanford HAI 是第一個為基礎模型設立完整研究中心的機構。Percy Liang 和許多研究者領導了第一篇關於基礎模型的學術論文。所以,這對我來說非常鼓舞人心。
當然,我來自視覺智慧的世界,我一直在想,除了語言之外,我們還有很多可以推進的地方,因為人類——人類利用我們的空間智慧和世界理解來做很多事情,這些都超越了語言。想像一個非常混亂的急救現場,無論是火災、交通事故,還是自然災害。如果你身處其中,想想人們是如何組織起來去救援、阻止進一步的災害、滅火。其中很多是移動,是對物體、世界、人類、情境的即時理解。語言是其中一部分,但在很多情況下,語言無法幫你滅火。
那到底是什麼?我思考了很久,同時我也在做很多機器人研究。我突然意識到,連結額外智慧(除了語言之外的智慧)、連結具身 AI(也就是機器人)、連結視覺智慧的關鍵,就是這種關於理解世界的空間智慧。
那時,我記得是 2024 年,我做了一個關於空間智慧和世界模型的 TED 演講,然後我開始在 2022 年基於我的機器人和電腦視覺研究,形成了這個想法。
然後,有一件事對我來說非常清楚,那就是我真的想和最聰明的人一起工作,並盡快將這項技術帶入生活。這就是我們創辦這家名為 World Labs 的公司的原因。你可以看到,「世界」這個詞就在我們公司的名字裡,因為我們非常相信世界建模和空間智慧。
人們太習慣於聊天機器人了,那是一個大型語言模型。理解世界模型的一個簡單方法是,你基本上描述一個場景,它就能生成一個可以無限探索的世界。我們會連結到你剛推出的東西,我們會談到,但這是一個簡單的理解方式嗎?
那是其中一部分,Lenny。我認為理解世界模型的一個簡單方法是,這個模型可以讓任何人透過提示,無論是影像還是句子,在腦海中創造任何世界。並且能夠在這個世界中互動,無論是瀏覽、行走、拾取物體,還是改變事物。同時,也能夠在這個世界中進行推理。例如,如果使用這個世界模型輸出的代理人是個機器人,它應該能夠規劃路徑,幫助整理廚房等等。所以,世界模型是一個基礎,你可以用它來推理、互動和創造世界。
太棒了。所以機器人,感覺上這可能是 AI 研究者下一個重大的焦點,以及對世界的影響。你這裡所說的,是讓機器人在現實世界中真正運作的關鍵缺失部分,讓它們理解世界是如何運作的。
是的,首先,我確實認為除了機器人,還有更多令人興奮的事情。但我同意你剛才說的一切。我認為世界建模和空間智慧是具身 AI 的一個關鍵缺失部分。我也認為我們不應該低估人類本身就是具身代理人,人類可以被 AI 的智慧增強,就像今天,人類是語言動物,但我們在語言任務上,包括軟體工程,都受到了 AI 的極大增強。我認為我們不應該低估,或者也許是,我們傾向於不去談論,人類作為具身代理人,如何能從世界模型和空間智慧模型中獲益良多,就像機器人一樣。
所以,這裡的重大突破是機器人,如果這能成功,那將是件大事,想像我們每個人都有機器人為我們做很多事情,它們可以幫助我們處理災害等等。遊戲,顯然是一個非常酷的例子,就像可以無限玩的遊戲,你只是憑空想像出來。然後是創造力,感覺就像是玩樂、享受、發揮創造力,想像出奇妙的新世界和環境。
還有設計,人類的設計,從機器到建築到居家。還有科學發現。我喜歡用 DNA 結構的發現作為例子。如果你看 DNA 發現史上最重要的部分之一,是 Rosalind Franklin 拍攝的 X 光繞射照片。那是一張平面的 2D 照片,其結構看起來像一個帶有繞射的十字。但僅憑那張 2D 平面照片,人類,特別是兩位重要人物,James Watson 和 Francis Crick,加上他們的其他資訊,能夠在 3D 空間中推理,並推導出一個高度三維的雙螺旋結構。那個結構不可能是 2D 的。你無法在 2D 中思考並推導出那個結構,你必須利用人類的空間智慧在 3D 空間中思考。所以我認為,即使在科學發現中,空間智慧或 AI 輔助的空間智慧也是至關重要的。
這正是一個例子,我想是 Chris Dixon 說過的一句話:「下一個偉大的事物,一開始會感覺像個玩具。」當 ChatGPT 剛出來時,我記得 Sam Altman 只是發了個推文說:「嘿,這是一個我們在玩的好東西,去看看。」現在它是有史以來增長最快的產品,改變了世界。通常那些看起來只是「哦,這很酷,很好玩」的東西,最終會改變世界。
好的,我們來談談你剛推出的這個產品,叫做 Marble,一個非常可愛的名字。談談這是什麼,為什麼這麼重要。我已經玩過了,非常不可思議。我們會把它連結起來,讓大家去看看。什麼是 Marble?
是的,我很興奮。首先,Marble 是 World Labs 推出的首批產品之一。World Labs 是一家前沿基礎模型公司。我們由四位擁有深厚技術背景的共同創辦人創立。我的共同創辦人 Dustin Johnson、Christoph Lassner 和 Ben Mildenhall,我們都來自 AI、電腦圖學和電腦視覺的研究領域。我們相信空間智慧和世界建模,如果不是比語言模型更重要,也至少同等重要,並且與語言模型互補。所以我們想抓住這個機會,創建一個能夠將基礎模型與產品聯繫起來的深度技術研究實驗室。
所以,Marble 是一個建立在我們前沿模型之上的應用程式。我們花了一年多的時間,建立了世界上第一個可以輸出真正 3D 世界的生成模型。這是一個非常非常困難的問題。這是一個非常艱難的過程,我們有一個由來自各個頂尖團隊的傑出技術專家組成的創始團隊。
然後,大概一兩個月前,我們第一次看到我們可以僅用一個句子和一張圖片,或多張圖片來提示,並創造出我們可以導航的世界。如果你把它放在 VR 眼鏡上,我們有這個選項,你甚至可以四處走動。這太令人驚嘆了,即使我們已經開發了很長一段時間。我們想把它交到需要它的人手中。我們知道有這麼多的創作者、設計師、思考機器人模擬的人、思考可導航、可互動、沉浸式世界不同用例的人、遊戲開發者,都會覺得這很有用。
所以我們開發了 Marble 作為第一步。它仍然非常早期,但這是世界上第一個這樣做的模型,也是世界上第一個允許人們只需提示,我們稱之為「提示即世界」的產品。
我一直在玩,真的很不可思議。你可以去一個小小的夏爾世界,在那裡你可以即時在中土世界四處走動,雖然還沒有人,但真的太瘋狂了。你可以去任何地方,有反烏托邦的世界。我只是在看所有的例子。我最喜歡的部分,我不知道這是功能還是 bug,你可以在世界真正渲染出所有紋理之前,看到它的點狀結構。我就是喜歡能一窺這個模型在做什麼的感覺。基本上它是在創造一個……
聽到這個真是太酷了。因為作為一個研究者,我正在學習。因為那些引導你進入世界的點,是一個刻意設計的視覺化功能。它不是模型的一部分。模型實際上只是生成世界。但我們想找到一種引導人們進入世界的方式,我們的幾位工程師嘗試了不同的版本,但我們最終選擇了點狀。很多用戶,你不孤單,都告訴我們這種體驗多麼令人愉快。這讓我們感到非常滿足,知道這個刻意的視覺化功能,不僅僅是核心模型,也讓我們的用戶感到高興。
哇,所以你們加上那個是為了讓它更…讓人類更容易理解發生了什麼?
為了讓你有更好的體驗。
哇,這太搞笑了。這讓我想起了大型語言模型,它們思考的方式,雖然不完全一樣,但它們會談論它們在想什麼,在做什麼。
是的,是這樣。
這也讓我想起了《駭客任務》。就像是《駭客任務》的體驗。我不知道那是不是你們的靈感。
嗯,就像我說的,有好幾位工程師在做這個,這可能是他們的靈感。
它在他們的潛意識裡。
好的,所以對於那些可能想玩玩看,甚至使用它的人,今天有哪些應用?你這次發布的目標是什麼?
是的,所以我們確實相信世界建模是非常水平化的,但我們已經看到了一些非常令人興奮的用例。電影的虛擬製作,因為他們需要的是 3D 世界,可以與攝影機對齊,這樣當演員在上面表演時,他們可以,你知道,他們可以定位攝影機並很好地拍攝片段。我們已經在看到一些不可思議的用途。事實上,我不知道你是否看過我們展示 Marble 的發布影片,那是由一家虛擬製作公司製作的,我們與 Sony 合作。他們用 Marble 的場景來拍攝那些影片。所以我們與那些技術藝術家和導演合作,他們說這將我們的製作時間縮短了 40 倍。
40 倍?
是的。事實上,必須這樣,因為我們只有一個月的時間來做這個專案,而他們要拍攝的場景太多了。所以使用 Marble 真的、真的極大地加速了視覺特效和電影的虛擬製作。那是一個用例。
我們已經看到我們的用戶將我們的 Marble 場景匯出為網格,然後放進遊戲中,無論是 VR 遊戲還是只是好玩的遊戲。
我們展示了一個機器人模擬的例子,因為當我還是一個研究機器人訓練的研究者時,最大的痛點之一就是為訓練機器人創建合成數據。這些合成數據需要非常多樣化,它們需要來自不同的環境,有不同的物體可以操作。其中一條路徑就是讓電腦模擬。否則,人類必須建立每一個資產給機器人,那將會花費更長的時間。所以我們已經有研究人員聯繫我們,想要使用 Marble 來創建那些合成環境。
我們也收到了意想不到的用戶回饋,關於他們想如何使用 Marble。例如,一個心理學家團隊聯繫我們,想用 Marble 來做心理學研究。原來他們研究的一些精神病患者,需要了解他們的大腦如何對不同的沉浸式場景,有著不同特徵的場景做出反應,例如凌亂的場景、乾淨的場景,或任何你能想到的。對研究人員來說,很難獲得這種沉浸式場景,而且要創建它們會花費他們太長的時間和太多的預算。Marble 是一個幾乎可以即時獲得大量這些實驗環境的方法。所以我們看到了多種用例,但視覺特效、遊戲開發者、模擬開發者以及設計師都非常興奮。
這非常符合 AI 的運作方式。我曾邀請過其他 AI 領導者上 podcast,他們總說,儘早把東西推出去,去發現真正的重大用例在哪裡。ChatGPT 的負責人告訴我,當他們第一次推出 ChatGPT 時,他只是在 TikTok 上瀏覽,看看人們是如何使用它,以及他們談論的所有事情,這才讓他確信該往哪個方向投入,並幫助他們看到人們真正想要如何使用它。
我喜歡最後那個關於治療的用例。我正在想像,像是懼高症,讓人們看到…處理懼高症、蛇或蜘蛛,這將是…
這太神奇了。我的一個朋友昨晚真的打電話給我,談論他的懼高症,問我 Marble 是否可以用來治療。你直接就想到了,這太神奇了。
是的,因為我正在想像所有暴露療法之類的東西,這對那個會非常有幫助。那太酷了。
好的,那麼我想問你這個,我應該早點問的,但我認為會有一個問題,就是這與像 V03 和其他影片生成模型有何不同?對我來說很清楚,但我認為解釋一下這與人們看過的所有 AI 影片工具有何不同,會很有幫助。
World Labs 的論點是,空間智慧是根本上非常重要的,而空間智慧不僅僅是關於影片。事實上,世界不是被動地觀看影片流逝。我喜歡柏拉圖用洞穴的寓言來類比視覺。他說,想像一個囚犯被綁在他的椅子上,雖然不太人道,但在一個洞穴裡,看著一個完整的生命劇場,但實際上演出的生命劇場,演員們在他的背後表演,只是透過光線投射,將劇場的投影呈現在洞穴的牆壁上。然後,這個囚犯的任務就是搞清楚發生了什麼事。這是一個相當極端的例子,但它確實描述了視覺的本質,那就是從 2D 中理解 3D 或 4D 的世界。
所以,對我來說,空間智慧比僅僅創造那個平面的 2D 世界更深層。對我來說,空間智慧是創造、推理、互動、理解深度空間世界的能力,無論是 2D、3D 還是 4D,包括動態等等。所以 World Labs 專注於此。當然,創造影片本身的能力可以是這其中的一部分。事實上,幾週前,我們推出了世界上第一個可以在單一 H100 GPU 上即時展示的影片生成。所以我們的技術有一部分包含了這個。
但我認為 Marble 非常不同,因為我們真的希望創作者、設計師、開發者手中能有一個模型,可以給他們具有 3D 結構的世界,這樣他們就可以用它來工作,這就是為什麼 Marble 如此不同。
我看待它的方式是,它是一個平台,提供了大量的機會來做事。就像你描述的,影片只是,嘿,這裡有一段一次性的影片,很有趣,很酷,然後就沒了,你繼續往下看。
順便說一下,我們可以在 Marble 中讓用戶以影片形式匯出。所以你實際上可以,就像你說的,你進入一個世界,比如說是哈比人的洞穴,你實際上可以,特別是作為一個創作者,你有一個非常特定的方式來移動攝影機,在導演的腦海中有一個軌跡,然後你可以從 Marble 匯出成影片。
創造這樣的東西需要什麼?比如說,團隊有多大?你們用了多少 GPU?任何你能分享的,我不知道這其中有多少是機密資訊,但創造出你剛推出的這種東西需要什麼?
這需要大量的腦力。我們剛才談到每個大腦大約 20 瓦。所以從這個角度來看,這是一個小數字,但實際上是令人難以置信的,是數億年的演化才給了我們這些能力。我們現在有一個大約 30 人的團隊,我們主要是研究人員和研究工程師。但我們也有設計師和產品人員。我們實際上非常相信,我們想創建一家公司,既植根於空間智慧的深度技術,又真正打造嚴肅的產品。所以我們的研發和產品化是整合在一起的。
當然,我們用了大量的 GPU。很高興聽到這個。那是技術性的答案。
恭喜你們的發布。我知道這是一個巨大的里程碑,也知道這花了很多功夫。所以我只想對你和你的團隊說聲恭喜。
謝謝。
我想談談你的創辦人歷程。所以你是這家公司的創辦人,你創辦了多久?幾年前?兩三年前?
一年前。一年多一點。一年半。十八個月。
哇。在你開始這個之前,有什麼是你希望自己知道的,是你希望可以悄悄告訴十八個月前的 Fei-Fei 的?
我一直希望我能知道科技的未來。我認為這其實是我們創始的優勢之一,就是我們比一般人更早看到未來,但即便如此,這仍然太令人興奮和驚訝了,以至於不知道和即將到來的事物。
但我知道你問我這個問題不是關於科技的未來。你可能更…你看,我不是在二十歲的時候創辦一家這樣規模的公司。所以,你知道,我十九歲的時候開了一家乾洗店,但那規模小一點。然後,你知道,我創辦了 Google Cloud AI,然後我在 Stanford 創辦了一個研究所,但那些是不同的野獸。
我確實覺得作為一個創辦人,我對這種艱辛的旅程準備得更充分一些,相對於也許是二十歲的創辦人。但我仍然對 AI 領域的競爭激烈程度感到驚訝和偏執,無論是從模型、技術本身,還是人才方面。當我創辦公司時,我們還沒有這些關於某些人才身價多少的驚人故事。你知道,這些都是不斷讓我感到驚訝的事情,我必須對此保持警惕。
你說的競爭,是指對人才的競爭嗎?還是指進展的速度?
是的。
是的。你提到了這一點,我想回到你說你職業生涯中,你都處於所有重大的人類集合點,這些集合點促成了今天許多的突破。顯然,我們談到了 ImageNet,還有 Stanford 的 SAIL,那裡誕生了很多工作。還有 Google Cloud,那裡發生了很多突破。是什麼把你帶到那些地方的?對於那些想在職業生涯中有所發展、處於未來中心的人,這其中是否有一個貫穿始終的線索,關於是什麼把你從一個地方拉到另一個地方,把你拉進那些群體,這對人們可能會有幫助?
這其實是個好問題,Lenny,因為我確實思考過這個,顯然,我們談到是好奇心和熱情把我帶到了 AI 領域,那更像是一個科學的北極星,我不在乎 AI 是否流行。所以那是一部分。但我是如何選擇我工作的特定地方,包括創辦 World Labs 呢?
我想我非常感謝我自己,或者也許是我父母的基因。我是一個在智力上非常無畏的人。我必須說,當我招聘年輕人時,我也會尋找這一點。因為我…我認為這是一個非常重要的品質,如果一個人想有所作為。因為當你想有所作為時,你必須接受你正在創造新事物,或者你正在投入新事物,人們沒有做過的事情。如果你有這種自我意識,你幾乎必須讓自己無所畏懼、勇敢。
所以當我,例如,來到 Stanford,在學術界的世界裡,我在 Princeton 已經非常接近終身教職,也就是永遠擁有這份工作。但我選擇來到 Stanford,因為我愛 Princeton,那是我的母校,但只是在那一刻,Stanford 有如此傑出的人才,矽谷的生態系統是如此驚人,以至於我願意冒著重新開始我的終身教職時鐘的風險。
成為 SAIL 的第一位女性主任,我當時相對來說是一個非常年輕的教員。我之所以想做,是因為我關心那個社群。我沒有花太多時間去想所有可能失敗的情況。當然,我很幸運,資深的教員都支持我,但我只是想有所作為。
然後去 Google 也類似,我想和像 Jeff Dean、Geoff Hinton、Demis 這樣的傑出人物一起工作,所有這些傑出的人。
所以 World Labs 也一樣,我有這個熱情,我也相信有著相同使命的人可以做出不可思議的事情。這就是引導我一路走來的線索。我不會過度思考所有可能出錯的事情,因為那太多了。
我覺得這是一個重要的元素,就是不要專注於負面,而是專注於人、使命、讓你興奮的事物、你的好奇心。
是的,我想對所有 AI 領域的年輕人才,工程師、研究人員說一句話,因為你們中的一些人申請了 World Labs,我很榮幸你們考慮了 World Labs。我確實發現,今天的許多年輕人,在決定工作時,會思考一個方程式的每一個方面。有時候,也許,也許那是他們想做的方式,但有時候我確實想鼓勵年輕人專注於重要的事情,因為我發現自己常常在我與求職者交談時,處於一種導師模式,不一定是招聘或不招聘,而是在導師模式中,當我看到一個傑出的年輕人才,過度專注於工作的每一個微小的維度和方面,而也許最重要的事情是,你的熱情在哪裡?你是否認同這個使命?你是否相信並信任這個團隊?然後就專注於你能帶來的影響和你可以與之共事的工作和團隊。
是的,對於 AI 領域的人來說,現在很困難,有太多的東西向他們湧來,太多的新聞,太多的事情在發生,太多的 FOMO。是的,我能理解那種壓力。所以,我認為那個建議非常重要,就像什麼才能真正讓你感到滿足,而不是僅僅哪裡是增長最快的公司,誰會贏,我不知道。
我想確保我問到你今天在 Stanford 做的工作,在 HAI。我想是 HAI,以人為本 AI 研究所。你在那裡做什麼?我知道這是你業餘時間還在做的事。
是的,所以 HAI,以人為本 AI 研究所,是我和一群教員,像是 John Etchemendy 教授、James Landay 教授、Chris Manning 教授,在 2018 年共同創辦的。我當時其實剛結束我在 Google 的學術休假。那對我來說是一個非常非常重要的決定,因為我本可以留在產業界,但我在 Google 的時間教會了我一件事,那就是 AI 將會是一項文明等級的技術。我突然意識到它對人類有多麼重要,以至於我那年,2018 年,在《紐約時報》上寫了一篇文章,談論需要一個指導框架來開發和應用 AI。那個框架必須植根於人類的善意,是以人為本。我感覺到 Stanford,作為世界頂尖大學之一,身處矽谷的核心,這個孕育了從 Nvidia 到 Google 等重要公司的地方,應該成為一個思想領袖,創建這個以人為本的 AI 框架,並在我們的研究、教育和政策以及生態系統工作中體現出來。
所以我創辦了 HAI。快轉幾年後,經過六七年的發展,它已經成為世界上最大的 AI 研究所,從事以人為本的研究、教育、生態系統推廣和政策影響。它涉及了 Stanford 八個學院的數百名教員,從醫學到教育、永續發展、商業、工程、人文、法律。我們支持研究人員,特別是在跨學科領域,從數位經濟到法律研究、政治學、新藥發現,再到超越 Transformer 的新演算法。
我們也特別注重政策,因為當我們創辦 HAI 時,我意識到矽谷不與華盛頓特區對話,也不與布魯塞爾或世界其他地方對話。考慮到這項技術的重要性,我們需要讓每個人都參與進來。所以我們創建了多個專案,從國會訓練營到 AI 指數報告、政策簡報,我們特別參與了政策制定,包括倡導一項國家 AI 研究雲法案,該法案在第一屆川普政府時期通過,並參與了州級的 AI 監管討論。所以我們做了很多事情,我繼續作為領導者之一,儘管我在運營上的參與少了很多,因為我關心我們不僅要創造這項技術,還要以正確的方式使用它。
哇,我不知道你還在做所有那些其他的工作。當你說話的時候,我想起了 Charlie Munger 的一句話:「抓住一個簡單的想法,然後非常認真地對待它。」我覺得你在很多方面都做到了這一點,並且堅持了下來,你在這些年裡在很多方面產生的影響是令人難以置信的。
我要跳過快問快答,只問你最後一個問題。還有什麼你想分享的,還有什麼你想留給聽眾的?
我對 AI 感到非常興奮,Lenny。我想回答一個問題,當我環遊世界時,每個人都會問我,那就是,如果我是一個音樂家、一個中學老師、一個護士、一個會計師、一個農夫,我在 AI 中還有角色嗎?還是 AI 就要接管我的生活或工作了?
我認為這是關於 AI 最重要的問題。我發現在矽谷,我們傾向於不與人們進行心與心的交流,不僅是像我們這樣的人,而是像我們所有的人。我們傾向於拋出一些詞,像是無限的生產力、無限的休閒時間、無限的力量等等。但歸根結底,AI 是關於人的。當人們問我這個問題時,答案是響亮的「是」,每個人在 AI 中都有一個角色。這取決於你做什麼,你想要什麼,但沒有任何技術應該剝奪人類的尊嚴。人類的尊嚴和能動性應該是每一項技術的開發、部署和治理的核心。
所以,如果你是一個年輕的藝術家,你的熱情是說故事,擁抱 AI 作為一個工具。事實上,擁抱 Marble,我希望它能成為你的工具。因為你說故事的方式是獨一無二的,世界仍然需要它。但你如何說故事,你如何利用最不可思議的工具,以最獨特的方式講述你的故事,這很重要。那個聲音需要被聽到。
如果你是一個即將退休的農夫,AI 仍然很重要,因為你是一個公民,你可以參與你的社群,你應該在 AI 如何被使用、如何被應用上有發言權。你與人合作,你可以鼓勵你們所有人利用 AI 來讓生活更輕鬆。
如果你是一個護士,我希望你知道,至少在我的職業生涯中,我做了很多醫療保健研究,因為我覺得我們的醫療工作者應該得到 AI 技術的極大增強和幫助,無論是智慧攝影機提供更多資訊,還是機器人輔助,因為我們的護士工作過度、過度疲勞。隨著我們社會的老化,我們需要更多的幫助來照顧人們。AI 可以在這方面發揮作用。
我只想說,重要的是,即使像我這樣的技術專家,也真誠地認為,每個人在 AI 中都有一個角色。
這是一個多麼美好的結束方式,也緊密地回扣了我們開始的地方,關於這一切取決於我們,以及為 AI 將在我們生活中所做的事情負起個人責任。
最後一個問題,人們在哪裡可以找到 Marble?他們可以去哪裡,也許嘗試加入 World Labs?網站是什麼?人們可以去哪裡?
World Labs 的網站是 www.worldlabs.ai,你可以在那裡找到我們的研究進展,我們有技術部落格,你可以在那裡找到 Marble 這個產品,你可以在那裡登錄。你也可以在那裡找到我們的職缺連結。我們在舊金山,我們很樂意與世界上最優秀的人才合作。
太棒了。Fei-Fei,非常感謝你來到這裡。
謝謝你,Lenny。