現代AI的智慧結晶:Jensen Huang, Geoffrey Hinton, Yann LeCun與未來AI願景
Roger’s Takeaway
很難得看到各路科學家大神齊聚一堂,雖然沒聊很多,也沒到很深入,但聽到五個頂尖科學家談到他們的 aha moment可以更理解他們在AI上的思考和角度。
摘要
2025年伊莉莎白女王工程獎得主齊聚一堂,包括Jensen Huang, Geoffrey Hinton, Yann LeCun, Yoshua Bengio, Bill Dally, 與Fei-Fei Li,分享他們在AI領域的關鍵「頓悟時刻」,探討當前AI爆炸性增長的需求、技術演變(如LLM到Agent),並對AGI的實現時間表和倫理影響進行了深入討論。
Jensen Huang 主要身份: NVIDIA(輝達)的共同創辦人、總裁暨執行長。 主要貢獻: 他被公認為是將圖形處理器(GPU)從專注於遊戲繪圖的晶片,轉變為加速運算和深度學習核心基礎設施的關鍵人物。NVIDIA的GPU成為了當今大型AI模型訓練和推論不可或缺的硬件,對於推動AI的爆炸性成長具有決定性的作用。
Geoffrey Hinton 主要身份: 英國認知心理學家與電腦科學家,被譽為「深度學習教父」之一。 主要貢獻: 他在人工神經網路的領域做出了開創性的工作。他的核心貢獻包括重新發揚和改進了反向傳播演算法(Backpropagation),以及在深度信念網絡(Deep Belief Networks, DBNs)方面的研究,為現代深度學習的興起奠定了數學和概念基礎。
Yann LeCun 主要身份: 法國電腦科學家,被譽為「深度學習教父」之一。現任Meta(前Facebook)的副總裁兼首席AI科學家,以及紐約大學(NYU)教授。 主要貢獻: 他是卷積神經網絡(Convolutional Neural Networks, CNNs)的發明者之一,並將其應用於圖像識別和手寫辨識,例如著名的LeNet。他是推動機器學習從理論走向實際應用的關鍵人物,尤其在電腦視覺領域有卓越成就。
Yoshua Bengio 主要身份: 加拿大電腦科學家,被譽為「深度學習教父」之一。現任蒙特婁大學(University of Montreal)教授和MILA(魁北克人工智慧研究所)的科學主任。 主要貢獻: 他的研究聚焦於更深層次的學習、神經機率語言模型,以及泛化能力(generalization)和因果關係(causality)等複雜的AI問題。近年來,他將重心轉向AI的倫理、安全和AGI(通用人工智慧)的發展方向。
Bill Dally 主要身份: 美國電腦科學家、電機工程師。現任NVIDIA的首席科學家兼研究資深副總裁,以及Stanford大學的兼任教授。 主要貢獻: 他是高性能運算和計算機體系結構領域的領軍人物,專門研究流式處理器(streaming processors)、高速互連技術(high-speed interconnects)和GPU運算架構。他在NVIDIA的工作對於設計出能夠有效支援深度學習任務的高效率GPU至關重要。
Fei-Fei Li (李飛飛) 主要身份: 美國電腦科學家。現任Stanford大學教授,並共同主持Stanford「以人為本AI研究所」(Human-Centered AI Institute, HAI)。 主要貢獻: 她最著名的貢獻是創建了大規模圖像數據庫ImageNet,該數據庫為現代深度學習和電腦視覺的爆發式發展提供了關鍵的數據基礎。她也積極倡導「以人為本的AI」(Human-Centered AI)框架,強調AI技術發展應將人類價值觀置於中心。
Highlight
1.
Yoshua Bengio「頓悟時刻」(aha moment)
第一個是在我還是研究生時,我正在尋找有趣的研究方向,讀到Jeff Hinton的一些早期論文,我心想:「哇,這太令人興奮了。」也許存在一些像物理定律一樣的簡單原則,可以幫助我們理解人類智慧,並幫助我們建立智慧機器。
我想談的第二個時刻是兩年半前,在ChatGPT問世之後,我意識到:「噢,我們在做什麼?」如果我們建立了能理解語言、擁有目標,但我們無法控制這些目標的機器,會發生什麼?如果它們比我們更聰明,會發生什麼?如果人們濫用這種力量,又會發生什麼?這就是為什麼我決定完全轉變我的研究議程和職業生涯,盡我所能來應對這個問題。
2.
Bill Dally「頓悟時刻」(aha moment)
第一個是在90年代末,我在Stanford試圖找出如何克服當時所謂的「記憶牆」(memory wall)。事實上,從記憶體存取數據在能源和時間上的成本,遠高於對數據進行算術運算。這讓我想到將運算組織成由串流(streams)連接的「核心」(kernels)。這樣你就可以進行大量的算術運算,而無需進行太多次的記憶體存取。這基本上引領了後來被稱為串流處理(stream processing),並最終發展為GPU運算。我們最初建立它時,認為GPU不僅可以用於圖形,還可以用於一般的科學運算。
第二個時刻是,2010年我與我的同事Andrew Ng在Stanford共進早餐。當時他正在Google工作,使用16,000個CPU和一種稱為「神經網路」(neural networks)的技術在網路上尋找貓咪,這項技術Fei-Fei Li也有涉獵。他基本上說服了我,這是一項偉大的技術。於是我與Brian Kelleher在NVIDIA用48個GPU重複了這個實驗。當我看到實驗結果時,我完全確信這就是NVIDIA應該做的事情。我們應該建立GPU來進行深度學習,因為這在發現貓咪之外,還有各種領域的巨大應用。那是一個「頓悟時刻」,真正開始努力將GPU專門用於深度學習,使其更有效率。
3.
Geoffrey Hinton「頓悟時刻」(aha moment)
一個非常重要的時刻是在大約1984年,我嘗試使用反向傳播(back propagation)來學習一個詞彙序列中的下一個詞。這是一個微小的語言模型,我發現它可以為詞彙的含義學習有趣的特徵。只需給它一串符號,它試圖預測符號串中的下一個詞,就能學會如何將詞彙轉換成一組捕捉詞義的特徵,並讓這些特徵之間的交互作用來預測下一個詞的特徵。所以,這實際上是1984年底的一個微型語言模型,我將其視為這些大型語言模型的先驅。基本原理是相同的,只是它非常小。我們只有100個訓練樣本。
儘管如此,我們花了40年才走到這一步。
花了40年才走到這一步。原因在於我們當時沒有運算能力(compute),沒有數據,而且我們當時並不知道。我們無法理解為什麼我們不能僅僅用反向傳播解決所有問題。
4.
Jensen Huang「頓悟時刻」(aha moment)
對我的職業生涯來說,我是第一代能夠使用更高層次表示法和設計工具來設計晶片的晶片設計師。這項發現對我很有幫助。大約在2010年左右,我從三個不同的實驗室同時了解了一種新的軟體開發方式:University of Toronto的研究人員,NYU的研究人員,以及Stanford的研究人員同時與我們聯繫。我看到了當時被證明是深度學習的早期跡象,他們使用一種框架和結構化設計來建立軟體,而那個軟體被證明是極為有效的。
我的第二個觀察是,再次使用框架、更高層次的表示法和像深度學習網路這樣的結構化設計,我開發軟體的方式與我設計晶片的方式非常相似,模式也極為相似。我當時意識到,也許我們可以開發出能夠隨著我們多年來擴展晶片設計而很好地擴展的軟體和功能。所以這對我來說是一個非常關鍵的時刻。
5.
Fei-Fei Li 「頓悟時刻」(aha moment)
大約在2006年和2007年,我從研究生轉變為一位年輕的助理教授。我是第一代機器學習研究生之一,閱讀來自Yann、Yoshua、Jeff的論文。我當時非常著迷於解決視覺識別(visual recognition)的問題,也就是機器能夠在日常圖片中感知物體的意義。我們在機器學習中苦苦掙扎於一個稱為「泛化能力」(generalizability)的問題,即從一定數量的範例學習後,我們能否識別出新的範例。我嘗試了從Bayes、支持向量機(support vector machines)到神經網路等各種演算法,我和我的學生意識到,缺少的部分是數據。如果你看看人類這樣智慧動物的進化或發展,我們在發展的早期被數據淹沒,但我們的機器卻缺乏數據。
所以我們決定在那時做一些瘋狂的事情:耗時三年建立一個網路規模的數據集,稱為ImageNet,其中包含由世界各地的人手工策劃的1500萬張圖片,涵蓋22,000個類別。
所以,對我來說,那時的頓悟時刻是:大數據驅動機器學習,它現在是我們所見所有演算法的限制因素和基石。
第二個頓悟時刻是,2018年,我是Google Cloud的第一任AI首席科學家。我們工作的一部分是服務所有垂直行業,從醫療保健到金融服務,從娛樂到製造業,從農業到能源。那是在我們所謂的ImageNet/AlexNet時刻之後的幾年,也是AlphaGo(一種能夠在圍棋上擊敗人類的演算法)之後的幾年。作為Google的首席科學家,我意識到這是一項將影響每個人的文明技術(civilizational technology),以及每個商業部門。如果人類將進入一個AI時代,什麼是指導框架,使我們不僅能創新,還能透過這項強大的技術為所有人帶來福祉?正是在那時,我作為教授回到了Stanford,共同創立了「以人為本AI研究所」(Human-Centered AI institute),並提出了「以人為本AI框架」(human-center AI framework),以便我們能將人性和人類價值觀保持在這項技術的中心。
6.
Yann LeCun「頓悟時刻」(aha moment)
可能要追溯很久以前。我讀大學時,就被AI和更廣泛的智慧問題所吸引,並發現50年代和60年代研究訓練機器而不是程式設計機器的人。我對這個想法真的很著迷,可能是因為我認為自己太笨或太懶,無法從頭開始建立一個智慧機器。所以最好讓它自我訓練或自我組織,這也是生命中智慧建立自己的方式,它是自我組織的。
所以我認為這個概念非常迷人。當我從工程學畢業時(順帶一提,我當時在做晶片設計),我想去讀研究所,但我找不到任何人在研究這個。後來我聯繫了一些對此感興趣的人,發現了Jeff的論文等。他是我在1983年開始讀研究所時最想見的人,我們最終在兩年後見面了。
是的。我們在1985年共進午餐,我們基本上可以完成對方的句子。他當時有一篇我在某次會議上用法語寫的論文,他是主題演講者,他設法破解了其中的數學。它有點像是反向傳播,用於訓練多層網路。從60年代起,人們就知道機器學習的限制在於我們無法訓練多層機器。所以那真的是我的執著,也是他的執著。我有一篇論文提出了某種解決方法,他設法閱讀了其中的數學。這就是我們結緣的方式,這也設定了你走上這條路。
是的。然後,一旦你可以訓練像這樣複雜的系統,你就會問自己:我該如何建立它們,讓它們做一些有用的事情,比如識別圖像等等?在那個時候,Jeff和我在80年代末他那裡做博士後時有過一次辯論。我認為唯一表述清楚的機器學習範式是監督式學習(supervised running)。你給機器看一張圖像,並告訴它答案是什麼。他說:「不,不,不,我們要取得進展的唯一途徑是透過非監督式學習(unsupervised running)。」我當時對此有些不以為然。
後來,在2000年代中期,當我、Yoshua和Jeff重新聚集起來,並重新點燃了社群對深度學習的興趣時,我們實際上把賭注押在了非監督式學習或自我強化循環(self reinforcement loop)上(這不是強化學習)。這基本上是在不訓練機器執行任何特定任務的情況下,發現數據中的結構,順帶一提,這就是大型語言模型的訓練方式。一個LLM被訓練來預測下一個詞,但這並不是一個真正的任務。這只是一種讓系統學習良好表示或捕捉結構的方式。
在強化學習中,你說這是好的,所以這就是獎勵。事實上,我要怪Fei-Fei Li,因為她創建了這個標註過的大數據集ImageNet,所以我們可以用監督式學習來訓練系統,結果它的效果比我們預期的要好得多。因此,我們暫時放棄了研究自我監督/非監督式學習的整個計畫,因為監督式學習的效果實在太好了。我們找到了一些技巧,Yoshua堅持了下來,我沒有,Jeff也沒有,但它確實將整個產業和研究社群重新聚焦在深度學習、監督式學習等等。
又過了幾年,大約在2016年、2017年左右,我才告訴人們:「這不會帶我們到達我們想去的地方。我們現在需要做自我監督式學習(self-s supervised learning)。」而這正是LLM的最佳例子。然而,我們現在正在研究的是將此應用於其他類型的數據,比如LLM根本不擅長的影片感測器數據。這是未來幾年的新挑戰。
7.
Jensen Huang
在網路泡沫時代,部署的光纖絕大多數是黑色的(dark),意味著產業部署了遠超所需的光纖。今天,你幾乎能找到的每一個GPU都是點亮的(lit up)並被使用。我認為,為什麼退一步來理解AI是什麼很重要?對於很多人來說,AI是ChatGPT、是圖像生成,這些都沒錯,但這只是它的應用之一。
在過去幾年中,AI取得了巨大的進步。它不僅能夠記憶和泛化,還能夠透過研究來推理、有效地思考並建立基礎。它現在能夠產生答案,做的事情更有價值,效率也更高。能夠建立有助於其他企業發展的企業數量也在增加。例如,我們使用的一家AI軟體程式設計公司Cursor,他們非常賺錢,我們大量使用了他們的軟體,它非常有用。還有Abridge或OpenEvidence,他們服務於醫療保健產業,做得非常好,產生了非常好的結果。所以AI能力增長了很多。因此,我們看到了兩個指數級的增長同時發生:一方面,產生一個答案所需的運算量大幅增加;另一方面,這些AI模型的使用量也在指數級增長。這兩個指數級增長導致了對運算的大量需求。
現在,退一步來看,你會問自己,今天的AI與過去的軟體產業根本上有什么不同?
過去的軟體是預先編譯的,軟體所需的運算量不高。但AI為了有效,它必須具備上下文感知能力。它只能在當下產生智慧。你不能預先產生然後檢索它,那叫內容。AI智慧必須即時產生和生成。因此,我們現在創造了一個產業,產生真正有價值和高需求的產品所需的運算量是相當可觀的。我們創造了一個需要工廠的產業。這就是為什麼我提醒大家,AI需要工廠來產生這些tokens,產生智慧。這是前所未有的,電腦實際上成為了工廠的一部分。我們需要數千億美元的此類工廠,才能服務於建立在智慧之上的數兆美元的產業。
LLM是AI技術的一部分。AI是一個模型系統,不僅僅是LLM。LLM是其中很大一部分,但它是一個模型系統。要使AI比今天更具生產力所需技術,無論我們稱之為什麼,我們還有很多技術需要開發。
8.
Fei-Fei Li
我們不要忘記,AI總體來說仍是一個非常年輕的領域。我們走進這個房間,牆上有物理方程式。物理學已經是一門超過400年的學科。即使我們看現代物理學,AI如果追溯到Alan Turing,也才大約75年,所以未來還有更多的新領域(new frontiers)等著我們去探索和征服。Jensen和Yoshua談到了LLM和代理人,這些更多是基於語言的。但即使你自我審視人類智慧,也有更多超越語言的智慧能力。我一直在研究空間智慧(spatial intelligence),這是感知和行動之間的關鍵環節,人類和動物擁有令人難以置信的能力去感知、推理、互動並創造遠超語言的世界。即使是當今最強大的基於語言或LLM的模型,在基本的空間智慧測試中也會失敗。
從這個角度來看,作為一個學科、一門科學,還有更多的領域有待征服和開拓,這將帶來更多的應用。
9.
Yann LeCun
我認為有幾個觀點認為我們沒有處於泡沫中,但至少有一個觀點暗示我們在泡沫中,但這是不同的事情。
我們沒有處於泡沫中,因為有很多應用可以基於LLM來開發。LLM是當前的主導範式,有很多東西可以挖掘。正如Bill所說,利用現有的技術來幫助人們的日常生活,這項技術需要被推動,這證明了在軟體和基礎設施方面所做的所有投資是合理的。一旦我們有了智慧穿戴設備,在每個人的手中協助他們的日常生活,正如Jensen所說,為所有人提供服務所需的運算量將是巨大的。所以在這個意義上,投資沒有被浪費。
但從某種意義上說,存在一個泡沫,那就是某種程度上認為LLM的當前範式會被推到達到人類水平智慧(human level intelligence)的程度,我個人不相信這一點,您也不相信。我們需要一些突破才能達到真正擁有我們在人類甚至動物身上觀察到的那種智慧的機器。我們沒有像貓一樣聰明的機器人。所以我們仍然缺少一些重要的東西。這就是為什麼AI的進步不僅僅是更多基礎設施、更多數據、更多投資和當前範式更多發展的問題。這實際上是一個科學問題:我們如何朝著下一代AI取得進展?
這就是你們所有人都在這裡的原因,因為你們實際上點燃了整個事情。我覺得我們正朝著工程應用方面邁進,但您說的是,我們需要回到最初帶您來到這裡的東西。
未來5到10年內,我們可能會在提出新範式方面取得重大進展。然後可能會持續進步。但它會比我們想像的要久。
機器的一部分將會超越人類智慧,而機器智慧的一部分將永遠不會相似或與人類智慧相同。它們是為不同的目的而建造的。
逐字稿
大家好。午安,早安。我很榮幸能獲選介紹在座這群傑出人士。這六位,我認為是當今地球上最聰明、影響力最大的人。我想這絕非誇大其詞。
他們是2025年Queen Elizabeth Prize for Engineering的得主,旨在表彰我們今天所見的這些獲獎者,對當今人工智慧技術產生的獨特影響。鑑於你們在先進機器學習和AI領域的開創性成就,以及你們協助建立的創新技術正在塑造我們的生活,我認為對所有人來說,這是一個難得且令人興奮的機會,能讓你們齊聚一堂。
對我個人而言,我非常期待聽到你們反思我們所處的當前時刻——每個人都試圖超前並理解的時刻,以及引領你們走到今天的心路歷程。同時,我也想了解你們的工作和你們個人是如何互相影響,並影響了你們建立的公司和技術。
最後,我希望聽聽你們對未來的展望,幫助我們所有人更清晰地看到未來,畢竟你們處於最有利的位置。因此,我非常高興你們今天都能參與我們的討論。我將從宏觀開始,逐步深入到非常個人的層面。
我想聽聽你們每個人在職業生涯中的個人「頓悟時刻」(aha moment),那個你認為影響了你工作或是一個轉捩點,讓你走上這條路,最終促成了你今天坐在這裡的時刻。無論它發生在職業生涯早期、研究期間,還是最近,你的個人覺醒時刻是什麼?它如何影響了技術?我們從您開始嗎?Yoshua,謝謝,是的,我很樂意。
我會提到兩個時刻。第一個是在我還是研究生時,我正在尋找有趣的研究方向,讀到Jeff Hinton的一些早期論文,我心想:「哇,這太令人興奮了。」也許存在一些像物理定律一樣的簡單原則,可以幫助我們理解人類智慧,並幫助我們建立智慧機器。
我想談的第二個時刻是兩年半前,在ChatGPT問世之後,我意識到:「噢,我們在做什麼?」如果我們建立了能理解語言、擁有目標,但我們無法控制這些目標的機器,會發生什麼?如果它們比我們更聰明,會發生什麼?如果人們濫用這種力量,又會發生什麼?這就是為什麼我決定完全轉變我的研究議程和職業生涯,盡我所能來應對這個問題。
這是兩種非常不同、非常有趣的想法。Bill,跟我們談談你的時刻,關於建立為我們現有技術提供動力的基礎設施。
我也會提供兩個時刻。第一個是在90年代末,我在Stanford試圖找出如何克服當時所謂的「記憶牆」(memory wall)。事實上,從記憶體存取數據在能源和時間上的成本,遠高於對數據進行算術運算。這讓我想到將運算組織成由串流(streams)連接的「核心」(kernels)。這樣你就可以進行大量的算術運算,而無需進行太多次的記憶體存取。這基本上引領了後來被稱為串流處理(stream processing),並最終發展為GPU運算。我們最初建立它時,認為GPU不僅可以用於圖形,還可以用於一般的科學運算。
第二個時刻是,我與我的同事Andrew Ng在Stanford共進早餐。當時他正在Google工作,使用16,000個CPU和一種稱為「神經網路」(neural networks)的技術在網路上尋找貓咪,這項技術Fei-Fei Li也有涉獵。他基本上說服了我,這是一項偉大的技術。於是我與Brian Kelleher在NVIDIA用48個GPU重複了這個實驗。當我看到實驗結果時,我完全確信這就是NVIDIA應該做的事情。我們應該建立GPU來進行深度學習,因為這在發現貓咪之外,還有各種領域的巨大應用。那是一個「頓悟時刻」,真正開始努力將GPU專門用於深度學習,使其更有效率。
那是哪一年?
早餐是在2010年,我想我們在2011年重複了實驗。
好的。Jeff,跟我們談談你的工作。
一個非常重要的時刻是在大約1984年,我嘗試使用反向傳播(back propagation)來學習一個詞彙序列中的下一個詞。這是一個微小的語言模型,我發現它可以為詞彙的含義學習有趣的特徵。只需給它一串符號,它試圖預測符號串中的下一個詞,就能學會如何將詞彙轉換成一組捕捉詞義的特徵,並讓這些特徵之間的交互作用來預測下一個詞的特徵。所以,這實際上是1984年底的一個微型語言模型,我將其視為這些大型語言模型的先驅。基本原理是相同的,只是它非常小。我們只有100個訓練樣本。
儘管如此,我們花了40年才走到這一步。
花了40年才走到這一步。原因在於我們當時沒有運算能力(compute),沒有數據,而且我們當時並不知道。我們無法理解為什麼我們不能僅僅用反向傳播解決所有問題。
這讓我們很順暢地轉向Jensen。40年來我們沒有運算能力,而現在您正在建造它。跟我們談談你真正清晰的時刻。
對我的職業生涯來說,我是第一代能夠使用更高層次表示法和設計工具來設計晶片的晶片設計師。這項發現對我很有幫助。大約在2010年左右,我從三個不同的實驗室同時了解了一種新的軟體開發方式:University of Toronto的研究人員,NYU的研究人員,以及Stanford的研究人員同時與我們聯繫。我看到了當時被證明是深度學習的早期跡象,他們使用一種框架和結構化設計來建立軟體,而那個軟體被證明是極為有效的。
我的第二個觀察是,再次使用框架、更高層次的表示法和像深度學習網路這樣的結構化設計,我開發軟體的方式與我設計晶片的方式非常相似,模式也極為相似。我當時意識到,也許我們可以開發出能夠隨著我們多年來擴展晶片設計而很好地擴展的軟體和功能。所以這對我來說是一個非常關鍵的時刻。
您認為晶片是從什麼時候開始真正幫助擴大我們今天所擁有的這些大型語言模型(LLMs)的規模?因為您說2010年,那距今仍有15年。
NVIDIA架構的特點是,一旦你能夠讓某個東西在GPU上運行良好,因為它變成了並行(parallel)運算,你就能讓它在多個GPU上運行良好。將演算法擴展到在單一GPU上的多個處理器上運行的相同概念,正是你可以在多個GPU上,然後在多個系統上,甚至多個資料中心上實現的邏輯和推理。因此,一旦我們意識到我們可以有效地做到這一點,剩下的就是想像這種能力可以推斷到多遠。你有多少數據?網路可以多大?它可以捕捉多少維度?它可以解決什麼樣的問題?在那一點上,所有這些都變成了工程。
深度學習模型如此有效的觀察,真的是火花。剩下的就只是工程推斷了。
Fei-Fei Li,跟我們談談你的時刻。
是的,我也想分享兩個時刻。大約在2006年和2007年,我從研究生轉變為一位年輕的助理教授。我是第一代機器學習研究生之一,閱讀來自Yann、Yoshua、Jeff的論文。我當時非常著迷於解決視覺識別(visual recognition)的問題,也就是機器能夠在日常圖片中感知物體的意義。我們在機器學習中苦苦掙扎於一個稱為「泛化能力」(generalizability)的問題,即從一定數量的範例學習後,我們能否識別出新的範例。我嘗試了從Bayes、支持向量機(support vector machines)到神經網路等各種演算法,我和我的學生意識到,缺少的部分是數據。如果你看看人類這樣智慧動物的進化或發展,我們在發展的早期被數據淹沒,但我們的機器卻缺乏數據。
所以我們決定在那時做一些瘋狂的事情:耗時三年建立一個網路規模的數據集,稱為ImageNet,其中包含由世界各地的人手工策劃的1500萬張圖片,涵蓋22,000個類別。
所以,對我來說,那時的頓悟時刻是:大數據驅動機器學習,它現在是我們所見所有演算法的限制因素和基石。
第二個頓悟時刻是,2018年,我是Google Cloud的第一任AI首席科學家。我們工作的一部分是服務所有垂直行業,從醫療保健到金融服務,從娛樂到製造業,從農業到能源。那是在我們所謂的ImageNet/AlexNet時刻之後的幾年,也是AlphaGo(一種能夠在圍棋上擊敗人類的演算法)之後的幾年。作為Google的首席科學家,我意識到這是一項將影響每個人的文明技術(civilizational technology),以及每個商業部門。如果人類將進入一個AI時代,什麼是指導框架,使我們不僅能創新,還能透過這項強大的技術為所有人帶來福祉?正是在那時,我作為教授回到了Stanford,共同創立了「以人為本AI研究所」(Human-Centered AI institute),並提出了「以人為本AI框架」(human-center AI framework),以便我們能將人性和人類價值觀保持在這項技術的中心。
所以既要發展,也要關注影響和下一步,這也是我們其他人參與進來的地方。
Yann,您想為我們做個結尾嗎?您的亮點是什麼?
可能要追溯很久以前。我讀大學時,就被AI和更廣泛的智慧問題所吸引,並發現50年代和60年代研究訓練機器而不是程式設計機器的人。我對這個想法真的很著迷,可能是因為我認為自己太笨或太懶,無法從頭開始建立一個智慧機器。所以最好讓它自我訓練或自我組織,這也是生命中智慧建立自己的方式,它是自我組織的。
所以我認為這個概念非常迷人。當我從工程學畢業時(順帶一提,我當時在做晶片設計),我想去讀研究所,但我找不到任何人在研究這個。後來我聯繫了一些對此感興趣的人,發現了Jeff的論文等。他是我在1983年開始讀研究所時最想見的人,我們最終在兩年後見面了。
所以今天你們是朋友了?
是的。我們在1985年共進午餐,我們基本上可以完成對方的句子。他當時有一篇我在某次會議上用法語寫的論文,他是主題演講者,他設法破解了其中的數學。它有點像是反向傳播,用於訓練多層網路。從60年代起,人們就知道機器學習的限制在於我們無法訓練多層機器。所以那真的是我的執著,也是他的執著。我有一篇論文提出了某種解決方法,他設法閱讀了其中的數學。這就是我們結緣的方式,這也設定了你走上這條路。
是的。然後,一旦你可以訓練像這樣複雜的系統,你就會問自己:我該如何建立它們,讓它們做一些有用的事情,比如識別圖像等等?在那個時候,Jeff和我在80年代末他那裡做博士後時有過一次辯論。我認為唯一表述清楚的機器學習範式是監督式學習(supervised running)。你給機器看一張圖像,並告訴它答案是什麼。他說:「不,不,不,我們要取得進展的唯一途徑是透過非監督式學習(unsupervised running)。」我當時對此有些不以為然。
後來,在2000年代中期,當我、Yoshua和Jeff重新聚集起來,並重新點燃了社群對深度學習的興趣時,我們實際上把賭注押在了非監督式學習或自我強化循環(self reinforcement loop)上(這不是強化學習)。這基本上是在不訓練機器執行任何特定任務的情況下,發現數據中的結構,順帶一提,這就是大型語言模型的訓練方式。一個LLM被訓練來預測下一個詞,但這並不是一個真正的任務。這只是一種讓系統學習良好表示或捕捉結構的方式。
在強化學習中,你說這是好的,所以這就是獎勵。事實上,我要怪Fei-Fei Li,因為她創建了這個標註過的大數據集ImageNet,所以我們可以用監督式學習來訓練系統,結果它的效果比我們預期的要好得多。因此,我們暫時放棄了研究自我監督/非監督式學習的整個計畫,因為監督式學習的效果實在太好了。我們找到了一些技巧,Yoshua堅持了下來,我沒有,Jeff也沒有,但它確實將整個產業和研究社群重新聚焦在深度學習、監督式學習等等。
又過了幾年,大約在2016年、2017年左右,我才告訴人們:「這不會帶我們到達我們想去的地方。我們現在需要做自我監督式學習(self-s supervised learning)。」而這正是LLM的最佳例子。然而,我們現在正在研究的是將此應用於其他類型的數據,比如LLM根本不擅長的影片感測器數據。這是未來幾年的新挑戰。
這將我們帶到了當前時刻。我想,你們都看到了這種興趣的頂峰,來自那些以前對AI一無所知、毫無興趣的人,現在每個人都湧向這裡。這已不僅僅是一項技術創新,它已成為一個巨大的商業熱潮,一個地緣政治策略問題,每個人都在試圖理解它。
Jensen,我先從您這裡開始。我想讓你們反思這個時刻。NVIDIA尤其幾乎每天、每小時、每週都在新聞中出現,您已經成為世界上最有價值的公司。這其中必然有人們想要的東西。您會擔心我們是否正走到一個人們不太理解的點,我們都跑得太快了,會有一場清算,一個泡沫會破裂,然後它會自我修正嗎?如果不是,關於來自AI的需求,人們最大的誤解是什麼?是什麼讓它與網路泡沫時代不同,或者人們不理解的?
在網路泡沫時代,部署的光纖絕大多數是黑色的(dark),意味著產業部署了遠超所需的光纖。今天,你幾乎能找到的每一個GPU都是點亮的(lit up)並被使用。我認為,為什麼退一步來理解AI是什麼很重要?對於很多人來說,AI是ChatGPT、是圖像生成,這些都沒錯,但這只是它的應用之一。
在過去幾年中,AI取得了巨大的進步。它不僅能夠記憶和泛化,還能夠透過研究來推理、有效地思考並建立基礎。它現在能夠產生答案,做的事情更有價值,效率也更高。能夠建立有助於其他企業發展的企業數量也在增加。例如,我們使用的一家AI軟體程式設計公司Cursor,他們非常賺錢,我們大量使用了他們的軟體,它非常有用。還有Abridge或OpenEvidence,他們服務於醫療保健產業,做得非常好,產生了非常好的結果。所以AI能力增長了很多。因此,我們看到了兩個指數級的增長同時發生:一方面,產生一個答案所需的運算量大幅增加;另一方面,這些AI模型的使用量也在指數級增長。這兩個指數級增長導致了對運算的大量需求。
現在,退一步來看,你會問自己,今天的AI與過去的軟體產業根本上有什么不同?
過去的軟體是預先編譯的,軟體所需的運算量不高。但AI為了有效,它必須具備上下文感知能力。它只能在當下產生智慧。你不能預先產生然後檢索它,那叫內容。AI智慧必須即時產生和生成。因此,我們現在創造了一個產業,產生真正有價值和高需求的產品所需的運算量是相當可觀的。我們創造了一個需要工廠的產業。這就是為什麼我提醒大家,AI需要工廠來產生這些tokens,產生智慧。這是前所未有的,電腦實際上成為了工廠的一部分。我們需要數千億美元的此類工廠,才能服務於建立在智慧之上的數兆美元的產業。
回頭看看過去的軟體,它們是工具,供人們使用。AI是第一次增強人類的智慧。因此,它解決了勞動問題,它解決了工作。它在工作。
所以您說這不是一個泡沫。
我認為這只是智慧建設的開始。事實上,今天大多數人仍然沒有使用AI。在不久的將來,我們所做的幾乎所有事情,你一天中的每一刻,都將以某種方式與AI互動。因此,從我們今天使用率相當低的階段到未來使用率基本上是連續的階段,這段建設期就是...
即使LLM的發展耗盡,您認為GPU和您正在建立的基礎設施仍可用於不同的範式嗎?然後我想開放給其他人發言。
LLM是AI技術的一部分。AI是一個模型系統,不僅僅是LLM。LLM是其中很大一部分,但它是一個模型系統。要使AI比今天更具生產力所需技術,無論我們稱之為什麼,我們還有很多技術需要開發。
誰想跳進來討論這個?特別是如果您不同意的話。
我不認為我們應該再稱它們為LLMs了。它們不再是語言模型了。它們開始時是語言模型,至少預訓練是如此,但最近在使它們成為代理人(agents)方面有很多進展。換句話說,透過一系列步驟來實現某個目標,與環境、與人進行互動(目前透過對話,但越來越多是與運算基礎設施互動)。這項技術正在改變。它與三年前的樣子完全不同。我不認為我們可以預測這項技術在兩年、五年、十年後會是什麼樣子。但我們可以看見趨勢。
我正在做的一件事情是,試圖召集一群國際專家,持續追蹤AI正在發生什麼、它將走向何方、風險是什麼,以及如何減輕這些風險。現在,透過如此多的基準測試,趨勢非常明確,因為我們在改進技術方面取得了如此多的成功,這並不意味著未來也會如此。因此,如果預期沒有實現,就會產生財務後果。但從長遠來看,我完全同意。
但目前,你們其他人怎麼看?你們認為這些估值,根據你們對技術和應用的了解,是否合理?
我認為有三個趨勢可以解釋正在發生的事情。第一個是模型變得更有效率。如果你只看Attention機制,從一般的Attention到GQA再到MLA,你用更少的運算得到相同或更好的結果。這反過來又推動了需求,讓以前可能太貴的東西現在變得便宜。你可以用AI做更多事情。
同時,模型變得更好。或許它們會繼續使用Transformer架構變得更好,或許會出現新的架構,但我們不會走回頭路。我們將繼續擁有更好的模型。
它們仍然需要GPU,即使不是基於Transformer?
絕對需要。事實上,這使得它們比更專業化的東西更有價值,因為它們更靈活,可以更好地隨著模型進化。但最後一點是,我認為我們才剛開始觸及應用的表面。人類生活的幾乎每個方面都可以透過AI來協助人們的專業工作,幫助他們的日常生活而變得更好。我認為我們只達到了最終需求的1%左右。隨著需求的擴大,使用次數將會增加。
所以我認為這裡沒有泡沫。我認為我們正如Jensen所說,正處於多重指數級增長的開始,它將會持續下去。
從某種意義上說,NVIDIA正處於有利位置,因為即使這種範式發生變化,出現其他類型的AI和其他架構,你仍然需要底層的硬體。這對您來說是合理的。
Fei-Fei Li,您想插話嗎?
是的,我確實認為,當然從市場的角度來看,它會有自己的動態,有時也會自我調整。但如果著眼於長期趨勢,我們不要忘記,AI總體來說仍是一個非常年輕的領域。我們走進這個房間,牆上有物理方程式。物理學已經是一門超過400年的學科。即使我們看現代物理學,AI如果追溯到Alan Turing,也才大約75年,所以未來還有更多的新領域(new frontiers)等著我們去探索和征服。Jensen和Yoshua談到了LLM和代理人,這些更多是基於語言的。但即使你自我審視人類智慧,也有更多超越語言的智慧能力。我一直在研究空間智慧(spatial intelligence),這是感知和行動之間的關鍵環節,人類和動物擁有令人難以置信的能力去感知、推理、互動並創造遠超語言的世界。即使是當今最強大的基於語言或LLM的模型,在基本的空間智慧測試中也會失敗。
從這個角度來看,作為一個學科、一門科學,還有更多的領域有待征服和開拓,這將帶來更多的應用。
Yann,您在一間公司工作,所以您同時擁有研究人員和商業領域的雙重視角。您同意嗎?您是否相信這一切都是合理的,您能看到這一切的來源,還是您認為我們正在達到終點,需要找到一條新的路徑?
我認為有幾個觀點認為我們沒有處於泡沫中,但至少有一個觀點暗示我們在泡沫中,但這是不同的事情。
我們沒有處於泡沫中,因為有很多應用可以基於LLM來開發。LLM是當前的主導範式,有很多東西可以挖掘。正如Bill所說,利用現有的技術來幫助人們的日常生活,這項技術需要被推動,這證明了在軟體和基礎設施方面所做的所有投資是合理的。一旦我們有了智慧穿戴設備,在每個人的手中協助他們的日常生活,正如Jensen所說,為所有人提供服務所需的運算量將是巨大的。所以在這個意義上,投資沒有被浪費。
但從某種意義上說,存在一個泡沫,那就是某種程度上認為LLM的當前範式會被推到達到人類水平智慧(human level intelligence)的程度,我個人不相信這一點,您也不相信。我們需要一些突破才能達到真正擁有我們在人類甚至動物身上觀察到的那種智慧的機器。我們沒有像貓一樣聰明的機器人。所以我們仍然缺少一些重要的東西。這就是為什麼AI的進步不僅僅是更多基礎設施、更多數據、更多投資和當前範式更多發展的問題。這實際上是一個科學問題:我們如何朝著下一代AI取得進展?
這就是你們所有人都在這裡的原因,因為你們實際上點燃了整個事情。我覺得我們正朝著工程應用方面邁進,但您說的是,我們需要回到最初帶您來到這裡的東西。
關於人類水平智慧的問題,我們剩下的時間不多了,所以我只想做一個快速問答。我很好奇,你們每個人能說說,你們認為我們需要多長時間才能達到您相信的與人類甚至聰明動物(比如章魚)相當的機器智慧?我們還有多遠?只需要年限。
它不會是一個單一事件。因為能力將會在各種領域逐漸擴展。
在什麼時間段內?
未來5到10年內,我們可能會在提出新範式方面取得重大進展。然後可能會持續進步。但它會比我們想像的要久。
機器的一部分將會超越人類智慧,而機器智慧的一部分將永遠不會相似或與人類智慧相同。它們是為不同的目的而建造的。
我們什麼時候能達到超越?
部分已經實現了。我們中有多少人能夠識別世界上22,000種物體?
所以您不認為一個成年人能識別22,000種物體?
那種細節和保真度。不。有多少成年人能翻譯100種語言?這更難。所以是的。我認為我們應該更細緻入微,立足於科學事實,就像飛機飛行,但它們不像鳥一樣飛行。基於機器的智慧將會做很多強大的事情,但在我們的人類社會中,人類智慧永遠具有深刻的關鍵地位。
Jensen,我們已經有足夠的通用智慧(general intelligence)在未來幾年內將這項技術轉化為大量對社會有用的應用。關於AGI的實現...
是的。我們今天就在做這件事。所以我認為,第一,我們已經達到了;第二,答案是這並不重要,因為在這一點上,這有點像一個學術問題。我們將應用這項技術,而且技術將會不斷進步,從現在開始,我們將應用這項技術來解決許多非常重要的問題。所以,我認為答案是這並不重要,而且現在就已經是如此了。
如果您將問題稍微修正一下,問「如果與這台機器進行辯論,它將永遠獲勝,還需要多長時間?」我認為這絕對會在20年內發生。我們還沒有達到,但我認為相當確定會在20年內實現。因此,如果您將其定義為通用人工智慧(AGI)——它將永遠贏得與您的辯論——我們可能會在不到20年的時間內實現。
Bill,您認為呢?
我有點同意Jensen的觀點,這是錯誤的問題,對吧?因為我們的目標不是建立AI來取代人類或比人類更好。
但這是一個科學問題,而不是我們會取代人類。問題是我們作為一個社會能否建立一些東西?
但我們的目標是建立AI來增強人類。因此,我們想要做的是補充人類擅長的事情。人類無法識別22,000個類別,或者我們大多數人無法解決這些奧林匹克數學問題。所以我們建立AI來做這些。這樣人類就可以做獨特屬於人類的事情,即具有創造力、富有同理心,並理解如何與我們世界中的其他人互動。我認為AI是否會永遠做到這一點尚不清楚,但AI可以成為人類巨大的助手。
我對此持不同意見。我不認為有任何理由可以說明我們在某個時候無法建立出幾乎可以完成我們能做的一切的機器。當然,目前在空間和機器人方面還落後,但沒有概念上的理由說我們不能。
關於時間線,我認為存在很大的不確定性,我們應該據此做出規劃。但有一些數據我認為很有趣,我們看到AI在不同視野上進行規劃的能力在過去六年中呈指數級增長。如果我們繼續這個趨勢,AI將能夠在大約五年內達到員工在其工作中的水準。現在這只是一種工程任務類別,還有許多其他重要的事情。例如,許多公司正致力於專注於AI進行AI研究的能力,換句話說,進行工程、進行電腦科學、設計下一代AI,包括或許改進機器人技術和空間理解。所以,我不是說它會發生,但AI在程式設計和演算法理解能力方面,正變得越來越好,而且發展速度非常快,這可能會解鎖許多其他東西。我們不知道,我們應該保持不可知論,不要做大的斷言,因為未來有很多可能性。
所以我們的共識是,在某些方面,我們認為未來今天已經在這裡,但永遠不會有一個單一的時刻,而你們今天所有人的工作,就是幫助我們沿著這條道路指引,直到我們到達一個與這些系統並肩工作的時刻。我個人非常興奮地想看到我們將走向何方。如果我們一年後再做一次,那將是一個不同的世界。非常感謝你們加入我們,分享你們的故事,並帶我們走過這個巨大的變革時刻。謝謝你們。謝謝。謝謝。