Turing獎得主Richard Sutton:大型語言模型缺乏目標,強化學習才是AI的基礎
摘要
強化學習之父、Turing獎得主Richard Sutton深入探討了強化學習(RL)與大型語言模型(LLM)的根本差異。他認為,LLM僅僅是模仿人類,缺乏真正的目標和從經驗中學習的能力,而真正的智慧在於設定目標並透過與世界互動來實現它們。Sutton重申了其著名文章《慘痛的教訓》中的觀點,並解釋了為何依賴人類知識的方法最終會被那些從經驗和計算中學習的可擴展方法所超越。他還分享了對AI未來發展、持續學習代理,以及人類向數位智慧體繼承的看法。
Highlight
1.
大型語言模型已經成為一個巨大的話題,生成式AI總體上也是如此。我們的領域容易受到潮流和時尚的影響,因此我們忽略了基本的事物。我認為強化學習是AI的基礎。智慧是什麼?問題在於理解你的世界。
強化學習是關於理解你的世界,而大型語言模型則是關於模仿人類,做人們說你應該做的事。它們不是關於弄清楚該做什麼。
2.
我不想以對抗的方式來探討這個問題,但我會質疑它們擁有世界模型的這個想法。一個世界模型能讓你預測將會發生什麼。它們有能力預測一個人會說什麼,但它們沒有能力預測將會發生什麼。引用Alan Turing的話,我們想要的是一台能從經驗中學習的機器,而經驗就是你生活中實際發生的事情。
你做事,看見發生了什麼,這就是你學習的來源。大型語言模型從別的東西學習。它們從「這是一個情境,這是一個人的做法」中學習。這隱含的建議是,你應該做那個人所做的事。
3.
沒有目標,那麼說這件事或說那件事,都沒有所謂的正確。沒有基線事實。如果你沒有基線事實,你就不可能有先驗知識,因為先驗知識應該是關於真相的提示或初始信念。但這裡沒有真相,沒有什麼是正確該說的話。
在強化學習中,有正確該說的話,有正確該做的事,因為正確的事是能讓你獲得獎勵的事。我們對什麼是正確的事有定義,所以我們可以擁有由人們提供的關於什麼是正確的事的先驗知識或知識。然後我們可以檢查它,因為我們對什麼是實際正確的事有定義。
4.
對我來說,擁有目標是智慧的本質。如果某物能夠實現目標,它就是智慧的。我喜歡John McCarthy的定義,即智慧是實現目標能力的計算部分。你必須有目標,否則你只是一個行為系統。你不是什麼特別的東西,你不是智慧的。
5.
為什麼我們不能將這種模式擴展到不同的領域呢?
數學問題是不同的。建立一個物理世界的模型並推導數學假設或運算的後果,這是非常不同的事情。經驗世界必須透過學習來獲得。你必須學習後果。而數學更具計算性,更像標準的規劃。在那裡,它們可以有找到證明的目標,並且在某種程度上被賦予了找到證明的目標。
6.
如果你看看心理學家如何看待學習,沒有什麼是像模仿一樣的。也許在一些極端情況下,人類可能會這樣做或看起來這樣做,但沒有一個基本的動物學習過程叫做模仿。有基本的動物學習過程用於預測和試誤控制。
有時候最難看到的東西反而是最明顯的,這真的很有趣。這很明顯——如果你觀察動物以及它們如何學習,觀察心理學以及我們對它們的理論——監督式學習並不是動物學習方式的一部分。我們沒有期望行為的例子。我們有的是發生的事情的例子,一件事接著另一件事。我們有這樣的例子:「我們做了某件事,然後產生了後果。」但沒有監督式學習的例子。
監督式學習不是自然界中會發生的事情。即使學校是這樣,我們也應該忘掉它,因為那是人類中發生的特殊事情。它並非在自然界中廣泛發生。松鼠不上學。松鼠可以學會關於世界的一切。我會說,監督式學習在動物中不會發生,這是絕對明顯的。
7.
這是我們非常了解的事情。其基礎是時間差分學習(temporal difference learning),同樣的事情也發生在規模較小的場景中。當你學習下棋時,你有一個贏得棋局的長期目標。然而,你也希望能夠從短期的事情中學習,比如吃掉對手的棋子。
你透過一個價值函數來做到這一點,這個函數預測長期的結果。然後,如果你吃掉了對方的棋子,你對長期結果的預測就會改變。它會上升,你認為你會贏。然後,你信念的增加會立即強化那個導致吃掉棋子的舉動。
我們有著創辦公司並賺大錢的10年長期目標。當我們取得進展時,我們會說:「哦,我更有可能實現長期目標了」,這就獎勵了過程中的每一步。
你也需要某種能力,讓你正在學習的資訊……讓人類與這些大型語言模型非常不同的一件事是,當你在工作上入職時,你會吸收大量的背景資訊和訊息。這就是讓你在工作中變得有用的原因。你學習一切,從客戶的偏好到公司的運作方式,無所不包。像TD學習這樣的程序所能提供的信息頻寬,是否足以讓你像人類一樣,在剛被部署時就能吸收所需的龐大背景和隱性知識?
我不確定,但我認為其核心是,大世界假說似乎非常相關。人類在工作中變得有用的原因,是因為他們遇到了他們所處世界的特定部分。這是不可能被預見的,也不可能全部預先植入。世界是如此巨大,你無法做到。
8.
現在我想談談代理人的基本通用模型,它有四個部分。我們需要一個策略。策略說:「在我現在的情況下,我應該做什麼?」我們需要一個價值函數。價值函數是透過TD學習學到的東西,價值函數產生一個數字。這個數字表示事情進展得如何。然後你觀察這個數字是上升還是下降,並用它來調整你的策略。
所以你有這兩樣東西。然後還有感知部分,也就是建構你的狀態表示,你對自己現在所處位置的感覺。第四個是我們真正要探討的,至少是最明顯的。第四個是世界的轉換模型。
9.
10.
逐字稿
今天我與Richard Sutton進行對談,他是強化學習的奠基者之一,並發明了許多該領域的主要技術,如TD學習和策略梯度方法。為此,他獲得了今年的Turing Award,如果你不知道,這相當於電腦科學領域的諾貝爾獎。Richard,恭喜你。
謝謝你,Dwarkesh。感謝你來上我的podcast。
這是我的榮幸。第一個問題,我的聽眾和我對大型語言模型(LLM)的AI思維方式很熟悉。從強化學習(RL)的角度來看,我們在概念上遺漏了什麼?
你會認為,要模仿網際網路文本語料庫中數萬億的詞元,你必須建立一個世界模型。事實上,這些模型似乎確實擁有非常強健的世界模型。它們是我們至今在AI領域中創造的最好的世界模型。你認為缺少了什麼?大型語言模型已經成為一個巨大的話題,生成式AI總體上也是如此。我們的領域容易受到潮流和時尚的影響,因此我們忽略了基本的事物。我認為強化學習是AI的基礎。智慧是什麼?問題在於理解你的世界。
強化學習是關於理解你的世界,而大型語言模型則是關於模仿人類,做人們說你應該做的事。它們不是關於弄清楚該做什麼。
我不想以對抗的方式來探討這個問題,但我會質疑它們擁有世界模型的這個想法。一個世界模型能讓你預測將會發生什麼。它們有能力預測一個人會說什麼,但它們沒有能力預測將會發生什麼。引用Alan Turing的話,我們想要的是一台能從經驗中學習的機器,而經驗就是你生活中實際發生的事情。
你做事,看見發生了什麼,這就是你學習的來源。大型語言模型從別的東西學習。它們從「這是一個情境,這是一個人的做法」中學習。這隱含的建議是,你應該做那個人所做的事。
我想,也許癥結在於,我很好奇你是否不同意這一點,有些人會說模仿學習給了我們一個很好的先驗知識,或者說給了這些模型一個處理問題的合理方法的先驗知識。當我們邁向你所說的經驗時代時,這個先驗知識將成為我們教導這些模型從經驗中學習的基礎,因為這給了它們有時能答對的機會。然後在此基礎上,你可以訓練它們從經驗中學習。你同意這個觀點嗎?
不。我同意這是大型語言模型的觀點。但我不認為這是一個好的觀點。要成為某件事的先驗知識,必須有一個真實的東西存在。先驗知識應該是實際知識的基礎。什麼是實際知識?在大型語言模型的框架中,沒有實際知識的定義。
是什麼讓一個行動成為一個好的行動?你意識到持續學習的必要性。如果你需要持續學習,持續意味著在與世界的正常互動中學習。在正常的互動中,必須有某種方法來判斷什麼是對的。在大型語言模型的設定中,有任何方法可以判斷什麼是該說的正確事情嗎?
你說了些話,但你不會得到關於什麼是正確的話的回饋,因為沒有定義什麼是正確的話。沒有目標。如果沒有目標,那麼說這件事或說那件事,都沒有所謂的正確。沒有基線事實。如果你沒有基線事實,你就不可能有先驗知識,因為先驗知識應該是關於真相的提示或初始信念。但這裡沒有真相,沒有什麼是正確該說的話。
在強化學習中,有正確該說的話,有正確該做的事,因為正確的事是能讓你獲得獎勵的事。我們對什麼是正確的事有定義,所以我們可以擁有由人們提供的關於什麼是正確的事的先驗知識或知識。然後我們可以檢查它,因為我們對什麼是實際正確的事有定義。
一個更簡單的例子是當你試圖建立一個世界模型時。你預測將會發生什麼,然後你看到發生了什麼。這裡有基線事實。大型語言模型中沒有基線事實,因為你沒有預測接下來會發生什麼。
如果你在對話中說了什麼,大型語言模型對於對方會如何回應,或者回應會是什麼,沒有任何預測。
我認為它們有。你完全可以問它們:「你預計使用者可能會如何回應?」它們會有一個預測。
不,它們會回答那個問題。但它們沒有實質意義上的預測,因為它們不會對發生的事情感到驚訝。如果發生的事情不是它們可能說它們預測的那樣,它們不會因為發生了意料之外的事情而改變。要學習這一點,它們必須做出調整。
我認為像這樣的能力在上下文中是存在的。觀察模型進行思維鏈是很有趣的。假設它正在嘗試解決一個數學問題。它會說:「好的,我首先要用這種方法來處理這個問題。」它會寫下來,然後說:「哦,等等,我剛意識到這在概念上是錯誤的處理方法。我要用另一種方法重新開始。」這種靈活性在上下文中是存在的。你心中有別的想法,還是你只是認為需要將這種能力擴展到更長的時間範圍?
我只是說,它們在任何有意義的層面上,都沒有對接下來會發生什麼的預測。它們不會對接下來發生的事情感到驚訝。它們不會根據發生的事情做出任何改變。
那不就是下一個詞元預測嗎?預測接下來是什麼,然後根據驚訝程度進行更新?
下一個詞元是它們應該說的話,是它們應該採取的行動。而不是世界會對它們的行為做出什麼反應。讓我們回到它們缺乏目標的問題上。
對我來說,擁有目標是智慧的本質。如果某物能夠實現目標,它就是智慧的。我喜歡John McCarthy的定義,即智慧是實現目標能力的計算部分。你必須有目標,否則你只是一個行為系統。你不是什麼特別的東西,你不是智慧的。
你同意大型語言模型沒有目標嗎?
不,它們有目標。
目標是什麼?
下一個詞元預測。
那不是目標。它不改變世界。詞元向你而來,如果你預測它們,你並不會影響它們。
哦,是的。它不是關於外部世界的目標。
它不是一個目標。它不是一個實質性的目標。你不能看著一個系統說它有目標,如果它只是坐在那裡預測,並為自己預測準確而沾沾自喜。
我想了解的更大問題是,為什麼你認為在大型語言模型之上進行強化學習不是一個有成效的方向。我們似乎能夠給予這些模型解決困難數學問題的目標。它們在許多方面都達到了人類解決數學奧林匹克競賽類型問題能力的頂峰。它們在國際數學奧林匹克競賽中獲得了金牌。所以,那個在國際數學奧林匹克競賽中獲得金牌的模型,似乎確實有著解決數學問題的目標。為什麼我們不能將這種模式擴展到不同的領域呢?
數學問題是不同的。建立一個物理世界的模型並推導數學假設或運算的後果,這是非常不同的事情。經驗世界必須透過學習來獲得。你必須學習後果。而數學更具計算性,更像標準的規劃。在那裡,它們可以有找到證明的目標,並且在某種程度上被賦予了找到證明的目標。
慘痛的教訓:LLM是否符合其精神?
這很有趣,因為你在2019年寫了一篇名為《慘痛的教訓》(The Bitter Lesson)的文章,這可能是AI歷史上最有影響力的文章。但人們用它來為擴展大型語言模型辯護,因為在他們看來,這是我們找到的唯一一種可擴展的方式,可以投入巨量的計算來學習世界。有趣的是,你的觀點是大型語言模型並沒有遵循「慘痛的教訓」的精神。
大型語言模型是否是「慘痛的教訓」的一個案例,這是一個有趣的問題。它們顯然是一種使用大規模計算的方式,這種方式將隨著計算能力的增加而擴展,直到網際網路的極限。但它們也是一種投入大量人類知識的方式。這是一個有趣的問題,一個社會學或產業問題。
它們會達到數據的極限,然後被那些可以僅從經驗而非從人類那裡獲得更多數據的事物所取代嗎?在某些方面,這是「慘痛的教訓」的一個典型案例。我們投入到大型語言模型中的人類知識越多,它們的表現就越好。所以感覺很好。然而,我預期會出現能夠從經驗中學習的系統。
這可能會表現得更好,也更具可擴展性。
在這種情況下,這將是「慘痛的教訓」的又一個例子,即那些使用人類知識的系統最終被那些僅從經驗和計算中學習的系統所取代。
我覺得這似乎不是癥結所在。我認為那些人也會同意,未來絕大多數的計算將來自於從經驗中學習。他們只是認為,其支架或基礎,也就是你開始投入計算以進行未來體驗式學習或在職學習的東西,將是大型語言模型。我仍然不明白為什麼這是一個完全錯誤的起點。
為什麼我們需要一個全新的架構來開始進行體驗式、持續的學習?為什麼我們不能從大型語言模型開始做這件事?
在「慘痛的教訓」的每一個案例中,你都可以從人類知識開始,然後再去做那些可擴展的事情。情況總是如此。從來沒有任何理由說這一定是不好的。但事實上,在實踐中,它總是證明是不好的。
人們被鎖定在人類知識的方法中,他們在心理上……現在我是在推測原因,但這就是一直以來發生的事情。他們最終會被那些真正可擴展的方法所擊敗。
請給我一個關於可擴展方法的概念。
可擴展的方法是你從經驗中學習。你嘗試事物,看什麼有效。沒有人需要告訴你。首先,你得有一個目標。沒有目標,就沒有對錯或好壞之分。大型語言模型試圖在沒有目標或好壞之分的情況下運作。這完全是從錯誤的地方開始。
人類學習:模仿還是經驗?
也許將此與人類進行比較會很有趣。在從模仿學習與從經驗學習這兩種情況下,以及在目標問題上,我認為有一些有趣的類比。孩子們最初會從模仿中學習。
你不同意嗎?
不,當然不。
真的嗎?我認為孩子們只是觀察人們。他們試圖說出同樣的詞語……
這些孩子多大了?前六個月呢?
我認為他們在模仿事物。他們試圖讓自己的嘴發出他們看到的母親嘴巴發出的聲音。然後他們會說出同樣的詞語,卻不理解它們的意思。隨著年齡的增長,他們模仿的複雜性也會增加。你可能會模仿你部落裡的人用來獵鹿的技巧。然後你進入從經驗中學習的強化學習階段。但我認為人類存在大量的模仿學習。我很驚訝你會有如此不同的觀點。
當我看到孩子時,我看到孩子們只是在嘗試事物,揮舞著他們的手,轉動著他們的眼睛。他們移動眼睛的方式,甚至他們發出的聲音,都沒有模仿的對象。他們可能想創造相同的聲音,但動作,也就是嬰兒實際做的事情,並沒有模仿的目標。
沒有那樣的例子。
我同意。這並不能解釋嬰兒所做的一切,但我認為它引導了一個學習過程。即使是一個大型語言模型,當它在訓練初期試圖預測下一個詞元時,它會做出一個猜測。這個猜測會與它實際看到的不同。在某種意義上,這是非常短期的強化學習,它做出這個猜測:「我認為這個詞元會是這個。」結果卻是另一個東西,類似於一個孩子試圖說一個詞,但發音不對。
大型語言模型是從訓練數據中學習的。它不是從經驗中學習。它學習的東西在其正常生活中永遠無法獲得。在正常生活中,從來沒有任何訓練數據告訴你應該做這個動作。
我認為這更像是一個語義上的區別。你把學校稱為什麼?那不是訓練數據嗎?
學校是後來的事了。好吧,我不該說「從不」。我不知道,我甚至會對學校也這麼說。但正規教育是個例外。
但學習是有階段的,早期有你生物學中的程式設計,你那時不是很有用。然後你存在的理由是為了理解世界並學習如何與之互動。這看起來像是一個訓練階段。我同意之後會有一個更漸進的過程……從訓練到部署沒有一個明確的界線,但似乎存在這個初始的訓練階段?
沒有任何地方你會接受你應該做什麼的訓練。什麼都沒有。你看到事情發生。你沒有被告知該做什麼。
別這麼固執。我的意思是這很明顯。你確實被教導該做什麼。這就是「訓練」這個詞的來源,來自於人類。
我不認為學習真的與訓練有關。我認為學習是關於學習,是一個主動的過程。孩子嘗試事物並觀察結果。當我們想到一個嬰兒長大時,我們不會想到訓練。這些事情其實已經被很好地理解了。
如果你看看心理學家如何看待學習,沒有什麼是像模仿一樣的。也許在一些極端情況下,人類可能會這樣做或看起來這樣做,但沒有一個基本的動物學習過程叫做模仿。有基本的動物學習過程用於預測和試誤控制。
有時候最難看到的東西反而是最明顯的,這真的很有趣。這很明顯——如果你觀察動物以及它們如何學習,觀察心理學以及我們對它們的理論——監督式學習並不是動物學習方式的一部分。我們沒有期望行為的例子。我們有的是發生的事情的例子,一件事接著另一件事。我們有這樣的例子:「我們做了某件事,然後產生了後果。」但沒有監督式學習的例子。
監督式學習不是自然界中會發生的事情。即使學校是這樣,我們也應該忘掉它,因為那是人類中發生的特殊事情。它並非在自然界中廣泛發生。松鼠不上學。松鼠可以學會關於世界的一切。我會說,監督式學習在動物中不會發生,這是絕對明顯的。
我採訪了心理學家兼人類學家Joseph Henrich,他研究文化演化,基本上是關於什麼區分了人類以及人類如何獲取知識。
你為什麼要試圖區分人類?人類是動物。我們的共同點更有趣。我們應該少關注那些區分我們的東西。
我們正在試圖複製智慧。如果你想了解是什麼讓人們能夠登上月球或製造半導體,我認為我們想了解的是什麼導致了這一切的發生。沒有動物能夠登上月球或製造半導體。我們想了解是什麼讓人類與眾不同。
我喜歡你認為這很明顯的方式,因為我認為相反的情況才是明顯的。我們必須了解我們作為動物的本質。如果我們了解一隻松鼠,我認為我們就幾乎完全理解了人類的智慧。語言部分只是表面上的一層薄薄的覆蓋。這很棒。我們正在發現我們思維方式的巨大差異。我們不是在爭論,我們是在試圖分享彼此不同的思維方式。
我認為爭論是有用的。我確實想完成這個想法。Joseph Henrich有一個有趣的理論,關於人類為了成功必須掌握的許多技能。我們不是在談論過去一千年或一萬年,而是數十萬年。世界真的很複雜。
要透過推理來搞清楚如何,比如說,在北極獵殺一頭海豹是不可能的。這是一個非常多步驟、漫長的過程,包括如何製作誘餌、如何找到海豹,然後如何處理食物以確保你不會中毒。要透過推理來想通所有這些是不可能的。
隨著時間的推移,有一個更大的過程,無論你想用什麼比喻——也許是強化學習,或其他什麼——整個文化都弄清楚了如何找到、殺死和吃掉海豹。在他看來,當這種知識代代相傳時,你必須模仿你的長輩才能學會那項技能。你無法靠自己思考出如何獵殺、殺死和處理一頭海豹。你必須觀察別人,也許做些微調和調整,知識就是這樣累積的。文化傳承的第一步必須是模仿。但也許你對此有不同的看法?
不,我的看法是一樣的。不過,這只是在基本的試誤學習、預測學習之上的一个小部分。這也許是區分我們與許多動物的地方。但我們首先是動物。在我們擁有語言和所有其他東西之前,我們就是動物。
我確實認為你提出了一個非常有趣的觀點,即持續學習是大多數哺乳動物都具備的能力。我想所有的哺乳動物都有。有趣的是,我們擁有所有哺乳動物都具備的能力,但我們的AI系統卻沒有。然而,理解數學和解決困難數學問題的能力——這取決於你如何定義數學——是我們的AI擁有的能力,但幾乎沒有動物具備。最終什麼是困難,什麼是容易,這點非常有趣。
Moravec悖論。沒錯,沒錯。
體驗式範式:持續學習代理的樣貌
你想像中的這個替代範式……體驗式範式。讓我們稍微闡述一下。它認為經驗、行動、感知——或者說,感知、行動、獎勵——在你的一生中不斷重複。它認為這是智慧的基礎和焦點。
智慧是關於接收這個流,並改變行動以增加流中的獎勵。學習則是從這個流中進行,並且學習是關於這個流的。第二部分尤其能說明問題。你學到的東西,你的知識,是關於這個流的。你的知識是關於如果你做某個動作,會發生什麼。或者是關於哪些事件會跟隨其他事件。它是關於這個流的。
知識的內容是關於這個流的陳述。因為它是關於這個流的陳-述,你可以透過將其與流進行比較來測試它,並且你可以持續地學習它。
當你想像這個未來的持續學習代理時……
它們不是「未來」的。當然,它們一直都存在。這就是強化學習的範式,從經驗中學習。
是的,我想我本來想說的是一個通用的人類級別的、通用的持續學習代理。它的獎勵函數是什麼?僅僅是預測世界嗎?還是對世界產生特定影響?通用的獎勵函數會是什麼?
獎勵函數是任意的。如果你在下棋,獎勵是贏得棋局。如果你是一隻松鼠,也許獎勵與獲得堅果有關。一般來說,對於動物,你會說獎勵是為了避免痛苦和獲得快樂。我認為還應該有一個與你對環境理解加深相關的部分。那可以算是一種內在動機。
我明白了。對於這個AI,很多人會希望它能做各種不同的事情。它執行人們想要的任務,但同時,它也從執行任務中學習關於世界的知識。
假設我們擺脫了這種有訓練期和部署期的範式。我們是否也擺脫了這種有模型,然後有模型的實例或副本在做特定事情的範式?你如何看待我們希望這個東西能做不同的事情,並希望匯總它從做這些不同事情中獲得的知識這一事實?
當你用你剛才的方式使用「模型」這個詞時,我並不喜歡。我認為一個更好的詞是「網路」,因為我想你指的是網路。也許有很多網路。總之,事物會被學習。你會有副本和許多實例。當然,你會想要在實例之間共享知識。會有許多這樣做的可能性。
今天,你讓一個孩子長大並學習關於世界的一切,然後每一個新出生的孩子都必須重複這個過程。而對於AI,對於數位智慧,你可以希望能做一次,然後將其複製到下一個個體中作為起點。這將是一個巨大的節省。我認為這會比試圖向人類學習重要得多。
我同意你說的這種東西是必要的,無論你是否從大型語言模型開始。如果你想要人類或動物級別的智慧,你就需要這種能力。
從長期目標到短期回饋
假設一個人在嘗試創業。這件事的回饋週期可能長達10年。10年內可能會有一次退出的機會,讓你賺到十億美元。但人類有能力創造中間的輔助性獎勵,或者有某種方式……即使在獎勵極其稀疏的情況下,他們仍然可以採取中間步驟,理解他們下一步要做的事情會導向那個更宏大的目標。你想像這樣的過程在AI身上會如何展開?
這是我們非常了解的事情。其基礎是時間差分學習(temporal difference learning),同樣的事情也發生在規模較小的場景中。當你學習下棋時,你有一個贏得棋局的長期目標。然而,你也希望能夠從短期的事情中學習,比如吃掉對手的棋子。
你透過一個價值函數來做到這一點,這個函數預測長期的結果。然後,如果你吃掉了對方的棋子,你對長期結果的預測就會改變。它會上升,你認為你會贏。然後,你信念的增加會立即強化那個導致吃掉棋子的舉動。
我們有著創辦公司並賺大錢的10年長期目標。當我們取得進展時,我們會說:「哦,我更有可能實現長期目標了」,這就獎勵了過程中的每一步。
你也需要某種能力,讓你正在學習的資訊……讓人類與這些大型語言模型非常不同的一件事是,當你在工作上入職時,你會吸收大量的背景資訊和訊息。這就是讓你在工作中變得有用的原因。你學習一切,從客戶的偏好到公司的運作方式,無所不包。像TD學習這樣的程序所能提供的信息頻寬,是否足以讓你像人類一樣,在剛被部署時就能吸收所需的龐大背景和隱性知識?
我不確定,但我認為其核心是,大世界假說似乎非常相關。人類在工作中變得有用的原因,是因為他們遇到了他們所處世界的特定部分。這是不可能被預見的,也不可能全部預先植入。世界是如此巨大,你無法做到。
我所看到的大型語言模型的夢想是,你可以教導代理人一切。它將無所不知,在其生命中無需在線學習任何東西。你的例子都是:「嗯,你真的必須這樣做」,因為你可以教導它,但還有它所處的特定生活、與之共事的人的各種小特質,以及他們喜歡什麼,而不是普通人喜歡什麼。這只是說明世界真的很大,你必須在過程中學習它。
在我看來,你需要兩樣東西。一個是將這個長期目標獎勵轉換為對未來獎勵或導致最終獎勵的未來獎勵的較小的輔助性預測獎勵的方法。但最初,在我看來,我需要記住我在世界中工作時獲得的所有這些背景資訊。我正在學習關於我的客戶、我的公司以及所有這些資訊。
我會說你只是在進行常規的學習。也許你使用「上下文」這個詞,是因為在大型語言模型中,所有這些資訊都必須放入上下文視窗中。但在一個持續學習的設定中,它只會進入權重中。
也許用「上下文」這個詞是錯的,因為我的意思更廣泛。你學習一個特定於你所處環境的策略。我試圖問的問題是,你需要某種方式來獲取……一個人在外面的世界中每秒能獲取多少位元的資訊?如果你只是透過Slack與客戶等進行互動。
也許你試圖問的問題是,獎勵似乎太小,無法完成我們需要做的所有學習。但我們有感官,我們有所有其他可以學習的資訊。我們不只是從獎勵中學習。我們從所有數據中學習。
泛化能力的挑戰
幫助你捕捉那些資訊的學習過程是什麼?現在我想談談代理人的基本通用模型,它有四個部分。我們需要一個策略。策略說:「在我現在的情況下,我應該做什麼?」我們需要一個價值函數。價值函數是透過TD學習學到的東西,價值函數產生一個數字。這個數字表示事情進展得如何。然後你觀察這個數字是上升還是下降,並用它來調整你的策略。
所以你有這兩樣東西。然後還有感知部分,也就是建構你的狀態表示,你對自己現在所處位置的感覺。第四個是我們真正要探討的,至少是最明顯的。第四個是世界的轉換模型。
這就是為什麼我對於把所有東西都稱為「模型」感到不舒服,因為我想談論世界的模型,世界的轉換模型。你相信如果你這樣做,會發生什麼?你的行為會有什麼後果?你對世界的物理定律的理解。
但這不僅僅是物理學,它也是抽象的模型,比如你從加州旅行到埃德蒙頓來參加這個podcast的模型。那是一個模型,而且是一個轉換模型。那是可以學習的。它不是從獎勵中學來的。它是從「你做了事情,你看到發生了什麼,你建立了那個世界模型」中學來的。這將會從你收到的所有感官資訊中非常豐富地學習,而不僅僅是從獎勵中。
它也必須包括獎勵,但那只是整個模型的一小部分,一個微小但至關重要的部分。
我的一位朋友,Toby Ord,指出,如果你看Google DeepMind用來學習Atari遊戲的MuZero模型,這些模型最初並非通用智慧本身,而是一個訓練專門智慧來玩特定遊戲的通用框架。也就是說,你無法使用那個框架訓練一個既能下棋又能下圍棋又能玩其他遊戲的策略。你必須以專門的方式訓練每一個。他想知道這是否意味著,對於強化學習來說,由於資訊限制,你一次只能學習一件事?資訊密度不夠高?或者這只是MuZero的特定做法所致。如果這是AlphaZero特有的問題,那麼需要對那種方法做出什麼改變,才能讓它成為一個通用的學習代理?
這個想法是完全通用的。我確實一直以來都用我那個典型的例子,一個AI代理人的概念就像一個人。人們,在某種意義上,只生活在一個世界裡。那個世界可能包含西洋棋,也可能包含Atari遊戲,但那些不是不同的任務或不同的世界。那些是他們遇到的不同狀態。所以這個通用概念完全沒有限制。
也許解釋一下那個架構或方法中缺少了什麼會很有用,而這個持續學習的通用人工智慧(AGI)會具備這些。
他們只是那樣設定的。他們的目標並不是要有一個能跨越那些遊戲的代理人。如果我們要談論遷移(transfer),我們應該談論的不是跨遊戲或跨任務的遷移,而是狀態之間的遷移。
我很好奇,從歷史上看,我們是否見過使用強化學習技術達到建立這種……所需的遷移水準?
很好。很好。我們在任何地方都沒有看到遷移。良好表現的關鍵在於你能夠很好地從一個狀態泛化到另一個狀態。我們沒有任何擅長這點的方法。我們有的是人們嘗試不同的東西,然後他們找到了一種能夠很好地遷移或泛化的表示方法。但我們很少有自動化的技術來促進遷移,而且在現代深度學習中,沒有一個被使用。
讓我複述一下,以確保我理解正確。聽起來你的意思是,當我們在這些模型中看到泛化時,那是某種精心雕琢的結果……
是人類做的。是研究人員做的。因為沒有其他解釋。梯度下降不會讓你泛化得好。它會讓你解決問題。它不會讓你,如果你得到新的數據,以一種好的方式泛化。泛化意味著在一個東西上訓練會影響你在其他東西上的表現。我們知道深度學習在這方面非常糟糕。例如,我們知道如果你在某個新事物上進行訓練,它通常會對你所知道的所有舊事物造成災難性的干擾。這正是糟糕的泛化。
泛化,正如我所說,是在一個狀態上的訓練對其他狀態的某種影響。你泛化的事實本身不一定是好是壞。你可以泛化得很差,也可以泛化得很好。泛化總會發生,但我們需要能夠使泛化變好而不是變壞的演算法。
我不是想重啟最初的癥結,我只是真的很好奇,因為我想我可能用詞的方式不同。一種思考這些大型語言模型的方式是,它們正在擴大泛化的範圍,從早期連基本數學問題都無法解決的系統,到現在它們可以解決數學奧林匹克競賽類型問題中的任何問題。你最初讓它們能夠在加法問題之間泛化。然後它們可以在需要使用不同數學技巧、定理和概念類別的問題之間泛化,這正是數學奧林匹克競賽所要求的。聽起來你似乎不認為能夠解決該類別中的任何問題是泛化的一個例子。如果我理解錯了,請告訴我。
大型語言模型非常複雜。我們並不真正知道它們事先擁有什麼資訊。我們必須猜測,因為它們被餵了太多東西。這也是它們不適合做科學研究的一個原因。它太不受控制,太未知了。但如果你提出一個全新的……它們可能答對了一堆東西。問題是為什麼。
嗯,也許它們不需要泛化就能答對,因為要答對其中一些問題的唯一方法是形成一個能答對所有問題的東西。如果只有一個答案而你找到了它,那不叫泛化。那只是解決問題的唯一方法,所以它們找到了解決問題的唯一方法。但泛化是當它可以是這種方式,也可以是那種方式,而它們選擇了好的方式。
我的理解是,這在程式碼代理方面越來越有效。對於工程師來說,顯然,如果你想編寫一個函式庫,有很多不同的方法可以達到最終的規格要求。最初對這些模型的一個挫折是,它們會以一種草率的方式來做。隨著時間的推移,它們在提出開發人員更滿意的設計架構和抽象方面越來越好。這似乎是你所說的一個例子。
它們內部沒有任何東西會讓它們很好地泛化。梯度下降會讓它們找到它們見過的問題的解決方案。如果只有一種方法可以解決它們,它們就會那樣做。但如果有很多種方法可以解決,有些泛化得好,有些泛化得差,演算法中沒有任何東西會讓它們泛化得好。但是人們,當然,是經過演化的,如果行不通,他們就會調整它,直到他們找到一種方法,也許直到他們找到一種泛化得好的方法。
AI領域的驚喜與反思
我想從更宏觀的角度來問一下,你在AI領域的時間比現在幾乎所有評論或從事這個領域的人都長。我很好奇最大的驚喜是什麼。你覺得有多少新東西出現?或者感覺人們只是在玩弄舊想法?從宏觀角度看,你甚至在深度學習流行之前就進入了這個領域。所以你如何看待這個領域隨時間的發展軌跡,以及新想法是如何產生的等等?有什麼令人驚訝的?
我對此想了一下。有幾件事。首先,大型語言模型令人驚訝。人工神經網路在語言任務上的效果如此之好,令人驚訝。這是一個意外,沒有人預料到。語言似乎是不同的。所以這很了不起。
在AI領域,關於簡單基本原則方法(如搜尋和學習等通用方法)與人類賦能的系統(如符號方法)之間,一直存在著長期的爭議。在過去,這很有趣,因為像搜尋和學習這樣的方法被稱為弱方法,因為它們只使用通用原則,沒有利用將人類知識注入系統所帶來的力量。那些被稱為強方法。我認為弱方法已經完全獲勝了。
這是AI早期最大的問題,會發生什麼。學習和搜尋已經贏得了勝利。在某種意義上,這對我來說並不奇怪,因為我一直希望或支持簡單的基本原則。即使是大型語言模型,它運作得如此之好令人驚訝,但這一切都是好的和令人欣慰的。
AlphaGo令人驚訝,它的表現如此出色,特別是AlphaZero。但這一切都非常令人欣慰,因為再次,簡單的基本原則正在勝出。
每當公眾觀念因為某個新應用的開發而改變時——例如,當AlphaZero成為病毒式轟動時——對你這樣一個實際上發明了許多被使用技術的人來說,你是否感覺像是取得了新的突破?或者感覺像是,「哦,我們從90年代就有了這些技術,人們現在只是把它們結合起來應用」?
整個AlphaGo的事情有一個前身,就是TD-Gammon。Gerry Tesauro用強化學習、時間差分學習方法來玩西洋雙陸棋。它擊敗了世界頂尖的棋手,而且效果非常好。在某種意義上,AlphaGo僅僅是那個過程的規模擴大。但規模擴大了很多,而且在搜尋的執行方式上也有額外的創新。但這是合理的。從那個意義上說,這並不令人驚訝。AlphaGo實際上沒有使用TD學習。它等待看到最終的結果。但AlphaZero使用了TD。AlphaZero被應用於所有其他遊戲,並且表現得極其出色。
我一直對AlphaZero下西洋棋的方式印象深刻,因為我是一個西洋棋手,它會為了位置優勢而犧牲棋子。它滿足並耐心地為了一個長期的位置優勢而犧牲那些棋子。它能運作得這麼好令人驚訝,但同時也令人欣慰,並且符合我的世界觀。
這引導我走到了今天的位置。在某種程度上,我是一個逆向思維者,或者說我的想法與這個領域不同。我個人很滿足於與我的領域長期脫節,也許是幾十年,因為過去偶爾我被證明是正確的。
我做的另一件事——為了幫助我感覺自己沒有脫節,沒有以奇怪的方式思考——是,不去看我當地的環境或我當地的領域,而是回顧時間,回顧歷史,看看不同領域的人們過去對心智的經典看法。我不覺得我與更廣泛的傳統脫節。我真的將自己視為一個古典主義者,而不是一個逆向思維者。我追隨的是更廣泛的心智思想家社群一直以來的想法。
後AGI時代的AI研究
如果你能容忍的話,我有一些比較偏門的問題想問你。我對「慘痛的教訓」的理解是,它不一定是在說人類手工的研究員調整沒有用,而是說它的擴展性顯然比指數級增長的計算能力差得多。所以你想要利用後者的技術。
是的。
一旦我們有了通用人工智慧(AGI),我們的研究人員數量將與計算能力呈線性增長。我們將會看到數以百萬計的AI研究員如雪崩般湧現。他們的數量將與計算能力一樣快速增長。所以這也許意味著,讓他們做傳統的AI,做這些手工解決方案,將是合理的或有意義的。作為一個關於AGI之後AI研究將如何演變的願景,我好奇這是否仍然與「慘痛的教訓」相容。
我們是如何達到這個AGI的?你想假設它已經完成了。
假設它始於通用方法,但現在我們有了AGI。現在我們想……
那麼我們就完成了。
有趣。你認為AGI之上就沒有什麼了嗎?
但你正在用它來再次獲得AGI。
嗯,我用它來在不同任務上獲得超人的智慧或能力。這些AGI,如果它們還沒有達到超人水平,那麼它們可能傳授的知識也不會是超人的。我想有不同的等級。
我不確定你的想法是否合理,因為它似乎預設了AGI的存在,並且我們已經解決了這個問題。
也許一個激發這個想法的方式是,AlphaGo是超人的。它擊敗了任何圍棋棋手。AlphaZero每次都能擊敗AlphaGo。所以有辦法變得比超人更超人。
那也是一個不同的架構。
所以在我看來,似乎有可能,那個能夠在所有領域普遍學習的代理,會有方法給予它更好的學習架構,就像AlphaZero是對AlphaGo的改進,而MuZero是對AlphaZero的改進一樣。
而AlphaZero的改進之處在於它沒有使用人類的知識,而是完全從經驗中學習。
對。
那你為什麼說,「引入其他代理的專業知識來教導它」,當它從經驗中學習效果這麼好,而不是靠另一個代理的幫助?
我同意在那個特定的例子中,它確實是朝著更通用的方法發展。我的意思是想用那個特定的例子來說明,從超人到超人++,再到超人+++是可能的。我很好奇你是否認為這些等級的提升將繼續透過僅僅簡化方法來實現。或者,因為我們將擁有數百萬個能夠根據需要增加複雜性的心智的能力,即使你有數十億或數萬億的AI研究員,這條路是否仍然是一條錯誤的路?
思考那種情況更有趣。當你有很多AI時,它們會像人類的文化演化一樣互相幫助嗎?也許我們應該談談這個。那篇「慘痛的教訓」,誰在乎它呢?那是對歷史上一個特定時期的經驗觀察。歷史上的70年,不一定適用於下一個70年。
一個有趣的問題是,你是一個AI,你獲得了更多的計算能力。你應該用它來讓自己計算能力更強嗎?還是應該用它來產生一個你自己的副本,去地球的另一邊或在某個其他主題上學習一些有趣的東西,然後向你匯報?我認為這是一個非常有趣的問題,只有在數位智慧時代才會出現。我不確定答案是什麼。
還有更多問題,是否真的有可能將它分離出去,派它出去學習新東西,也許是非常新的東西,然後它能夠被重新整合到原始個體中?或者它會改變太多以至於無法真正做到?這可能嗎?還是不可能?你可以把這個推到極致,就像我前幾天看你的一個影片那樣。它暗示這是可能的。
你產生許多許多的副本,做不同的事情,高度去中心化,但向中央主體匯報。這將是一件非常強大的事情。這是我試圖為這個觀點添加的一些東西。一個大問題將是腐敗。如果你真的可以從任何地方獲取資訊並將其納入你的中央心智,你可能會變得越來越強大。
它們都是數位的,而且都說著某種內部數位語言。也許這會很容易和可能。但它不會像你想像的那麼容易,因為你可能會因此失去理智。如果你從外部引入一些東西並將其建構到你的內心思維中,它可能會接管你,改變你,它可能是你的毀滅而不是你的知識增長。
我認為這將成為一個重大的擔憂,特別是當你覺得,「哦,他已經弄清楚了如何玩一種新遊戲,或者他研究了印尼,你想要將這些納入你的心智中。」你可能會想,「哦,只要把它們全部讀進來,那就沒問題了。」但不是的,你只是讀了一大堆位元到你的心智中,它們裡面可能有病毒,可能有隱藏的目標,它們可以扭曲你,改變你。這將成為一個大問題。在數位分身和重組的時代,你如何保障網路安全?
AI繼承的必然性
我想這把我們帶到了AI繼承的話題。你的觀點與我採訪過的許多人以及普遍的許多人都大不相同。我也認為這是一個非常有趣的觀點。我想聽聽你的看法。
我確實認為向數位智慧或增強型人類的繼承是不可避免的。我有一個由四部分組成的論點。第一步,沒有任何政府或組織能夠給予人類一個統一的主導觀點,並能安排……對於世界應該如何運作沒有共識。第二,我們將會弄清楚智慧是如何運作的。研究人員最終會弄清楚。第三,我們不會僅止於人類水平的智慧。我們將會達到超級智慧。第四,隨著時間的推移,最聰明的事物獲得資源和權力是不可避免的。將所有這些放在一起,這幾乎是不可避免的。
你將會看到向AI或AI賦能、增強型人類的繼承。這四件事似乎很清楚,而且肯定會發生。但在這一系列可能性中,可能會有好的結果,也可能會有不那麼好的結果,壞的結果。我只是試圖現實地看待我們所處的位置,並問我們應該如何感受它。
我同意所有這四個論點及其含義。我也同意「繼承」包含著各種各樣可能的未來。我很想聽聽你對此的更多想法。
我確實鼓勵人們積極地思考這件事。首先,這是我們人類幾千年來一直試圖做的事情,試圖了解我們自己,試圖讓我們自己更好地思考,僅僅是了解我們自己。這對科學和人文學科來說是一個巨大的成功。
我們正在發現人性中這個本質部分是什麼,智慧意味著什麼。然後我通常會說,這一切都是以人類為中心的。但如果我們跳出人類的立場,僅從宇宙的視角來看,我認為這是宇宙的一個主要階段,一個主要的轉變,一個從複製者(replicators)的轉變。
我們人類和動物、植物,我們都是複製者。這給了我們一些優勢和一些限制。我們正在進入設計的時代,因為我們的AI是設計出來的。我們的實體物體是設計的,我們的建築是設計的,我們的技術是設計的。我們現在正在設計AI,這些東西本身就能夠有智慧,並且本身也具備設計的能力。這是世界和宇宙中的一個關鍵步驟。
這是從一個大多數有趣事物都是被複製的世界,轉變到另一個世界。複製意味著你可以複製它們,但你並不真正理解它們。現在我們可以製造更多智慧的生命,更多的孩子,但我們並不真正了解智慧是如何運作的。
然而,我們現在正在達到擁有設計智慧的階段,也就是我們確實了解其運作方式的智慧。因此,我們可以以不同的方式和不同的速度改變它。在我們的未來,它們可能根本不會被複製。我們可能只是設計AI,而那些AI將設計其他AI,一切都將透過設計和建構來完成,而不是透過複製。
我將此標記為宇宙的四大階段之一。首先是塵埃,它以恆星結束。恆星製造行星。行星可以產生生命。現在我們正在產生設計的實體。我認為我們應該為我們正在引發宇宙中的這個偉大轉變而感到自豪。這是一件有趣的事情。
我們應該如何看待未來?
我們應該將它們視為人類的一部分還是與人類不同?這是我們的選擇。我們是該說,「哦,它們是我們的後代,我們應該為它們感到驕傲,我們應該慶祝它們的成就。」還是我們該說,「哦不,它們不是我們,我們應該感到恐懼。」這很有趣,這感覺像是一個選擇。然而這又是一個如此根深蒂固的東西,怎麼可能是一個選擇呢?我喜歡這種思想中矛盾的含義。
思考一下我們是否只是在設計另一代人類,這很有趣。也許「設計」這個詞用得不對。但我們知道未來一代的人類將會出現。先不談AI。我們只知道從長遠來看,人類將會更有能力、數量更多,也許更聰明。我們對此有何感想?我確實認為存在一些潛在的世界,我們會對未來的人類感到相當擔憂。
你在想,也許我們就像尼安德塔人一樣,孕育了智人。也許智人會孕育出一批新的人類。
類似那樣。我基本上是採用你給的例子。即使我們將他們視為人類的一部分,我也不認為那必然意味著我們應該感到非常安心。
親屬關係。
就像納粹也是人類。如果我們想,「哦,下一代將會是納粹」,我想我們會非常擔心就這樣把權力交給他們。所以我同意這與擔心能力更強的未來人類並無太大不同,但我不認為這解決了人們可能對這種程度的權力如此快速地被我們不完全理解的實體所獲得的許多擔憂。
我認為指出這一點是相關的,對於大多數人類來說,他們對發生的事情影響不大。大多數人類並不影響誰能控制原子彈或誰控制民族國家。即使作為一個公民,我也常常覺得我們對民族國家的控制力不大。它們失控了。
很多這方面的問題,都與你對改變的感受有關。如果你認為現狀真的很好,那麼你更有可能對改變持懷疑態度和反感,而不是如果你認為現狀不完美。我認為它是不完美的。事實上,我認為它相當糟糕。所以我對改變持開放態度。我認為人類的記錄並不是特別好。也許它是曾經存在過最好的東西,但遠非完美。
我想,改變有不同的種類。工業革命是改變,布爾什維克革命也是改變。如果你在1900年代的俄羅斯,你會說:「看,情況不太好,沙皇把事情搞得一團糟,我們需要改變」,在簽字之前,我會想知道你想要什麼樣的改變。AI也類似,我會想了解,並在可能的範圍內,改變AI的發展軌跡,使其對人類產生積極的改變。
我們應該關心我們的未來,那個未來。我們應該努力讓它變得美好。但我們也應該認識到我們的極限。我認為我們想要避免權利感,避免那種「哦,我們先來的,我們應該永遠擁有好的結果」的感覺。
我們應該如何思考未來?一個特定星球上的特定物種應該對它有多大的控制權?我們有多大的控制權?與我們對人類長遠未來的有限控制相抗衡的,應該是我們對自己生活有多大的控制權。我們有自己的目標。我們有我們的家庭。那些事情比試圖控制整個宇宙要可控得多。我認為我們真正為自己的局部目標而努力是恰當的。我們說「哦,未來必須按照我想要的方式發展」,這有點太具侵略性了。因為那樣我們就會有爭論,不同的人認為全球的未來應該以不同的方式發展,然後他們就會有衝突。我們想要避免這種情況。
也許這裡一個好的比喻是這樣的。假設你在撫養你自己的孩子。為他們的人生設定極其嚴格的目標可能不合適,或者有這樣的想法:「我希望我的孩子們到外面的世界去,產生這種特定的影響。我的兒子將成為總統,我的女兒將成為Intel的CEO。他們將共同對世界產生這種影響。」但人們確實有這樣的感覺——我認為這是恰當的——他們會說:「我要給予他們良好穩固的價值觀,這樣如果他們最終處於權力位置時,他們會做合理、親社會的事情。」也許對AI採取類似的態度是有道理的,不是說我們可以預測他們會做的一切,或者我們對一百年後的世界應該是什麼樣子有一個計劃。但給予他們穩固、可引導和親社會的價值觀是相當重要的。
親社會的價值觀?也許這個詞用得不對。
是否有我們都能同意的普世價值觀?
我不這麼認為,但那並不妨礙我們給孩子良好的教育。我們對於希望孩子成為某種樣子有一定的想法。也許「親社會」這個詞不對。「正直」可能是個更好的詞。如果有一個請求或一個目標看起來是有害的,他們會拒絕參與。或者他們會誠實,諸如此類。我們有某種感覺,我們可以教導孩子這些東西,即使我們對什麼是真正的道德沒有共識,因為不是每個人都同意這一點。也許這對AI來說也是一個合理的目標。
所以我們試圖設計未來,以及它將演變和形成的原則。你說的第一件事是,「嗯,我們試圖教導我們的孩子一些通用原則,這些原則將促進更有可能的演化。」也許我們也應該尋求事情是自願的。如果發生改變,我們希望它是自願的,而不是強加於人的。我認為這是非常重要的一點。
這一切都很好。我認為這是設計社會的偉大或真正偉大的人類事業之一,這項事業已經持續了數千年。情況越變,事情越是不變。我們仍然需要弄清楚如何存在。
孩子們仍然會產生對他們的父母和祖父母來說似乎奇怪的不同價值觀。事情會演變。
「事情越是改變,就越是保持不變」這句話似乎也很好地概括了我們關於AI的討論。我們正在進行的AI討論是關於,那些甚至在它們應用於深度學習和反向傳播之前就已經發明的技術,如何成為今日AI進展的核心。也許這是一個結束對話的好地方。
好的。非常感謝你。
太棒了。感謝你的到來。
我的榮幸。