矽谷101:頂尖專家對談,深入探討強化學習 (RL) 的前沿與未來

主持人:Bill Zhu,Pokee.ai創辦人,前Meta AI RL應用主管

與談人:Lihong Li,資深首席科學家,Amazon;Zheng Wen,OpenAI科技員工;Alborz Geramifard,LinkedIn Desingguished Scientist

摘要

本文記錄了於「矽谷101」舉行的一場關於強化學習(Reinforcement Learning, RL)的專家座談會。由來自 Meta、Amazon、OpenAI 與 LinkedIn 的頂尖專家共同探討 RL 在大型語言模型中的應用與未來。討論內容涵蓋可驗證獎勵的強化學習(RRLV)、獎勵設計、探索(Exploration)與利用(Exploitation)的平衡,以及階層式強化學習(Hierarchical RL)和抽象化等前沿議題。

Highlight

1.

第一個問題是,最近有很多關於 RRLV 的論文發表,這似乎幾乎成為了這個領域發展的共識。那麼,除了目前在數學和程式編寫上的強化學習微調之外,大家認為 RRLV 還能走向何方?

Li Lihong: 我認為它確實產生了很大的影響。但在另一方面,我們也看到許多問題是無法驗證的,它們沒有可驗證的結果。

Zheng Wen: 對於使用可驗證獎勵的強化學習,我的理解是,這種方法可以用於一個非常通用的範式,那就是「先生成,後驗證」。原因在於,驗證通常比生成要容易得多。如果考慮它能超越微調的範疇,我認為是可以的。我認為所有這些都超越了微調的範疇。

Alborz: 我同意前面提到的所有觀點。強化學習賦予了你超越導師或指導者所示範範圍的能力,它告訴你:「嘿,這是我希望你最大化的目標。」我認為我們正處於一個十字路口,思考如何為代理人定義這種「優點」或「獎勵」。可驗證的獎勵絕對是一個可行的方向,因為它的定義非常清晰。但我認為許多任務需要兩者的結合。有些事情我們知道必須發生,比如如果你在編譯程式碼,我們知道程式碼必須成功建置。但還有一些事情,我們其實不知道該如何精確定義。

2.

預訓練和後續訓練之間的平衡點在哪裡?

Zheng Wen: 我認為我們需要確保在預訓練期間,你得到的是一個在廣泛任務上都表現良好的通用模型。如果你開始發現在某些任務上表現變好,但在其他任務上變差,那表示你做得太過了。我認為這部分應該交給後續的訓練階段。從我的角度來看,預訓練的主要作用是讓模型對基礎知識有一個很好的理解,掌握解決這些問題的基本要素和關鍵成分,在一個較高的層次上。然後,在後續訓練中,你可以針對你真正關心的特定任務進行微調。

Li Lihong: 我完全同意。我認為預訓練通常是獲取通用知識的階段,所以你希望你的模型具有表達能力,並能大致理解世界。而後續訓練則是為了讓它適應,使其在某些領域成為專家。

Alborz:我認為今天的探索與我們過去談論的探索有很大的不同。當預訓練完成後,探索的空間已經非常有限。我認為當時的目標只是確保模型有一個好的起點,並在模型的訓練效率和速度之間取得一個好的平衡。

3.

Zheng Wen: 我確實認為,最終我們在 AI 中研究階層式強化學習是非常重要的。原因在於,目前大多數信號都只是在 token 層級,這個層級太低了。這其實引發了很多問題,比如信用分配(credit assignment)和資料效率的問題。所以我確實認為,最終我們走向更高層次、更高抽象度,去關注像子任務、計畫、模組和函數這樣的事情,並在那裡進行規劃,是至關重要的。我相信,如果我們最終想要處理非常長遠的任務,這點是絕對必要的。

4.

強化學習這條路,最終能否讓我們有能力透過純粹的強化學習推理來產生新知識,成為一個真正的創新者?

Li Lihong: 我認為這是可能的,讓強化學習在沒有人類標註的情況下創造新知識。正如我們所見,我認為有一些成功案例,你讓強化學習系統或模型去探索,在數學領域發現了新的數學事實。我認為這些都是例子。但我想回到我之前提出的觀點,那就是強化學習的上限取決於模擬器的好壞,或者說模型的好壞。如果我們提供給強化學習系統的模型,是以規則或我們人類已知知識的形式存在的,那麼最終,強化學習只能在這個框架內探索新知識。

Zheng Wen: 強化學習顯然依賴於環境模型,更具體地說,依賴於動態模型和獎勵模型。所以我認為,對於那些我們擁有相對準確環境模型的領域,並且假設我們以一種合理正確的方式進行計算,我確實感覺強化學習這個範式可以帶我們走得非常遠。

5.

Alborz: 我是 Rich Sutton 的學生。從 Rich 的角度來看,所有事情最終都必須歸結為一個單一的數值獎勵函數。

有一個關於 Rich 的非常有趣的 podcast,我強烈推薦大家去聽。

但其他人會說,嘿,我們作為人類,有很多我們想要最大化的東西。我們有家庭,有工作,有事業上的抱負,還有,我不知道,娛樂、嗜好。所有這些是如何變成一個單一的獎勵函數的?

他的回答是,也許只有一個我們想要最大化的東西,它只是在我們的生活中以各種不同的方式展現出來。他相信,對於代理人來說,情況也是一樣的。如果你能找到那個應該驅動代理人的東西,所有這些令人驚嘆的行為都會從那個最大化信號中浮現出來。

6.

7.

8.

9.

10.

逐字稿

開場引言

將真實世界的規模應用於驅動搜尋、推薦、廣告、機器人學、自動駕駛及通用智慧等系統。當基礎模型的能力變得空前強大時,強化學習(RL)正成為推動進步的下一個關鍵驅動者,它塑造了 AI 的學習、適應與推理方式,而擴展定律(scaling laws)似乎已碰到瓶頸。今天我們非常榮幸能組成有史以來最強大的專家小組之一。

與會嘉賓介紹

我們邀請到 Bill Zhu 擔任主持人,他是 Poki AI 的創辦人,也曾是 Meta 的應用強化學習前負責人。我們同時也邀請了來自 Amazon 的 Li Hongli、來自 OpenAI 的 Zheng Wen,以及來自 LinkedIn 的 Alborz。

先生們,歡迎登台。

Bill Zhu: 好的,希望大家今天上午過得愉快。今天我非常榮幸能與這個優秀的專家小組同台。事實上,在過去幾年中,他們在某種程度上都是我的朋友,我認識他們每個人都好幾年了。所以,這是一個很好的機會,能與我所有的朋友們重聚。

今天我們將聚焦於強化學習(RL)。我們都知道,強化學習是當今 AI 進展的核心。從今年初 DeepMind 釋出的 Alpha One,其中他們利用強化學習進行微調,讓模型在程式編寫與數學方面實現了某種程度的自我提升;到今年稍晚,我們看到大量在數學、程式編寫、化學、物理,甚至具身 AI(embodied AI)等領域的應用,這些都透過強化學習實現了強大的智慧。我們也看到許多 RL 公司募集了大量資金。今天我們將深入探討所有這些議題。但在那之前,我希望專家小組能先自我介紹一下。也許從 Li Hong 開始。

Li Lihong: 好的,當然。大家好,我是來自 Amazon 的 Li Lihong。我從事強化學習和語言模型方面的工作已有一段時間。我很高興能加入這個小組,也感謝主辦單位的邀請。

Zheng Wen: 大家好,我是 Zheng Wen。我目前在 OpenAI 工作,之前在 DeepMind。我也從事強化學習方面的工作,事實上,我是 Li Hong 論文的忠實粉絲。同時我也研究大型語言模型和通用人工智慧(AGI)等領域。我非常高興今天能參加這個座談會。

Alborz: 大家早安。我是 Alborz Geramifard,LinkedIn 的傑出科學家,主要專注於代理人與強化學習。在加入 LinkedIn 之前,我在 Meta 與 Bill 密切合作,而在那之前,我在 Amazon Alexa 工作。很高興來到這裡。

超越數學與程式碼:RRLV 的未來潛力

Bill Ju: 太好了。那麼,我們就直接進入主題。我想,如果你們了解強化學習的最新進展,會發現有一個議題引起了廣泛的興趣,那就是我們如何在沒有實際監督資料的情況下,訓練語言模型中的強化學習代理人。也就是說,沒有人工標註,沒有人類專家標註的資料,你要如何訓練這些模型。其中一個趨勢是 RRLV,即「從可驗證獎勵中學習的強化學習」(Reinforcement Learning from Verifiable Rewards)。這個想法是,你可以直接利用規則,以及像數學這樣的驗證系統,來實際驗證大型語言模型的輸出是否正確。

所以,第一個問題是,最近有很多關於 RRLV 的論文發表,這似乎幾乎成為了這個領域發展的共識。那麼,除了目前在數學和程式編寫上的強化學習微調之外,大家認為 RRLV 還能走向何方?

Li Lihong: 我認為它確實產生了很大的影響。但在另一方面,我們也看到許多問題是無法驗證的,它們沒有可驗證的結果。所以我認為,在某個時候,我們需要超越這一點,去處理那些無法驗證的問題。一個例子是,當我們還是孩子在學校學習時,我們有考試,這些考試有可驗證的結果,例如 ABCD 四選一。但當我們真正進入社會工作時,很難說你必須做這件事才能打勾。這其中有很多高度的判斷和無法驗證的結果需要我們去探索,那是一個更模糊的領域。所以我認為,我們需要在可驗證獎勵之外做更多的工作。

Zheng Wen: 對於使用可驗證獎勵的強化學習,我的理解是,這種方法可以用於一個非常通用的範式,那就是「先生成,後驗證」。原因在於,驗證通常比生成要容易得多。如果考慮它能超越微調的範疇,我認為是可以的。事實上,已經有一些相關的研究。例如,你可以用這種方法來發展更強的推理能力,也可以將它應用於一些與微調略有不同的框架中,比如基於辯論的強化學習,或是基於自我批判的強化學習。我認為所有這些都超越了微調的範疇。

Alborz: 我同意前面提到的所有觀點。強化學習賦予了你超越導師或指導者所示範範圍的能力,它告訴你:「嘿,這是我希望你最大化的目標。」我認為我們正處於一個十字路口,思考如何為代理人定義這種「優點」或「獎勵」。可驗證的獎勵絕對是一個可行的方向,因為它的定義非常清晰。但我認為許多任務需要兩者的結合。有些事情我們知道必須發生,比如如果你在編譯程式碼,我們知道程式碼必須成功建置。但還有一些事情,我們其實不知道該如何精確定義。比如你正在寫一份摘要,或者提出一個創新的想法,這個想法有多創新?或者你的摘要寫得多好?我認為這就是我們需要從人類那裡獲得啟發,來指導我們如何塑造這個獎勵函數的地方。從比較和對齊,到 DPO 這些演算法,一直到現在利用大型語言模型(LLM)來擔任評判者,填補人類在這些情況下的角色,已經有大量的相關工作。

獎勵設計的挑戰:資料需求與權衡

Bill Zhu: 是的,我想你已經提到了下一個問題,那就是獎勵設計本身可能不僅僅是完全可驗證的,它可能是可驗證獎勵與人類回饋、對齊型獎勵的混合設計。但是,有一個讓許多研究人員和產品開發人員感到困惑的問題是,這裡的黃金標準是什麼?因為如果你有可驗證的獎勵,基本上你不需要資料。但如果你有像 RLHF 這類的資訊,也就是有人類回饋作為判斷的一部分,那麼你就需要大量的資料來進行人類回饋。對於非常複雜的任務,比如解決化學奧林匹克或物理奧林匹克等級的問題,如果你們不知道,單一一個由大型語言模型產生的回答,資料標註的成本大約是一位博士生 20 美元。

那麼,我們的界線應該劃在哪裡?我們需要多少資料?有沒有一種方法可以在不需要資料的情況下,處理這種可驗證與不可驗證獎勵的混合體?

Alborz: 我想我們兩者都需要。在現實中,我們希望有成本意識。正如 Bill 提到的例子,人類的判斷是昂貴的,每個樣本 20 美元,而你需要大量的資料,這會讓你的銀行帳戶見底。所以我們希望確保能明智地使用它,但我們也不能完全忽略它,因為對於許多任務,我們真的不知道如何建立這個獎勵函數。所以,這更像是一個主動學習(active learning)的情境。你可以建立一個機制來評估你的大型語言模型(LLM)判斷。

比如,我們可以讓在場的四個人,針對一小部分資料集決定我們如何評估和衡量它們。如果我們都同意,那麼這就可以成為一個標準,用來檢查 LLM 的判斷,看看它們是否符合我們的共識。如果符合,那麼這就可以成為一種被認可的、低成本的非可驗證獎勵,可以應用於大量的資料上。然後你可以透過主動學習來形成一個閉環。如果我們發現某些領域有問題,我們可以偶爾去檢查一下,看看它是否做得對。如果發現了一些漏洞,我們就必須回頭說:「嘿,我們需要在這些領域收集一些資料,讓它變得更好。」然後再回來應用它。

Zheng Wen: 我完全同意。我認為可能有兩種思路來處理這個問題。首先是,我們或許可以試著將問題稍微分解一下。因為即使對於一個完整的、可能無法驗證的問題,我們也許可以將它分解成一些子任務。對於某些子任務或某些步驟,它是可以驗證的。這樣就已經部分地解決了問題,使問題變得更容易。另一個解決方案當然是將人類保留在循環中,這也是我們為什麼要做「從人類回饋中學習的強化學習」(RLHF)。但我認為,在這種情況下,探索(exploration)非常關鍵。原因在於成本如此之高,所以你希望找到合適的專家,問對的問題。這顯然需要一個非常有效的探索演算法。

Li Lihong: 這些都是很棒的想法。我想補充一點,還有另一種可能性,就是觀察模型的經驗流。模型可以依賴自身的能力,或外部模型的能力,從這些經驗流中提取信號並進行學習。最終,我認為有一點可能太過明顯以至於不必說,那就是強化學習(RL)的能力上限,取決於你的模擬器有多好,或者你用來訓練系統的環境品質有多高。所以我認為,這取決於如何權衡,所有這些都是好主意,但最終我們需要做出取捨,確保環境是高品質的。

探索與利用的平衡

Bill Zhu: 我想深入探討一下,因為我們提到了一些很棒的想法,一個是關於探索,另一個是關於獎勵,它可能是不同類型獎勵的混合體和子問題的分解。我想先談談探索,並稍微闡述一下。因為我想在座的每一位專家在職業生涯的某個階段都研究過探索。這是當今許多強化學習研究者沒有足夠重視的主題之一,因為你看到 PPO、DPO 這些演算法,它們是在微調一個已經訓練過並收斂了模態的現有模型。而當你對環境資訊了解甚少,並試圖探索以了解哪部分最重要時,探索就變得非常需要。

所以,我想問 Zheng Wen 的問題是,在你真正想要引導出強烈的探索行為時,預訓練和後續訓練之間的平衡點在哪裡?

Zheng Wen: 我認為我們需要確保在預訓練期間,你得到的是一個在廣泛任務上都表現良好的通用模型。如果你開始發現在某些任務上表現變好,但在其他任務上變差,那表示你做得太過了。我認為這部分應該交給後續的訓練階段。從我的角度來看,預訓練的主要作用是讓模型對基礎知識有一個很好的理解,掌握解決這些問題的基本要素和關鍵成分,在一個較高的層次上。然後,在後續訓練中,你可以針對你真正關心的特定任務進行微調。對我來說,那個臨界點就是你可以觀察你在所有評估項目上的表現,看你是否在某些領域相較於其他領域開始退步。

Li Lihong: 我完全同意。我認為預訓練通常是獲取通用知識的階段,所以你希望你的模型具有表達能力,並能大致理解世界。而後續訓練則是為了讓它適應,使其在某些領域成為專家。我還想提到,我認為在資料獲取成本非常高的情況下,探索至關重要,因為在這種情況下,你無法真正獲取大量資料。所以你需要進行探索,以確保你獲取的是有資訊價值的資料。在並非每個人類或每個評估者都能給你提供有用回饋的情況下,這也同樣重要。在這種情況下,你同樣需要探索,以找出能夠從中獲得有用且有資訊價值回饋的專家。

Alborz: 是的,這些都是很好的想法。我認為今天的探索與我們過去談論的探索有很大的不同。當預訓練完成後,探索的空間已經非常有限。我認為當時的目標只是確保模型有一個好的起點,並在模型的訓練效率和速度之間取得一個好的平衡。至少這是我的理解。但對於更具侵略性的探索,我認為超越 token 層級,尋找更高級別的東西可能會很有趣。在那裡進行探索,然後將其與 token 層級的探索結合起來。我認為這可能讓模型在後續訓練過程中,能夠跳出框架思考,或者說更具侵略性。

階層式強化學習與抽象化的重要性

Bill Zhu: 是的,這太棒了。我想這引出了關於更高層次的抽象化和階層式規劃的兩個問題。如果你們聽過 Rich Sutton 最近關於 OAK 架構的演講,他非常強調一種選項(options)和較低層次規劃的階層式結構。這個想法是,你可以將非常複雜的任務分解成子問題,然後每個子問題可以由某種世界模型內部的規劃來解決,而在外部,你可以透過經驗來學習。

所以,這裡我想提出兩個問題,你們可以任選一個回答。第一,在抽象化和表示層級上,如果我們真的想產生更長遠的上下文智慧,我們應該在多大程度上超越 token 層級?第二,在推理中,擁有一個階層式結構有多重要?

Zheng Wen: 我確實認為,最終我們在 AI 中研究階層式強化學習是非常重要的。原因在於,目前大多數信號都只是在 token 層級,這個層級太低了。這其實引發了很多問題,比如信用分配(credit assignment)和資料效率的問題。所以我確實認為,最終我們走向更高層次、更高抽象度,去關注像子任務、計畫、模組和函數這樣的事情,並在那裡進行規劃,是至關重要的。我相信,如果我們最終想要處理非常長遠的任務,這點是絕對必要的。我也相信,如果我們能正確地做到這一點,它可以顯著提高資料效率,並更好地解決信用分配問題。

Li Lihong: 我也同意我們需要類似的東西,一個高層次的結構,並與 token 層級結合。不過,在這個問題中可能有一個區別,那就是當我們談論推論時的執行。最終,當模型產生輸出時,它仍然是逐一 token 產生的,至少在目前的框架下是這樣。但我想我試圖表達的是,這種高層次的思考或高層次的訓練,可能在後續訓練階段是必要的,當我們設定獎勵模型和問題時。這就是我們如何給模型信號,讓它學習如何在更高的層次上從一個局部最小值跳到另一個更好的策略空間景觀,而不是在 token 層級進行這種狹隘的局部探索。但最終,在推論時,我認為我們可能仍然是在看逐一 token 的層級。

Alborz: 我想把這個想法再推進一步。我們人類在計畫去日本旅行時,不會去思考為了實現這個目標需要做的那些微小的肌肉抽搐,比如穿過門、叫一輛計程車、然後去機場搭飛機。我們是在一個更高的抽象層次上思考。我們思考的是,好的,我需要從這裡叫一輛計程車,然後搭飛機,再去飯店。然後你再把這些分解成更低層次的決策。比如,如果我想叫計程車,我該怎麼做?我叫一輛 Uber 或 Lyft 之類的。我認為這正是目前大型語言模型所缺少的。

我們仍然在 token 層級思考,這相當於人類的肌肉抽搐。我認為當我們開始處理更大、更複雜的問題時,你需要那種抽象層次,才能讓你計畫得那麼長遠。一種做法是 Li Hong 剛才提到的,當你進行反向傳播時,你實際上考慮的是更遠的決策結果,然後將它們帶回來,而不是等待這個信號通過所有 token 傳遞。但比這更高一個層次的是,你實際上讓一個策略在更高的層次上思考,因為我們就是這樣思考的。所以我們可以有一個策略去思考,為了達到那個結果,我需要做哪些高層次的事情鏈?比如我需要呼叫這個工具,然後用那個東西過濾結果,再做別的事情,才能得到我想要的推理結果。我認為這才是方向。目前我還沒有看到太多這方面的研究,但我認為這將是解鎖透過這些大型語言模型實現全新推理時代的方向。

過程獎勵(Process-based Rewards)的可行性

Bill Zhu: 太好了。我想補充一個我之前沒有發給你們的問題,這個問題正好與此相關。當我們談論階層式強化學習,特別是當你訓練大型語言模型時,人們已經嘗試過很多次的一件事,就是在訓練大型語言模型時加入基於過程的獎勵(process-based reward)。如果你想在某種程度上實現階層式強化學習,你就必須有基於過程的獎勵。比如,在你完成一整個長達一萬個 token 的序列之後,在結束之前,中間會有檢查點。比如,完成這個任務後,這裡有一個獎勵;下一個任務,又有一個獎勵,依此類推。你們認為,在未來幾年內,當我們訓練大型語言模型時,要設計出某種過程獎勵真的會很困難嗎?

Zheng Wen: 我確實認為這是一個非常有前景的方向。當然,其中存在一些挑戰,但總體而言,我對此持樂觀態度。

Li Lihong: 我認為這是一個很有前景且值得嘗試的想法。雖然目前基於結果的獎勵似乎效果不錯,但我可以想像,在一些複雜的問題中,我們需要一些中間信號。即使是現在,當你呼叫一個長序列的代理人呼叫時,我認為一些近期的研究發現,擁有一些中間信號是有益的。另外一點我想說的是,這些過程獎勵或中間獎勵,它們不一定要與最終獎勵保持一致。它可以作為課程學習(curriculum training)的一部分,作為一種解決方案或技術。我們在開始時使用中間獎勵來引導解決方案,引導探索,然後最終你拿掉中間獎勵,只讓模型從最終獎勵中學習。所以我認為這是另一種可能性。

Alborz: 我們最近確實研究過這個問題,非常具體。如果你想讀那篇論文,它已經在 arXiv 上了。但在某種程度上,這也取決於你開始時使用的模型。更大的模型通常有更強的能力。所以如果你給它們一個問題去解決,它們可能會更容易找到一個可行的解決方案,不一定是完美的解決方案,但它們能達到一個我能看到最終可驗證獎勵的地方。因為如果你的模型完全看不到終點的那個好獎勵,那麼你就什麼也學不到。

但對於較小的模型,它們可能無法做到這一點。所以,Li Hong 剛才提到的那點,對於較小的模型來說,能夠接觸到更豐富、更密集的獎勵就變得更加重要,這樣它們才能找到通往一個好結果的路。而當你轉向更大的模型時,它們可能就不需要那麼多在開始時對獎勵模型的調整來讓它工作。但我們發現一個有趣的現象是,在同一個領域,對於較小的模型,如果你能很好地塑造它們,你可以節省大約三到四倍的計算成本,並達到相同的結果。所以,這是在你如何設計獎勵函數,使其足夠有資訊價值,讓模型能夠解決問題之間的一個平衡。但你會獲得回報,那就是在 GPU 成本上的節省,現在每個人的資源都是有限的。

RL 能否創造全新知識?

Bill Zhu: 是的,那也突顯了探索的重要性。如果你最終只有一個稀疏的獎勵,除了進行探索,另一個你可能可以做的方法,或許是增加更有洞見的中間獎勵。好的,我們換一個話題。我想我們已經充分討論了如何訓練大型語言模型中的強化學習代理人,但我希望能更有前瞻性地探討,強化學習最終能帶我們到哪裡。

OpenAI 在很多年前就提出過一個觀點,雖然也沒有那麼多年,因為 ChatGPT 也沒出現那麼久。那就是智慧的層次,從一個聊天機器人,到一個推理者,再到一個創新者,最終成為一個組織。我想這在某種程度上是一個產品策略,但在另一方面,它也展示了大型語言模型在科學能力上的潛力。

所以,我想問專家小組的問題是,強化學習這條路,最終能否讓我們有能力透過純粹的強化學習推理來產生新知識,成為一個真正的創新者?或者說,這需要大量額外的人工標註資料才能實現?

Li Lihong: 我認為這是可能的,讓強化學習在沒有人類標註的情況下創造新知識。正如我們所見,我認為有一些成功案例,你讓強化學習系統或模型去探索,在數學領域發現了新的數學事實。我認為這些都是例子。但我想回到我之前提出的觀點,那就是強化學習的上限取決於模擬器的好壞,或者說模型的好壞。如果我們提供給強化學習系統的模型,是以規則或我們人類已知知識的形式存在的,那麼最終,強化學習只能在這個框架內探索新知識。它無法告訴你,或者說創造出新的物理理論或新的學科。我認為要超越這一點,我們需要一些不同的東西,一些根本性的改變。

Zheng Wen: 我同意。我的感覺是,正如 Li Hong 剛才提到的,強化學習顯然依賴於環境模型,更具體地說,依賴於動態模型和獎勵模型。所以我認為,對於那些我們擁有相對準確環境模型的領域,並且假設我們以一種合理正確的方式進行計算,我確實感覺強化學習這個範式可以帶我們走得非常遠。但可能有一些領域,要麼不可能,要麼成本太高,無法進行非常準確的模擬。在這些領域,強化學習可能不是向前推進的最佳範式,我們需要麼使用現有的資料集,要麼思考另一種範式來推進。

Alborz: 首先我想回答,我認為 AI 已經向我們展示了它可以做出超越人類的發現。如果你關注 AlphaGo,「第 37 手」就是一個例子。那是 AI 走出的一步,當時所有人都認為,在有著 3000 年圍棋歷史的背景下,這是一個錯誤。但後來證明,那其實是致勝的一步。所以,那是一個反直覺但卻奏效的例子。這也印證了 Li Hong 和 Zheng Wen 所說的,如果你有一個好的模擬器(在圍棋的例子中就是如此),以及一個非常好的獎勵函數,你最終可以超越任何人類的能力。我認為對於大型語言模型,我們正在改變領域,我們正走向理解新物理、新動態或新材料,但問題是一樣的。如果你有一個非常好的模擬,讓代理人可以自由探索,超越人類所提供的範圍,同時還有一個非常非常好、內容豐富的獎勵函數,我認為,鑑於我們在這個領域看到的過去的歷史,這是非常有可能的。

超越數值獎勵的可能性

Bill Zhu: 是的,酷。我確實想提一點,那就是超越我們剛才談到的創新。這回到了計算的基礎,那就是驗證比生成或創造解決方案要容易得多。所以,很多時候我們談論對這些創新型系統的驗證,它們基本上就是我們想要的模擬器。現在,我想在這裡補充一個問題,有沒有可能我們超越數值的獎勵?因為在很多情況下,就像 Zheng Wen 說的,強化學習系統的驗證系統或模擬器,它們依賴於一個二進位或數值的獎勵信號,來讓我們能夠朝那個方向訓練強化學習系統。那麼,有沒有可能我們超越數值獎勵系統,來學習一些更聰明東西,而不需要用數值獎勵來標註?這是一個完全開放的問題,所以如果你們沒有答案,可以隨意跳過。

Alborz: 我有個問題想問你,你說的非數值獎勵是什麼意思?最終我們做的所有這些都是大規模的矩陣乘法。

Bill Zhu: 對。比如,你可以想像詞語在 token 層級的機率分佈,它們嚴格來說不是獎勵,它們是機率。你能不能利用這些機率分佈作為指導,來訓練你的強化學習系統,而不是僅僅使用一個在結尾的最終獎勵作為你的獎勵信號?

Alborz: 我可以先試著回答。我是 Rich Sutton 的學生。從 Rich 的角度來看,所有事情最終都必須歸結為一個單一的數值獎勵函數。有一個關於 Rich 的非常有趣的 podcast,我強烈推薦大家去聽。但其他人會說,嘿,我們作為人類,有很多我們想要最大化的東西。我們有家庭,有工作,有事業上的抱負,還有,我不知道,娛樂、嗜好。所有這些是如何變成一個單一的獎勵函數的?他的回答是,也許只有一個我們想要最大化的東西,它只是在我們的生活中以各種不同的方式展現出來。他相信,對於代理人來說,情況也是一樣的。如果你能找到那個應該驅動代理人的東西,所有這些令人驚嘆的行為都會從那個最大化信號中浮現出來。

但回到你的問題,也許有些東西可以來自偏好。也許我們無法給出一個點,說這個東西有多好,是 0.7。我們不知道。但如果你問足夠多的人,嘿,這個比那個好嗎?我們知道人類在這方面做得更好,而不是讓你給出這個摘要有多好的評分。也許我們可以從那裡反向推導,例如,提取出信號。

Zheng Wen: 我有點同意。我認為確實有一些情境,我們會認為獎勵應該是一個向量或一個機率分佈。但在目前的範式下,最終,如果情況是這樣,似乎你還沒有完成你的獎勵模型。你不知何故需要將那個向量或機率分佈轉換成一個純量,這樣你才能進行優化。我確實想提到一個例外,在多代理人強化學習中,你可以認為每個代理人都有自己的獎勵。在這種情況下,你可以認為獎勵是一個向量。同樣,在這樣的情境中,你會處理像奈許均衡這樣的概念,這與僅僅做優化有點不同。

專家預測:RL 的下一步發展

Bill Zhu: 好的。酷。那麼,我們時間差不多了,所以我想用最後幾分鐘,問問每位專家,你們認為在明年左右,強化學習能帶給我們最直接的進展是什麼?無論是在個人化、規模化,還是我們將從強化學習中看到的任何 AI 系統進展方面。

Alborz: 因為我說了很多,我認為抽象化是未來的方向。我對此充滿熱情,我認為它將為我們帶來很多好處。

Zheng Wen: 事實上我也有同樣的答案。我認為階層式強化學習和抽象化是未來的方向。

Li Lihong: 在此之上,我認為另一個有用的方向是,我們如何從更多樣化的資料中學習,不僅僅是可驗證的,也不僅僅是像大型語言模型作為評判者那樣的獎勵信號。

Bill Zhu: 好的,酷。這就是我們今天所有的內容。非常感謝大家的關注,希望你們學到了一些東西。謝謝大家。

主持人: 謝謝 Bill,謝謝各位先生,非常感謝你們。

💡 對我們的 AI 研究助手感興趣嗎?

使用 AI 技術革新您的研究流程、提升分析效率並發掘更深層次的洞見。

了解更多