矽谷 101：Bosen AI 創辦人 Mu Li 博士分享聲音 Agent 的實踐與挑戰

👤 作者：Roger 📅 最後更新：2025/10/24 👁️ 0

#Bosen AI #AI

摘要

Bosen AI 的聯合創辦人兼前 Amazon 資深首席科學家 Mu Li 博士，分享了聲音 Agent 技術的最新發展。演講中，他透過兩個實際專案——一個是開放世界的 AI 遊戲，另一個是 AI 電話行銷——深入探討了構建高智能、低延遲聲音 Agent 的挑戰與解決方案，涵蓋了模型架構、預訓練、後訓練以及在高度管制行業中的應用。

Highlight

首先，什麼是聲音 Agent？基本上，它就是一個帶有聲音的 agent。使用者透過語音介面與 agent 互動。我們希望你能有一種更自然的方式與大型語言模型互動。

這裡有兩件事。首先，它是即時的。這和影片生成有點不同，影片生成可以離線處理，但現在你的回應必須在例如一秒內完成，這是端到端的延遲。

第二點，在多數情況下，人們不是在閒聊。閒聊算是一種陪伴，但在多數情況下，你有特定的任務。例如，你想做客戶支援、資訊檢索，或者你想銷售某些東西。陪伴有時也是一種任務，不僅僅是閒聊，你有特定的目標，也許是想講個故事，也許是想做些別的。

遊戲AI的經驗總結

此外，現今的模型在處理複雜的世界觀設定時仍然很吃力。當你有多個角色時，這仍然非常困難。即使是現在，如果你看所有這些語音模型、影片模型，大概兩到三個角色就是極限了。即使是文字部分，如果你有四個角色，現在也是非常具挑戰性的。

另一件事是，在剛才的展示中你看到延遲很大，是回合制的。我們這裡的所有專案都專注於大型語言模型本身。我們得到的教訓是，如果你真的想要有真正像人類一樣的互動，你可能需要稍微調整架構，而不是採用傳統的三部分架構。

我們如何做到即時

我將舉例說明目前有哪些不同的模型架構。

架構類型	描述	優點/缺點
端到端全雙工 (End-to-end Full Duplex)	使用者和模型之間只有一個單一模型。使用者說話的波形直接輸入，模型在互動過程中隨時回應。	優點: 最自然，最像人類，容易打斷。缺點: 技術最複雜，目前尚無系統大規模部署。
端到端半雙工 (End-to-end Half Duplex)	當使用者說話時，有一個語音活動偵測器來判斷使用者是否在說話。語音被切成一塊一塊地傳給模型，模型回應前一塊的內容。	優點: 比全雙工簡單。
鏈式解決方案 (Chained Solution - 2 Models)	有兩個模型。第一個是理解模型，接收音訊，生成文字回應。然後文字進入生成模型，生成輸出音訊。	優點: 易於客製化。
鏈式解決方案 (Chained Solution - 3 Components)	這是一個三段式流程：1) ASR (語音轉文字)；2) 大型語言模型處理文字；3) TTS (文字轉語音) 生成音訊。	優點: 最容易客製化，因為每個組件都可以獨立調整。

對於這些不同的方案，這個（全雙工）非常像人類，因為模型可以打斷你。而往這個方向（鏈式）走，則更容易客製化，因為你可以更容易地在 agent 中加入新功能。

保險業客服AI的心得

如何同時獲得智能和低延遲？這是聲音 Agent 的關鍵。

這裡有一些想法。首先，你希望在聽、說和思考同時進行。你一邊聽，一邊生成回應句子，然後在這之間，你呼叫大型語言模型來思考，也許我想要回應得更好，也許我想要做更好的搜索，但所有這些事情都可以是異步的。

另一個是你想做上下文工程，這比提示工程更進一步。那是因為對於你的問題，你可能有非常長的上下文，像是產品資訊、所有銷售手冊，可能有 10 萬個 token。你希望動態地建構上下文並生成提示。

另外，你有一個協調器，用來處理不同的策略，比如，你認為這個使用者是哪一種類型，然後思考不同的策略，同時也做意圖分析，例如如何計算「呃哼」的次數，以及做即時的任務追蹤。

所有這些事情結合在一起，你就可以同時獲得智能和低延遲。

逐字稿

（開場引言）

…大家一直在問，這段配樂是你們自己做的還是 AI 做的？你是真人還是 AI 虛擬化身？這段影片是真實的，還是你用 AI 生成的？我不確定這究竟是好是壞。所以，多模態將帶我們走向何方？在我們探索更進階的多模態能力時，會遇到哪些難以克服的障礙？

在下一場主題演講開始之前，我將再為各位播放一段影片。

（影片播放）

你能想像未來某個時刻，你讓 agent 在這些環境中自由探索，而不安裝任何具體目標嗎？

我們終於要推出 GPT-5。

我們最新的頂尖模型，VEO3。

我帶來了 Project Astra 最新的研究原型。

我們正處於一場寒武紀大爆發的中心。

文字、程式碼、圖片、語音、音樂、影像、可探索的世界。我們正進入一個無盡的夢境，或者，這就是現實？

這就是我們與周遭世界互動和理解的方式。這不像，好吧，我們一次就解鎖了某個瘋狂的新事物，而是將許多碎片拼湊在一起。這是實現差異化的機會。你實現差異化的方式是，圍繞這些模態去打造深度的產品體驗。我們所取得的這項突破，可能會催生出我們以前從未有過的全新應用。

未來有哪些可能性？當多模態賦予 AI 新的感官時會發生什麼？大型語言模型會將它們轉化為知識嗎？

這就是這項技術的下一個偉大前沿：超越生成一個場景的完美記錄，而是朝著建立一個我們終能步入的世界的動態模擬邁進。

（影片結束）

我認為，界線正變得越來越模糊，而圖靈測試也變得越來越沒有意義。有一天，我們可能再也無法區分 AI 產生的內容和人類創作的內容。但至少我能保證，這台鋼琴是真的，演奏者是真的。感謝 Natalie，Natalie 今天在現場嗎？

不？或許她在停車。噢，在那裡，Natalie，請起立。謝謝妳的鋼琴演奏，請大家再次給她熱烈的掌聲。非常感謝妳，Natalie。

當然，Hans Zimmer 依然是我最喜愛的作曲家，我不認為 AI 目前能超越他。

那麼，接下來，我知道很多人一直在期待這場由 Mu Li 博士帶來的重點演講。對於那些不太熟悉他的人，Li 博士是 Bosen AI 的聯合創辦人，也是前 Amazon 的資深首席科學家。我們非常幸運能邀請到他，因為這是 Li 博士創辦自己的 AI 公司後的第一場主題演講。讓我們歡迎他上台，分享他研究與公司的最新進展。歡迎。

（Mu Li 博士上台）

好的，今天我將談談聲音 Agent，這是今年一個非常熱門的話題。原因是人們認為，這項技術已經成熟，可以投入使用了，準備好落地了。所以今天我將分享我們過去兩個基於聲音 Agent 的專案，展示一些經驗教訓，以及如何幫助客戶使用它的最佳實踐。

那麼，讓我們開始吧。

什麼是聲音 Agent？

這裡有兩件事。首先，它是即時的。這和影片生成有點不同，影片生成可以離線處理，但現在你的回應必須在例如一秒內完成，這是端到端的延遲。

這基本上就是聲音 Agent。在接下來的演講中，我們將用兩個例子，展示我們是如何建構它，以及我們學到了什麼。

這是第一個例子。

（播放遊戲音訊）

Stella: 我真的需要趕快找到離開這裡的方法。玩家: 好吧，我猜你開門見山，但至少能多告訴我一些關於你的事嗎？ Stella: 好的。我是 Mariana 大學的二年級學生，主修天體物理學。

這是一個我們大約在兩年半前開始的遊戲。這是一款應用程式，這個角色叫 Stella。使用者將透過語音與 Stella 互動來幫助她。你可以想像整個故事情節是由使用者的輸入所驅動的。

這裡的任務是一個開放世界的遊戲。這句話是從已經上線兩個月的遊戲中複製過來的。基本上，Stella 降落到一個外星行星上，她的飛船在這裡墜毀了。然後她請求玩家幫忙，說這個世界太陌生了，有太多選擇，我感受到很多情緒。所以她用聲音與玩家互動，讓玩家幫助她逃離這個星球。這是一個非常龐大的世界觀設定，而這只是第一個遊戲，是一個龐大系列中的試玩版。

那麼聲音 Agent 在這裡扮演什麼角色？這個角色需要同時是遊戲設計師和演員。

作為遊戲設計師，意味著你設計的故事情節必須合乎邏理且玩起來有趣。所以這個 agent，你需要創造符合角色設定的對話。Stella 這個角色有特定的設定，她所有的背景，大概有二十頁的設定文件。

而作為遊戲設計師，當使用者與遊戲互動時，你需要引導故事情節。如果只是一個單線的故事，那就算不上是 agent。現在它是一種複雜的樹狀結構，甚至是圖形結構，有些地方是自由發揮的。這裡的問題是，你想要有一個真正好的遊戲。如果你了解如何寫書、如何寫遊戲劇情，會知道有很多原則，你需要有不同的階段、節奏等等，讓故事看起來有趣。

另一件事是，這是一個遊戲。你會預期人們有各種隨機的輸入，玩家會測試和挑戰各種邊界。Agent 的回應必須在它的設定範圍內。例如，這個遊戲設定在一個科幻世界，大約是兩千年後，有隨機的聊天設定。如果你問，「你最近看了什麼電影？」如果它回答一部現在的電影，那感覺就會很奇怪，哇，你看了一部一千年前的電影。但問題是，所有語言模型都是用當前的數據訓練的。現在，你該如何將所有這些設定轉移到未來的世界？

我分享一個早期的日誌，展示一些具挑戰性的任務。這是非常早期階段的日誌，內容是中文的。

當時的想法是 Stella 找到了一些食物，問玩家她應該選擇哪一種。玩家在這裡的設定是我不會幫你。

對話流程	說明
Stella	說要找些肉來吃，需要一個架子來捕捉動物。
玩家	回應說不行，這裡還沒看到任何動物。
Stella	回應說好吧，我想吃肉，但我這裡只有蔬菜。
玩家	不想幫忙。
Stella	說我真的需要你的幫助。
玩家	仍然說我不想幫忙。
系統	如果這樣僵持下去，故事就無法推進。所以提示說：「嘗試三次後，就自己選一個吧。」
結果	Stella 隨機選擇後，快要死了。她說：「我不行了。」
玩家	說：「好吧，你要死了」，這不是個好人，但你需要在這裡表現得友善一些。

這裡的挑戰在於，這是一個開放世界的遊戲。但你的回應必須合理。這是一個設定在未來一兩千年的開放世界遊戲，不是每個世界觀設定都被明確規定了。很多事情，當遊戲設計師在開發時，不可能為你寫下所有東西。你需要去想，好吧，這件事在兩千年後的世界裡或許是合理的。同時，它也需要引人入勝且有趣，這畢竟是個遊戲，不是聊天機器人。

我們如何構建它？

這個專案在兩年前啟動。當時，你有 GPT-4，但非常昂貴。我們做了一些計算，發現如果使用 GPT-4，營收將會鉅額虧損。當時最好的模型是 Llama 2，但 Llama 2 還不夠強大。所以我們當時的做法是，我們用大約 5 兆個 token 預訓練了一個 30B 的模型。但這些 token 是在小說、遊戲、角色扮演數據上進行了強化。

在一般任務上，它的表現大致和 Llama 2 相當，但在角色扮演方面好一些。但我們得到的教訓是，預訓練一個模型需要幾個月的時間。即便如此，你可能只是超越了 Llama 2，但 Llama 2 還有 70B 的版本。所以，如果你在預訓練上花費太多時間，進展可能並不大。這是我們得到的一個教訓，我們後面會說為什麼這可能是一個不好的選擇。

另一件事是，因為 GPU 非常昂貴，那是兩年前，我們花了很多力氣自己建立數據中心。如果你擁有自己的數據中心，成本會低很多。

接著我們進入後訓練階段。後訓練的關鍵在於，你有非常複雜的故事情節工作流程。這是一個例子，不是真實的，真實的要複雜得多。然後我們有大約 20 位標註員，我們需要訓練這些標註員成為優秀的遊戲設計師，因為這有一套特定的回應方式。然後是對所有模型的偏好進行排序和評估。

利用這兩點，我們花了大概一個季度的時間，在這個特定的場景下，表現超越了 GPT-4。對於所有遊戲，我們都使用真人來玩，所以你可以超越 GPT-4。但問題是，這只是一個單一的遊戲，是一個龐大開放世界遊戲中的一小部分。如果你想做多個遊戲怎麼辦？

於是我們進入了另一個階段，我們想擴展到更廣泛的遊戲和角色。這樣你就可以減少對提示工程的依賴。在那個時候，提示工程非常複雜。即使是不同版本的 GPT-4，對提示工程也極為敏感。所以問題是，是的，我們可以幫忙，但你希望由遊戲設計師來編寫提示。

當時的想法是，那仍是一年半前，想法是你需要預訓練一個獎勵模型，能夠區分哪個好，哪個壞，因為你不能依賴人類來做這件事。所以，當時我們首先訓練了一個獎勵模型，來告訴你在這個遊戲設定中哪個回應是好的。然後，你就可以對另一個模型進行後訓練。

我們學到的一個重要教訓是，即使這是針對遊戲的，聽起來很簡單，但它仍然涉及很多事情，比如指令遵循，你需要讓回應合理，所以模型仍然需要足夠通用。即使你訓練的是一個領域內的模型，這個模型在通用任務上也必須表現良好。如果你認為最好的開源或閉源 API 的分數是 90 分，但在你的應用中，通用任務的表現需要達到 85 分。如果低於這個分數，你會發現你的任務表現會遇到瓶頸。

所以你首先要保證通用任務的表現良好。然後，對於你的特定任務，我們建立了一套領域內的評估標準。你有大量的角色設定、場景設定，針對不同的遊戲設定，你希望確保在這些設定下，模型遵循了所有設定，且回應是好的，遵循指令和場景。一旦你有了這個基準，你就可以調整模型，讓它在與其他模型的比較中脫穎而出。我認為這是一個非常通用的模式，你關心領域內的表現，關鍵在於你需要開發出一個真正好的領域內評估任務，這樣你才能看到模型在這方面的進步。但同時，要保證你的模型在所有其他通用任務上表現良好。

專案的經驗與教訓

我們學到的教訓是，智能來自於預訓練。在完成整個專案後，我們回過頭來思考，所有重大的進步都來自於對海量數據的預訓練。這讓我們重新思考，也許我們放棄預訓練是一個壞主意，我們或許應該再花一個季度在預訓練上。

但它仍然是有限的。對話品質在 50 輪後會下降，現在仍然如此。在複雜的設定下，經過 50 輪對話後，你會覺得模型的智能程度大大降低了。

這就引導到我們下一個專案。

案例二：AI 電話行銷

（播放電話銷售音訊）

Agent: 現在方便說話嗎？ John: 事實上，我正準備出門。 Agent: 沒問題，John。我知道您很忙。如果您願意，我可以在您方便的時候再打給您。 John: 說實話，我想我不需要了。我已經有公司提供的健康保險了。 Agent: 那太好了，很高興您已經有了保障。我接觸過的很多人也是透過工作獲得保險，但他們大多不知道有些方案可以降低他們的自付費用。

好的，這是一個非常不同的例子：銷售保險。之前是遊戲，現在我們賣保險。

起初我以為賣保險你可以非常有創意，可以做任何你想做的事來銷售產品。

但現實中，它非常正規。

首先，你不能隨便打電話給任何人，你打電話的用戶必須是提交過一些資訊，表示對你的產品感興趣的人。

其次，整個保險行業是受到高度監管的。

讓我解釋一下這個問題。我們現在做的是 AI 電話行銷，agent 的角色是電話行銷人員。這個特定的例子是我們透過電話銷售健康保險，而且是在多個國家進行。

這裡有兩個要求。你必須通過電話行銷的認證。

人類有 80 分的及格線，這個 agent 也必須通過這個認證才能上線。其次，你有一些績效指標，你必須能夠以特定的門檻銷售出去。比如給你一千個客戶，你打電話給他們，你必須能賣出特定數量的保單。同時，投訴率必須低於某個數字。如果人們說，「我覺得很糟」，比如你說了不實的資訊，或者體驗很差，他們會投訴，保險公司非常在乎這個。

所以，你這裡需要的能力，首先，你需要有智能。你需要遵循銷售手冊，並提供精準的答案。我們稍後會展示什麼是精準的答案。你需要能夠使用工具，因為保險業有很多內部工具需要查詢，還有一些數學計算，你需要處理大量的組合。

同時，你需要非常像人類。如果你打電話給某人，對方可能在戶外，有很多噪音，可能還有一些口音。此外，你的聲音需要聽起來真實，而不是那麼機器人化。最後是端到端的延遲。當我說完一句話，你的回應必須在一秒鐘內完成。否則，你會覺得反應有點慢。

精準且人性化的挑戰

所謂的精準回應，例如，如果你回答「最高可以理賠到 600 美元」，這是錯的，完全錯誤，你會考試不及格。因為精準的答案是「對於一些常見項目理賠 400 美元」，而「600 美元只適用於門牙」。這是他們產品資訊裡的規定。

如果你說「如果你的牙齒有任何問題」，這是不對的。如果你有特定的 A 或 B 疾病，那才是正確答案。如果你回答了前者，你就會不及格。

另一件更具挑戰性的事，與遊戲類似。當有些客戶試圖詢問我們是否可以找時間談談時，你會嘗試三次。如果你在三次內無法重新安排時間，或者你可以稍後再安排。例如，我嘗試第一次，電話行銷員嘗試第一次，對方說「不用了，謝謝」。

然後你嘗試第二次，對方說「不」。

接著你嘗試第三次，如果使用者說「呃哼…」。

你可能會覺得「呃哼」或許代表有興趣。如果你認為這個情緒是有興趣的，因為你改變了說法，像是「我可以告訴你這對你個人有什麼好處嗎？」你可能會想，「呃哼」或許是用戶感興趣了。但實際上，你需要判斷出這個聲音是不耐煩的。然後根據上下文，你會想，好吧，我已經試了三次，我需要重新安排時間了。這就是當你有音訊作為輸入時的情況。

如何實現即時互動？

那麼，一個關鍵問題是我們如何做到即時？我將舉例說明目前有哪些不同的模型架構。

架構類型	描述	優點/缺點
端到端全雙工 (End-to-end Full Duplex)	使用者和模型之間只有一個單一模型。使用者說話的波形直接輸入，模型在互動過程中隨時回應。	優點: 最自然，最像人類，容易打斷。缺點: 技術最複雜，目前尚無系統大規模部署。
端到端半雙工 (End-to-end Half Duplex)	當使用者說話時，有一個語音活動偵測器來判斷使用者是否在說話。語音被切成一塊一塊地傳給模型，模型回應前一塊的內容。	優點: 比全雙工簡單。
鏈式解決方案 (Chained Solution - 2 Models)	有兩個模型。第一個是理解模型，接收音訊，生成文字回應。然後文字進入生成模型，生成輸出音訊。	優點: 易於客製化。
鏈式解決方案 (Chained Solution - 3 Components)	這是一個三段式流程：1) ASR (語音轉文字)；2) 大型語言模型處理文字；3) TTS (文字轉語音) 生成音訊。	優點: 最容易客製化，因為每個組件都可以獨立調整。

我們為客戶通常使用的是雙組件的鏈式解決方案。例如，我們使用一個 30B 的理解模型來生成回應。但如果用戶的查詢很複雜，可能會使用一個經過微調的較大模型來作為工具進行思考。然後，它會進入一個 1B 的生成模型來生成音訊回應。

現今，所有這些模型都基於同一個大型語言模型，但你可能會透過持續預訓練或用不同的數據混合進行微調。例如，對於理解模型，你需要數千小時不同品質的音訊，你可能希望有很多低品質的音訊。此外，因為你希望理解模型能生成回應，你也需要大量的文字 token 來繼續預訓練，否則它就只是一個音訊模型。

對於生成模型，你需要更多高品質的音訊。對於大型語言模型，你可能希望在一些領域特定的數據上進行訓練。所以，這種架構使得客製化變得容易。因為理解和生成模型在某種程度上是通用的，你有了這些模型，或許可以在不同場景中使用。但如果你要進入一個特定的場景，你只需要微調這個（大型語言）模型。

結合智能與低延遲的關鍵

如何同時獲得智能和低延遲？這是聲音 Agent 的關鍵。

所有這些事情結合在一起，你就可以同時獲得智能和低延遲。

專案進程與成果

這就是我們專案的進展。我們今年開始，與一家財富世界 500 強的保險領導者合作。我們從一月開始。到了二月，使用 ChatGPT-4，你得到的分數大概是 55 分。但問題是，你必須通過這條線，這是人類的表現，80 分。你必須通過這條線才能上線。你可以看到，我們掙扎了很久，但後來我們穩步進展，直到能夠匹配人類的表現。這花了大概半年，或者說三個季度的時間。

這裡的教訓是，對端到端聲音 Agent 的評估極具挑戰性。因為你需要一個真人來打電話。一旦你打電話，就很難做自動評估了。但這很關鍵，如果你沒有這個，就很難知道整個端到端的表現。

這是一個持續進行中的問題，即時處理複雜的產品組合仍然非常困難。對於保險，你有很多產品組合，如何處理它們，價格不同，也許我會說，「哦，這對我來說太貴了」，我想要一個更便宜的方案，然後你需要為他們挑選出正確的方案。

最後一點，高安全性的設定使得成本更高。我們在座談會上討論過，如果只有 OpenAI，它是否會主導世界。但在 To B 領域，並非如此。原因是因為，對於保險業，如果你在不同國家推出，數據不能離開這個國家，甚至更嚴格地說，數據不能離開這家公司的安全組。所以，你要麼可以在你的帳戶上租用 GPT 模型，在你的帳戶上運行，要麼你需要開發自己的模型。這就是為什麼所有這些事情都很困難。這也是為什麼我們花了這麼多精力來自己開發整個模型，而不是僅僅做提示工程或使用 API。

總結

我展示了兩個例子，說明我們在過去兩年裡是如何開發聲音 Agent 的。

我們得到的教訓是，聲音 Agent 具有很高的可擴展性。儘管遊戲設定和保險設定非常不同，但技術上，是相同的模型架構，相同的技術。唯一的不同可能是數據有點不同，評估有點不同，你需要在這方面投入很多人力。但模型架構，以及你如何進行後訓練、預訓練，所有這些東西都是一樣的，可以從遊戲應用到電話行銷，這是非常不同的領域。遊戲希望有趣，電話行銷希望非常精準，但同時要非常小心地處理用戶的輸入。

但我認為，現在我們已經能夠在這些領域落地，但這仍處於第一天。原因是，對於遊戲，它只是一個非常簡單的遊戲。單一角色，一個小小的世界觀設定。但如果你想做一個真正的多角色、龐大世界觀設定的遊戲呢？那現在仍然非常困難。

對於電話行銷，現在我們或許可以為特定公司銷售大約五種不同的健康保險，以及某些組合。但要銷售通用產品還很難。我認為，總的來說，這種電話行銷對於價值在 500 美元到 5000 美元之間的任何產品都非常適用。這個範圍非常適合用電話行銷來銷售。但現在，如果你用這個訓練好的模型去銷售任何新的產品，你仍然需要大量的調整。

還有很多其他的場景，比如以前的客戶服務，所有這些都基於大型語言模型，只是文字模型。現在你可以為這些應用程式加入一個語音介面。所以這裡有很多應用。

所以我認為，這就是為什麼我說我們現在能夠將產品落地，但這仍處於第一天。我們未來可能還有幾年激動人心的發展。最後，如果你有興趣與我們合作或成為我們的合作夥伴，請聯繫我們。我們有一個展位，我們的聯合創辦人會在那裡，歡迎來和我們聊聊。

好的，這就是全部內容，謝謝大家。

🔗 相關推薦

💡 對我們的 AI 研究助手感興趣嗎？

使用 AI 技術革新您的研究流程、提升分析效率並發掘更深層次的洞見。

了解更多

📋 目錄

🔗 相關推薦

矽谷 101：Bosen AI 創辦人 Mu Li 博士分享聲音 Agent 的實踐與挑戰

Highlight

逐字稿

什麼是聲音 Agent？

我們如何構建它？

專案的經驗與教訓

案例二：AI 電話行銷

精準且人性化的挑戰

如何實現即時互動？

結合智能與低延遲的關鍵

專案進程與成果

總結

🔗 相關推薦

💡 對我們的 AI 研究助手感興趣嗎？