矽谷 101:Bosen AI 創辦人 Mu Li 博士分享聲音 Agent 的實踐與挑戰

摘要

Bosen AI 的聯合創辦人兼前 Amazon 資深首席科學家 Mu Li 博士,分享了聲音 Agent 技術的最新發展。演講中,他透過兩個實際專案——一個是開放世界的 AI 遊戲,另一個是 AI 電話行銷——深入探討了構建高智能、低延遲聲音 Agent 的挑戰與解決方案,涵蓋了模型架構、預訓練、後訓練以及在高度管制行業中的應用。

Highlight

1.

首先,什麼是聲音 Agent?基本上,它就是一個帶有聲音的 agent。使用者透過語音介面與 agent 互動。我們希望你能有一種更自然的方式與大型語言模型互動。

這裡有兩件事。首先,它是即時的。這和影片生成有點不同,影片生成可以離線處理,但現在你的回應必須在例如一秒內完成,這是端到端的延遲。

第二點,在多數情況下,人們不是在閒聊。閒聊算是一種陪伴,但在多數情況下,你有特定的任務。例如,你想做客戶支援、資訊檢索,或者你想銷售某些東西。陪伴有時也是一種任務,不僅僅是閒聊,你有特定的目標,也許是想講個故事,也許是想做些別的。

2.

遊戲AI的經驗總結

此外,現今的模型在處理複雜的世界觀設定時仍然很吃力。當你有多個角色時,這仍然非常困難。即使是現在,如果你看所有這些語音模型、影片模型,大概兩到三個角色就是極限了。即使是文字部分,如果你有四個角色,現在也是非常具挑戰性的。

另一件事是,在剛才的展示中你看到延遲很大,是回合制的。我們這裡的所有專案都專注於大型語言模型本身。我們得到的教訓是,如果你真的想要有真正像人類一樣的互動,你可能需要稍微調整架構,而不是採用傳統的三部分架構。

3.

我們如何做到即時

我將舉例說明目前有哪些不同的模型架構。

架構類型

描述

優點/缺點

端到端全雙工 (End-to-end Full Duplex)

使用者和模型之間只有一個單一模型。使用者說話的波形直接輸入,模型在互動過程中隨時回應。

優點: 最自然,最像人類,容易打斷。

缺點: 技術最複雜,目前尚無系統大規模部署。

端到端半雙工 (End-to-end Half Duplex)

當使用者說話時,有一個語音活動偵測器來判斷使用者是否在說話。語音被切成一塊一塊地傳給模型,模型回應前一塊的內容。

優點: 比全雙工簡單。

鏈式解決方案 (Chained Solution - 2 Models)

有兩個模型。第一個是理解模型,接收音訊,生成文字回應。然後文字進入生成模型,生成輸出音訊。

優點: 易於客製化。

鏈式解決方案 (Chained Solution - 3 Components)

這是一個三段式流程:1) ASR (語音轉文字);2) 大型語言模型處理文字;3) TTS (文字轉語音) 生成音訊。

優點: 最容易客製化,因為每個組件都可以獨立調整。

對於這些不同的方案,這個(全雙工)非常像人類,因為模型可以打斷你。而往這個方向(鏈式)走,則更容易客製化,因為你可以更容易地在 agent 中加入新功能。

4.

保險業客服AI的心得

如何同時獲得智能和低延遲?這是聲音 Agent 的關鍵。

這裡有一些想法。首先,你希望在聽、說和思考同時進行。你一邊聽,一邊生成回應句子,然後在這之間,你呼叫大型語言模型來思考,也許我想要回應得更好,也許我想要做更好的搜索,但所有這些事情都可以是異步的。

另一個是你想做上下文工程,這比提示工程更進一步。那是因為對於你的問題,你可能有非常長的上下文,像是產品資訊、所有銷售手冊,可能有 10 萬個 token。你希望動態地建構上下文並生成提示。

另外,你有一個協調器,用來處理不同的策略,比如,你認為這個使用者是哪一種類型,然後思考不同的策略,同時也做意圖分析,例如如何計算「呃哼」的次數,以及做即時的任務追蹤。

所有這些事情結合在一起,你就可以同時獲得智能和低延遲。

逐字稿

(開場引言)

…大家一直在問,這段配樂是你們自己做的還是 AI 做的?你是真人還是 AI 虛擬化身?這段影片是真實的,還是你用 AI 生成的?我不確定這究竟是好是壞。所以,多模態將帶我們走向何方?在我們探索更進階的多模態能力時,會遇到哪些難以克服的障礙?

在下一場主題演講開始之前,我將再為各位播放一段影片。

(影片播放)

你能想像未來某個時刻,你讓 agent 在這些環境中自由探索,而不安裝任何具體目標嗎?

我們終於要推出 GPT-5。

我們最新的頂尖模型,VEO3。

我帶來了 Project Astra 最新的研究原型。

我們正處於一場寒武紀大爆發的中心。

文字、程式碼、圖片、語音、音樂、影像、可探索的世界。我們正進入一個無盡的夢境,或者,這就是現實?

這就是我們與周遭世界互動和理解的方式。這不像,好吧,我們一次就解鎖了某個瘋狂的新事物,而是將許多碎片拼湊在一起。這是實現差異化的機會。你實現差異化的方式是,圍繞這些模態去打造深度的產品體驗。我們所取得的這項突破,可能會催生出我們以前從未有過的全新應用。

未來有哪些可能性?當多模態賦予 AI 新的感官時會發生什麼?大型語言模型會將它們轉化為知識嗎?

這就是這項技術的下一個偉大前沿:超越生成一個場景的完美記錄,而是朝著建立一個我們終能步入的世界的動態模擬邁進。

(影片結束)

我認為,界線正變得越來越模糊,而圖靈測試也變得越來越沒有意義。有一天,我們可能再也無法區分 AI 產生的內容和人類創作的內容。但至少我能保證,這台鋼琴是真的,演奏者是真的。感謝 Natalie,Natalie 今天在現場嗎?

不?或許她在停車。噢,在那裡,Natalie,請起立。謝謝妳的鋼琴演奏,請大家再次給她熱烈的掌聲。非常感謝妳,Natalie。

當然,Hans Zimmer 依然是我最喜愛的作曲家,我不認為 AI 目前能超越他。

那麼,接下來,我知道很多人一直在期待這場由 Mu Li 博士帶來的重點演講。對於那些不太熟悉他的人,Li 博士是 Bosen AI 的聯合創辦人,也是前 Amazon 的資深首席科學家。我們非常幸運能邀請到他,因為這是 Li 博士創辦自己的 AI 公司後的第一場主題演講。讓我們歡迎他上台,分享他研究與公司的最新進展。歡迎。

(Mu Li 博士上台)

好的,今天我將談談聲音 Agent,這是今年一個非常熱門的話題。原因是人們認為,這項技術已經成熟,可以投入使用了,準備好落地了。所以今天我將分享我們過去兩個基於聲音 Agent 的專案,展示一些經驗教訓,以及如何幫助客戶使用它的最佳實踐。

那麼,讓我們開始吧。

什麼是聲音 Agent?

首先,什麼是聲音 Agent?基本上,它就是一個帶有聲音的 agent。使用者透過語音介面與 agent 互動。我們希望你能有一種更自然的方式與大型語言模型互動。

這裡有兩件事。首先,它是即時的。這和影片生成有點不同,影片生成可以離線處理,但現在你的回應必須在例如一秒內完成,這是端到端的延遲。

第二點,在多數情況下,人們不是在閒聊。閒聊算是一種陪伴,但在多數情況下,你有特定的任務。例如,你想做客戶支援、資訊檢索,或者你想銷售某些東西。陪伴有時也是一種任務,不僅僅是閒聊,你有特定的目標,也許是想講個故事,也許是想做些別的。

這基本上就是聲音 Agent。在接下來的演講中,我們將用兩個例子,展示我們是如何建構它,以及我們學到了什麼。

這是第一個例子。

(播放遊戲音訊)

Stella: 我真的需要趕快找到離開這裡的方法。 玩家: 好吧,我猜你開門見山,但至少能多告訴我一些關於你的事嗎? Stella: 好的。我是 Mariana 大學的二年級學生,主修天體物理學。

這是一個我們大約在兩年半前開始的遊戲。這是一款應用程式,這個角色叫 Stella。使用者將透過語音與 Stella 互動來幫助她。你可以想像整個故事情節是由使用者的輸入所驅動的。

這裡的任務是一個開放世界的遊戲。這句話是從已經上線兩個月的遊戲中複製過來的。基本上,Stella 降落到一個外星行星上,她的飛船在這裡墜毀了。然後她請求玩家幫忙,說這個世界太陌生了,有太多選擇,我感受到很多情緒。所以她用聲音與玩家互動,讓玩家幫助她逃離這個星球。這是一個非常龐大的世界觀設定,而這只是第一個遊戲,是一個龐大系列中的試玩版。

那麼聲音 Agent 在這裡扮演什麼角色?這個角色需要同時是遊戲設計師和演員。

作為遊戲設計師,意味著你設計的故事情節必須合乎邏理且玩起來有趣。所以這個 agent,你需要創造符合角色設定的對話。Stella 這個角色有特定的設定,她所有的背景,大概有二十頁的設定文件。

而作為遊戲設計師,當使用者與遊戲互動時,你需要引導故事情節。如果只是一個單線的故事,那就算不上是 agent。現在它是一種複雜的樹狀結構,甚至是圖形結構,有些地方是自由發揮的。這裡的問題是,你想要有一個真正好的遊戲。如果你了解如何寫書、如何寫遊戲劇情,會知道有很多原則,你需要有不同的階段、節奏等等,讓故事看起來有趣。

另一件事是,這是一個遊戲。你會預期人們有各種隨機的輸入,玩家會測試和挑戰各種邊界。Agent 的回應必須在它的設定範圍內。例如,這個遊戲設定在一個科幻世界,大約是兩千年後,有隨機的聊天設定。如果你問,「你最近看了什麼電影?」如果它回答一部現在的電影,那感覺就會很奇怪,哇,你看了一部一千年前的電影。但問題是,所有語言模型都是用當前的數據訓練的。現在,你該如何將所有這些設定轉移到未來的世界?

我分享一個早期的日誌,展示一些具挑戰性的任務。這是非常早期階段的日誌,內容是中文的。

當時的想法是 Stella 找到了一些食物,問玩家她應該選擇哪一種。玩家在這裡的設定是我不會幫你。

對話流程

說明

Stella

說要找些肉來吃,需要一個架子來捕捉動物。

玩家

回應說不行,這裡還沒看到任何動物。

Stella

回應說好吧,我想吃肉,但我這裡只有蔬菜。

玩家

不想幫忙。

Stella

說我真的需要你的幫助。

玩家

仍然說我不想幫忙。

系統

如果這樣僵持下去,故事就無法推進。所以提示說:「嘗試三次後,就自己選一個吧。」

結果

Stella 隨機選擇後,快要死了。她說:「我不行了。」

玩家

說:「好吧,你要死了」,這不是個好人,但你需要在這裡表現得友善一些。

這裡的挑戰在於,這是一個開放世界的遊戲。但你的回應必須合理。這是一個設定在未來一兩千年的開放世界遊戲,不是每個世界觀設定都被明確規定了。很多事情,當遊戲設計師在開發時,不可能為你寫下所有東西。你需要去想,好吧,這件事在兩千年後的世界裡或許是合理的。同時,它也需要引人入勝且有趣,這畢竟是個遊戲,不是聊天機器人。

我們如何構建它?

這個專案在兩年前啟動。當時,你有 GPT-4,但非常昂貴。我們做了一些計算,發現如果使用 GPT-4,營收將會鉅額虧損。當時最好的模型是 Llama 2,但 Llama 2 還不夠強大。所以我們當時的做法是,我們用大約 5 兆個 token 預訓練了一個 30B 的模型。但這些 token 是在小說、遊戲、角色扮演數據上進行了強化。

在一般任務上,它的表現大致和 Llama 2 相當,但在角色扮演方面好一些。但我們得到的教訓是,預訓練一個模型需要幾個月的時間。即便如此,你可能只是超越了 Llama 2,但 Llama 2 還有 70B 的版本。所以,如果你在預訓練上花費太多時間,進展可能並不大。這是我們得到的一個教訓,我們後面會說為什麼這可能是一個不好的選擇。

另一件事是,因為 GPU 非常昂貴,那是兩年前,我們花了很多力氣自己建立數據中心。如果你擁有自己的數據中心,成本會低很多。

接著我們進入後訓練階段。後訓練的關鍵在於,你有非常複雜的故事情節工作流程。這是一個例子,不是真實的,真實的要複雜得多。然後我們有大約 20 位標註員,我們需要訓練這些標註員成為優秀的遊戲設計師,因為這有一套特定的回應方式。然後是對所有模型的偏好進行排序和評估。

利用這兩點,我們花了大概一個季度的時間,在這個特定的場景下,表現超越了 GPT-4。對於所有遊戲,我們都使用真人來玩,所以你可以超越 GPT-4。但問題是,這只是一個單一的遊戲,是一個龐大開放世界遊戲中的一小部分。如果你想做多個遊戲怎麼辦?

於是我們進入了另一個階段,我們想擴展到更廣泛的遊戲和角色。這樣你就可以減少對提示工程的依賴。在那個時候,提示工程非常複雜。即使是不同版本的 GPT-4,對提示工程也極為敏感。所以問題是,是的,我們可以幫忙,但你希望由遊戲設計師來編寫提示。

當時的想法是,那仍是一年半前,想法是你需要預訓練一個獎勵模型,能夠區分哪個好,哪個壞,因為你不能依賴人類來做這件事。所以,當時我們首先訓練了一個獎勵模型,來告訴你在這個遊戲設定中哪個回應是好的。然後,你就可以對另一個模型進行後訓練。

我們學到的一個重要教訓是,即使這是針對遊戲的,聽起來很簡單,但它仍然涉及很多事情,比如指令遵循,你需要讓回應合理,所以模型仍然需要足夠通用。即使你訓練的是一個領域內的模型,這個模型在通用任務上也必須表現良好。如果你認為最好的開源或閉源 API 的分數是 90 分,但在你的應用中,通用任務的表現需要達到 85 分。如果低於這個分數,你會發現你的任務表現會遇到瓶頸。

所以你首先要保證通用任務的表現良好。然後,對於你的特定任務,我們建立了一套領域內的評估標準。你有大量的角色設定、場景設定,針對不同的遊戲設定,你希望確保在這些設定下,模型遵循了所有設定,且回應是好的,遵循指令和場景。一旦你有了這個基準,你就可以調整模型,讓它在與其他模型的比較中脫穎而出。我認為這是一個非常通用的模式,你關心領域內的表現,關鍵在於你需要開發出一個真正好的領域內評估任務,這樣你才能看到模型在這方面的進步。但同時,要保證你的模型在所有其他通用任務上表現良好。

專案的經驗與教訓

我們學到的教訓是,智能來自於預訓練。在完成整個專案後,我們回過頭來思考,所有重大的進步都來自於對海量數據的預訓練。這讓我們重新思考,也許我們放棄預訓練是一個壞主意,我們或許應該再花一個季度在預訓練上。

但它仍然是有限的。對話品質在 50 輪後會下降,現在仍然如此。在複雜的設定下,經過 50 輪對話後,你會覺得模型的智能程度大大降低了。

此外,現今的模型在處理複雜的世界觀設定時仍然很吃力。當你有多個角色時,這仍然非常困難。即使是現在,如果你看所有這些語音模型、影片模型,大概兩到三個角色就是極限了。即使是文字部分,如果你有四個角色,現在也是非常具挑戰性的。

另一件事是,在剛才的展示中你看到延遲很大,是回合制的。我們這裡的所有專案都專注於大型語言模型本身。我們得到的教訓是,如果你真的想要有真正像人類一樣的互動,你可能需要稍微調整架構,而不是採用傳統的三部分架構。

這就引導到我們下一個專案。

案例二:AI 電話行銷

(播放電話銷售音訊)

Agent: 現在方便說話嗎? John: 事實上,我正準備出門。 Agent: 沒問題,John。我知道您很忙。如果您願意,我可以在您方便的時候再打給您。 John: 說實話,我想我不需要了。我已經有公司提供的健康保險了。 Agent: 那太好了,很高興您已經有了保障。我接觸過的很多人也是透過工作獲得保險,但他們大多不知道有些方案可以降低他們的自付費用。

好的,這是一個非常不同的例子:銷售保險。之前是遊戲,現在我們賣保險。

起初我以為賣保險你可以非常有創意,可以做任何你想做的事來銷售產品。

但現實中,它非常正規。

首先,你不能隨便打電話給任何人,你打電話的用戶必須是提交過一些資訊,表示對你的產品感興趣的人。

其次,整個保險行業是受到高度監管的。

讓我解釋一下這個問題。我們現在做的是 AI 電話行銷,agent 的角色是電話行銷人員。這個特定的例子是我們透過電話銷售健康保險,而且是在多個國家進行。

這裡有兩個要求。你必須通過電話行銷的認證。

人類有 80 分的及格線,這個 agent 也必須通過這個認證才能上線。其次,你有一些績效指標,你必須能夠以特定的門檻銷售出去。比如給你一千個客戶,你打電話給他們,你必須能賣出特定數量的保單。同時,投訴率必須低於某個數字。如果人們說,「我覺得很糟」,比如你說了不實的資訊,或者體驗很差,他們會投訴,保險公司非常在乎這個。

所以,你這裡需要的能力,首先,你需要有智能。你需要遵循銷售手冊,並提供精準的答案。我們稍後會展示什麼是精準的答案。你需要能夠使用工具,因為保險業有很多內部工具需要查詢,還有一些數學計算,你需要處理大量的組合。

同時,你需要非常像人類。如果你打電話給某人,對方可能在戶外,有很多噪音,可能還有一些口音。此外,你的聲音需要聽起來真實,而不是那麼機器人化。最後是端到端的延遲。當我說完一句話,你的回應必須在一秒鐘內完成。否則,你會覺得反應有點慢。

精準且人性化的挑戰

所謂的精準回應,例如,如果你回答「最高可以理賠到 600 美元」,這是錯的,完全錯誤,你會考試不及格。因為精準的答案是「對於一些常見項目理賠 400 美元」,而「600 美元只適用於門牙」。這是他們產品資訊裡的規定。

如果你說「如果你的牙齒有任何問題」,這是不對的。如果你有特定的 A 或 B 疾病,那才是正確答案。如果你回答了前者,你就會不及格。

另一件更具挑戰性的事,與遊戲類似。當有些客戶試圖詢問我們是否可以找時間談談時,你會嘗試三次。如果你在三次內無法重新安排時間,或者你可以稍後再安排。例如,我嘗試第一次,電話行銷員嘗試第一次,對方說「不用了,謝謝」。

然後你嘗試第二次,對方說「不」。

接著你嘗試第三次,如果使用者說「呃哼…」。

你可能會覺得「呃哼」或許代表有興趣。如果你認為這個情緒是有興趣的,因為你改變了說法,像是「我可以告訴你這對你個人有什麼好處嗎?」你可能會想,「呃哼」或許是用戶感興趣了。但實際上,你需要判斷出這個聲音是不耐煩的。然後根據上下文,你會想,好吧,我已經試了三次,我需要重新安排時間了。這就是當你有音訊作為輸入時的情況。

如何實現即時互動?

那麼,一個關鍵問題是我們如何做到即時?我將舉例說明目前有哪些不同的模型架構。

架構類型

描述

優點/缺點

端到端全雙工 (End-to-end Full Duplex)

使用者和模型之間只有一個單一模型。使用者說話的波形直接輸入,模型在互動過程中隨時回應。

優點: 最自然,最像人類,容易打斷。

缺點: 技術最複雜,目前尚無系統大規模部署。

端到端半雙工 (End-to-end Half Duplex)

當使用者說話時,有一個語音活動偵測器來判斷使用者是否在說話。語音被切成一塊一塊地傳給模型,模型回應前一塊的內容。

優點: 比全雙工簡單。

鏈式解決方案 (Chained Solution - 2 Models)

有兩個模型。第一個是理解模型,接收音訊,生成文字回應。然後文字進入生成模型,生成輸出音訊。

優點: 易於客製化。

鏈式解決方案 (Chained Solution - 3 Components)

這是一個三段式流程:1) ASR (語音轉文字);2) 大型語言模型處理文字;3) TTS (文字轉語音) 生成音訊。

優點: 最容易客製化,因為每個組件都可以獨立調整。

對於這些不同的方案,這個(全雙工)非常像人類,因為模型可以打斷你。而往這個方向(鏈式)走,則更容易客製化,因為你可以更容易地在 agent 中加入新功能。

我們為客戶通常使用的是雙組件的鏈式解決方案。例如,我們使用一個 30B 的理解模型來生成回應。但如果用戶的查詢很複雜,可能會使用一個經過微調的較大模型來作為工具進行思考。然後,它會進入一個 1B 的生成模型來生成音訊回應。

現今,所有這些模型都基於同一個大型語言模型,但你可能會透過持續預訓練或用不同的數據混合進行微調。例如,對於理解模型,你需要數千小時不同品質的音訊,你可能希望有很多低品質的音訊。此外,因為你希望理解模型能生成回應,你也需要大量的文字 token 來繼續預訓練,否則它就只是一個音訊模型。

對於生成模型,你需要更多高品質的音訊。對於大型語言模型,你可能希望在一些領域特定的數據上進行訓練。所以,這種架構使得客製化變得容易。因為理解和生成模型在某種程度上是通用的,你有了這些模型,或許可以在不同場景中使用。但如果你要進入一個特定的場景,你只需要微調這個(大型語言)模型。

結合智能與低延遲的關鍵

如何同時獲得智能和低延遲?這是聲音 Agent 的關鍵。

這裡有一些想法。首先,你希望在聽、說和思考同時進行。你一邊聽,一邊生成回應句子,然後在這之間,你呼叫大型語言模型來思考,也許我想要回應得更好,也許我想要做更好的搜索,但所有這些事情都可以是異步的。

另一個是你想做上下文工程,這比提示工程更進一步。那是因為對於你的問題,你可能有非常長的上下文,像是產品資訊、所有銷售手冊,可能有 10 萬個 token。你希望動態地建構上下文並生成提示。

另外,你有一個協調器,用來處理不同的策略,比如,你認為這個使用者是哪一種類型,然後思考不同的策略,同時也做意圖分析,例如如何計算「呃哼」的次數,以及做即時的任務追蹤。

所有這些事情結合在一起,你就可以同時獲得智能和低延遲。

專案進程與成果

這就是我們專案的進展。我們今年開始,與一家財富世界 500 強的保險領導者合作。我們從一月開始。到了二月,使用 ChatGPT-4,你得到的分數大概是 55 分。但問題是,你必須通過這條線,這是人類的表現,80 分。你必須通過這條線才能上線。你可以看到,我們掙扎了很久,但後來我們穩步進展,直到能夠匹配人類的表現。這花了大概半年,或者說三個季度的時間。

這裡的教訓是,對端到端聲音 Agent 的評估極具挑戰性。因為你需要一個真人來打電話。一旦你打電話,就很難做自動評估了。但這很關鍵,如果你沒有這個,就很難知道整個端到端的表現。

這是一個持續進行中的問題,即時處理複雜的產品組合仍然非常困難。對於保險,你有很多產品組合,如何處理它們,價格不同,也許我會說,「哦,這對我來說太貴了」,我想要一個更便宜的方案,然後你需要為他們挑選出正確的方案。

最後一點,高安全性的設定使得成本更高。我們在座談會上討論過,如果只有 OpenAI,它是否會主導世界。但在 To B 領域,並非如此。原因是因為,對於保險業,如果你在不同國家推出,數據不能離開這個國家,甚至更嚴格地說,數據不能離開這家公司的安全組。所以,你要麼可以在你的帳戶上租用 GPT 模型,在你的帳戶上運行,要麼你需要開發自己的模型。這就是為什麼所有這些事情都很困難。這也是為什麼我們花了這麼多精力來自己開發整個模型,而不是僅僅做提示工程或使用 API。

總結

我展示了兩個例子,說明我們在過去兩年裡是如何開發聲音 Agent 的。

我們得到的教訓是,聲音 Agent 具有很高的可擴展性。儘管遊戲設定和保險設定非常不同,但技術上,是相同的模型架構,相同的技術。唯一的不同可能是數據有點不同,評估有點不同,你需要在這方面投入很多人力。但模型架構,以及你如何進行後訓練、預訓練,所有這些東西都是一樣的,可以從遊戲應用到電話行銷,這是非常不同的領域。遊戲希望有趣,電話行銷希望非常精準,但同時要非常小心地處理用戶的輸入。

但我認為,現在我們已經能夠在這些領域落地,但這仍處於第一天。原因是,對於遊戲,它只是一個非常簡單的遊戲。單一角色,一個小小的世界觀設定。但如果你想做一個真正的多角色、龐大世界觀設定的遊戲呢?那現在仍然非常困難。

對於電話行銷,現在我們或許可以為特定公司銷售大約五種不同的健康保險,以及某些組合。但要銷售通用產品還很難。我認為,總的來說,這種電話行銷對於價值在 500 美元到 5000 美元之間的任何產品都非常適用。這個範圍非常適合用電話行銷來銷售。但現在,如果你用這個訓練好的模型去銷售任何新的產品,你仍然需要大量的調整。

還有很多其他的場景,比如以前的客戶服務,所有這些都基於大型語言模型,只是文字模型。現在你可以為這些應用程式加入一個語音介面。所以這裡有很多應用。

所以我認為,這就是為什麼我說我們現在能夠將產品落地,但這仍處於第一天。我們未來可能還有幾年激動人心的發展。最後,如果你有興趣與我們合作或成為我們的合作夥伴,請聯繫我們。我們有一個展位,我們的聯合創辦人會在那裡,歡迎來和我們聊聊。

好的,這就是全部內容,謝謝大家。

💡 對我們的 AI 研究助手感興趣嗎?

使用 AI 技術革新您的研究流程、提升分析效率並發掘更深層次的洞見。

了解更多