Morgan Stanley 如何部署真正有效的 AI

Youtube連結

摘要

Morgan Stanley firmwide 生成式 AI 解決方案執行總監 Kaitlyn Elliot 分享公司如何成為金融業的先行者,早期採用生成式 AI。她深入探討了從解決知識管理問題開始,如何在 RAG 概念普及前就開發出類似的架構,並建立一套嚴謹的評估框架以確保準確性。文章還涵蓋了面對 Agentic AI 的挑戰、推動企業內部變革管理,以及在速度與準確性之間取得平衡的見解。

Highlight

1.

Morgan Stanley 似乎是一個先行者,非常早就開始採用這項技術。妳認為為什麼對公司來說,站在最前線並成為先行者如此重要?

在我們剛開始生成式 AI 旅程時,那些助理只能回答被問到的問題中約 10% 到 20%。所以,經過這麼多年、這麼多努力和 10,000 個常見問題,我們仍然無法滿足員工在知識管理方面的真正需求。

所以當我們看到 AI 技術的發展,我們決定看看是否能將我們在財富管理領域所有的內部知識,特別是程序、流程文件和研究報告,加以利用。

經過一段時間的實驗後,我們意識到我們其實已經建立了現在所稱的 RAG,只是當時我們還不知道 RAG 是什麼。

我會說,我們幾乎立刻就發現它涵蓋的範圍非常廣泛,我想那時我們才真正有了「啊哈!」的時刻,意識到這真的可能行得通。也就是在那時,我們決定必須全力以赴,在這裡投資,以確保公司能走在這項技術的最前沿。

2.

妳認為你們為解決知識問題所建立的基礎設施和數據,是促使你們投入的一個藉口,還是它真的讓你們在早期能迅速行動,並在短時間內創造出真正有用的東西?

我想這可能是兩者的結合。我認為在生成式 AI 開始普及時,許多企業都抱持著猶豫的態度。我想我們處於一個很好的位置,不僅僅是因為我們有接受新技術的意願,同時我們也有一個可以解決和實驗的問題。而且我們的數據也準備得很好,回頭看,我們早先所做的準備,其遠見是相當驚人的。

我一直很喜歡生成式 AI 領域的一點,我想你們也能體會,就是它的展示效果非常棒。每個產品的展示都很驚人,但當你真正嘗試應用並讓它持續穩定地表現時,很多時候它就是做不到。

同樣的,當我們第一次這樣做時,現在要求 AI 引用其來源已經是常規做法了,但我們當時是在 RAG 這個概念還未出現前就在建構它。所以我們開始學習這些技巧。如果它產生幻覺,那我們要如何知道它的答案是從哪裡來的?我們開始加入來源引用。然後我們會問,那個來源正確嗎?因為有些問題是語言模型失控造成的,而其他很多情況下則是搜尋問題。所以,事情很快就變得非常複雜。但我認為,經過幾次與主題專家合作並從終端使用者那裡獲得回饋後,我們意識到它是有價值的。所以,雖然它有缺點,但它仍然能夠回答問題,足以讓使用者獲得價值。

最終,我們實際做的是,我想我們大概選了 25 個問題左右,讓 AI 回答這 25 個問題,同時也讓一位主題專家來做。我們給他們各一個小時的時間,結果毫無疑問地,AI 的答案要好得多。AI 實際上能夠在一個小時內回答所有 25 個問題,而人類卻做不到。

所以我認為,早期進行這樣的測試也為我們所有的控制合作夥伴和領導層鞏固了一個信念:它比我們從人類那裡得到的結果要好。因此我們就繼續沿著這條路走下去。

3.

身為金融機構,我們所做的事情必須準確,這點很重要。所以我們幾乎沒有犯錯的空間。我想這是我認為的主要區別,我有時候會羨慕新創公司,他們會說「哦,我們正在打造這些很酷的東西」,我會覺得「那真好」,因為你可以直接把它推向世界,附上一個免責聲明說「這個有時候才有用,我們需要你的回饋來改進它」。而我們不能真的那樣做。

我們實際上對這個應用程式進行了長達九個月的試點。

我們也無法依賴傳統的機器學習評估方式。我們試過那樣做,我們試著丟入一千個問題,跑個餘弦相似度,結果發現那根本什麼也告訴不了我們。所以我們必須在「好吧,我們無法實際審查每一個輸入和輸出」之間取得平衡。

因此,我們開始建立一個回歸測試套組,我們挑選了像 500 個問題作為基礎,每次我們想對解決方案進行更改時,都會利用這個套組。就像我說的,一開始我們面臨的很多問題都是搜尋問題。

所以我們會試著在搜尋中加入業務規則,然後用這 500 個問題來測試,接著評估結果是好是壞,或者它破壞了多少。我們做了大量的提示工程,特別是在早期,我們邊做邊發現了像 few-shot examples 這樣的東西。隨著時間的推移,我們不斷加入這些東西。

因此,我認為對我們來說最重要的事情是建立一個測試的分類法。這不僅僅是一個框架,如果我們說我們達到了 80% 的準確度,那實際上意味著什麼?因為每個人對準確度的描述都可能不同。所以當我們完成那九個月的測試時,我們不僅得到了框架,還有分類法、不同的方法和途徑,這些都是我們從助理的開發中學到的。這成為了我們開始與控制合作夥伴,如模型風險管理團隊、法律風險和合規團隊,建立治理流程時的基礎框架,每個使用案例都可以使用。這也是我們財富管理助理所能達到的標準。所以期望是,如果另一個使用案例也做一個助理,我們現在就有了一個基準。那九個月的投入絕對是值得的,因為它幫助所有其他使用案例加速。

4.

我認為公司最核心的原則之一,就是工作方式的變革管理,讓大家明白當你使用 AI 作為副駕駛或工具時,你必須用跟你第一次學用 Google 做研究報告時一樣的心態去思考它。我們被教導不能相信網路上看到或讀到的一切,而且你必須引用你的來源。

他們確實讓這件事變得更難了。是的,他們是。但我認為這就像是試圖推動人們的採用和教育訓練,讓他們明白我們將進行試點。

我總是對人們說,當我們在試點時,如果你得到不好的回應,那很棒。我們試圖真正創造這種實驗性、創新的心態,就是你將試用這個東西,它會出錯,而這是有史以來最好的事情,因為這就是我們試點的目的。我們希望你告訴我們這些問題,然後我們可以在幕後更新提示或修正參數,讓它達到 80% 的時間都能持續給出好的答案,然後我們才會放心地將它推向世界。

5.

妳如何思考在即時推論(live inference)期間的演變?

嗯,我會說,就我們的助理而言,我們所做的是取一個子集,也就是員工日常互動的一定百分比,然後對它們進行審查。所以我們可能,這只是舉例,每天審查一百個問題。我們有一個完整的標註團隊,他們有評分的標準,然後他們會進去評分,判斷回應是好是壞,是否完整、準確,是否引用了正確的文章,或者是否有更好的文章可以引用。他們會標註所有這些。所以我們每天都在觀察,以這個助理為例,看它是否持續地在預期範圍內,還是出現了大幅度的偏差。如果我們看到它偏離了,那對我們來說顯然是一個巨大的指標,表示有東西壞掉了,而這可能牽涉到很多事情。

但我想我們在人工標註方面很早就學到的一件事是,我們試圖將問題歸類到核心問題中,這對我們至關重要,因為一旦我們這樣做,當我們進行問題分類時,我們就能看到,例如,它總是不斷地拉取不及時的文章。那我們的業務規則一定出了什麼問題,它不再按日期篩選了。

所以當我們思考進入一個由 AI 來做更多審查的世界,並且在推論時就進行,我認為那些業務規則變得非常非常關鍵。而且我認為,這就是為什麼我仍然認為由人類先做第一輪審查很重要,因為我確實認為人類可以批判性地思考那些導致你將問題歸類到某個類別的決策點,然後利用那種主題式的知識並將其提供給 AI,這將幫助 AI 更有效地解決問題。

所以今天我們是 AI 輔助和人工標註兩者結合。我認為它們在效果上是相容的。但當我們能夠讓 AI 一天看 5,000 個標註,而不僅僅是一百個時,它們也幫助我們擴展規模。

6.

我認為現在這個 Agentic 的世界裡,問題在於每個人都有 agent。每個產品、工具和工作流程現在都自動成為一個 agent。但對我們來說,當我們想到 agent,我們真正想到的是自主 agent,也就是你剛才談到的所有事情,一個可以自行選擇要使用哪個工具、要採取哪個行動的 agent。

所以,當我們開始更多地思考這個問題時,我實際上更像把它看作一名員工。也就是說,如果你要讓它開始執行這些不同的工作流程並採取行動,那麼你還需要了解 supervisory 應該是什麼樣的。在哪些決策點上,它或許應該詢問人類的意見?我想在像 Morgan Stanley 這樣的地方,這項技術實際應用的早期階段,你會看到更多這樣的情況,因為人類的簽核將會至關重要。

我想你會看到一種結合,可能會有其他的 AI 來擔任守護者的角色,可以這麼說,資深的 AI。沒錯。但這確實開始變得非常複雜。然後當它採取行動時,再次,當我更像把它看作一名員工時,我們也必須有一個類似這些 agent 的註冊表,這個 agent 的目的是什麼?它有權限做什麼?因為這對於我們能夠分類問題、了解哪裡出錯將會非常非常關鍵。所以這就是事情會變得複雜的地方,我認為我們對此還沒有一個很好的答案,因為現在還太早,但這是我們正在大量思考的問題。

7.

Morgan Stanley,我們有非常協作的文化。所以我們做了很多與員工的實地合作,就是直接坐在他們的辦公桌旁,問他們「當你每天打開電腦,準備做某項工作時」,我以財富管理助理為例。

我總是對財務顧問說:「我知道你每天都會看市場,因為那是你的工作。我也知道你可能有個特定的客戶每天都會打電話問你 Morgan Stanley 的觀點是什麼。」這就是你在 Morgan Stanley 工作的原因,這樣你才能呈現 Morgan Stanley 的觀點,而不是每天進來,在 Google 上查些東西。

你何不每天進來,在助理中輸入:「根據今天市場發生的事,告訴我今天應該知道的事情,並告訴我 Morgan Stanley 的觀點。」就是創造那個習慣。我從人們那裡得到了很多回饋,他們說「哇,那真的很有影響力。一旦我養成了那個習慣,我就開始使用那個工具了。」

我們是一個在全球擁有 80,000 多名員工的組織。所以也存在著一些細微的差別,比如美國的員工和歐洲的員工擁有的東西不同,這都是因為不同的規定。但我認為我們仍然處於教育和採用的階段。

然後,當然,也要開始向領導層證明我們正在取得的進展,這樣他們才會繼續投入。

8.

在開始開發應用程式之前,你應該準備好一整套評估套組。同意還是不同意?

我只是覺得你在工作中學到很多,一旦你開始使用它,你就會看到發生了什麼。你可能需要添加一些東西,但我的行業也和你的不同。

是的,我想你必須要了解你希望它做什麼,這樣你才能真正評估它做得好不好。因為如果你在開發解決方案的過程中走得太遠,然後才用真實使用者會問的真實問題去測試它,結果發現它對終端使用者來說根本沒用,那你就會發現自己處境不妙。

9.

對於大規模的 AI 轉型,企業需要放慢腳步,重視準確性勝於速度。

我個人的觀點是,準確性顯然非常重要,但我討厭把準確性置於一切之上,因為它沒有告訴你利害關係是什麼。很多時候,你可以在不達到某個準確度水平的情況下產生更大的影響,只要你讓人類以適當的方式參與其中,並設置好適當的防護措施。我覺得現在這一點可能更重要,才不會被淘汰。當然,準確性的需求取決於使用案例。

我只想提一下,從我的角度來看,我認為某個地方的某家公司遲早會犯錯。我幾乎可以向你保證,那會是因為他們沒有專注於準確性。所以對我們來說,這就是一個我們絕不妥協的核心原則。我們的老闆們可能非常不同。也許如果我們把「準確性」換成「有用性」,我就會同意這個說法了。

10.

11.

逐字稿

歡迎來到 Human in the Loop,這是一個探討為企業建構和部署真實世界系統所需條件的系列節目。

歡迎來到 Human in the aLoop。我是 Clement Finkel。我是 Sam Denton。今天我們邀請到了 Kaitlyn Elliot。Kaitlyn 是 Morgan Stanley firmwide 生成式 AI 解決方案的執行總監。她領導一個團隊,將生成式 AI 引入公司,並確保這些應用程式既尖端又安全可靠。過去幾年,我們很幸運能與 Kaitlin 和她的團隊合作。所以,Kaitlyn,感謝妳來上我們的 podcast。

謝謝你們的邀請。很高興來到這裡。

成為先行者的重要性

我的第一個問題是關於財富管理領域,或者更廣泛地說,在銀行業,Morgan Stanley 似乎是一個先行者,非常早就開始採用這項技術。妳認為為什麼對公司來說,站在最前線並成為先行者如此重要?

嗯,我會說長期以來,投資科技一直是我們 DNA 的一部分。過去幾年,公司確實將重點放在這上面。因此,在 2022 年初,我們接觸到了這項新的生成式 AI 技術,我想當它剛問世時,正如你們可能都知道的,它的展示充滿了魔力。我記得當時我們的主管看到它能寫一首詩的能力,就完全被震撼了。

作為一家公司,我們總是在思考如何投資科技,以確保我們的員工擁有最好的工具,同時,我們的客戶能獲得該領域最頂尖的技術也至關重要。

對於生成式 AI,我認為從領導層的角度來看,他們在早期確實是下了一場賭注。那時遠在 ChatGBT 問世、全世界多數人還不知道這項技術之前。但他們決定投入,而我們的第一個使用案例其實已經準備就緒,因為長期以來我們一直在處理知識管理的問題。

我想許多企業都有這個問題,但我們早已開始大量投資於解決這個問題。我們進行了一趟數據旅程,整理我們的內容,確保內容是最新的,並確保它被適當地標記。我們在對話式 AI 領域也已經耕耘了一段時間,我們有虛擬助理為我們的員工和客戶提供服務,但差距在於,我們花了數年時間才整理出 10,000 個常見問題。我想,在我們剛開始生成式 AI 旅程時,那些助理只能回答被問到的問題中約 10% 到 20%。所以,經過這麼多年、這麼多努力和 10,000 個常見問題,我們仍然無法滿足員工在知識管理方面的真正需求。

所以當我們看到 AI 技術的發展,我們決定看看是否能將我們在財富管理領域所有的內部知識,特別是程序、流程文件和研究報告,加以利用。當我們初次看到 GPT 時,我想我們用的是像 GPT-3 這樣的模型,我們天真地以為只要把文件直接餵給它,它就能正確理解。我們在設定第一個使用案例時,完全是摸著石頭過河。經過一段時間的實驗後,我們意識到我們其實已經建立了現在所稱的 RAG,只是當時我們還不知道 RAG 是什麼。

我會說,我們幾乎立刻就發現它涵蓋的範圍非常廣泛,我想那時我們才真正有了「啊哈!」的時刻,意識到這真的可能行得通。也就是在那時,我們決定必須全力以赴,在這裡投資,以確保公司能走在這項技術的最前沿。

奠定快速發展的基礎

妳認為你們為解決知識問題所建立的基礎設施和數據,是促使你們投入的一個藉口,還是它真的讓你們在早期能迅速行動,並在短時間內創造出真正有用的東西?

是的,我想這可能是兩者的結合。我認為在生成式 AI 開始普及時,許多企業都抱持著猶豫的態度。我想我們處於一個很好的位置,不僅僅是因為我們有接受新技術的意願,同時我們也有一個可以解決和實驗的問題。而且我們的數據也準備得很好,回頭看,我們早先所做的準備,其遠見是相當驚人的。

這很有道理。妳剛才提到了一個非常有趣的點,當你們作為早期採用者時,模型剛問世,一方面,我清楚地記得那是一個真正神奇的時刻,像是「哇,科技能做到這個」,令人驚嘆。同時,人們很快就開始測試,發現模型在很多方面其實表現不佳。

「幻覺」(hallucinating) 這個詞第一次出現,指的是模型在生產環境中使用時還不夠好。所以我很好奇,是什麼因素讓公司的人仍然願意投入,將這項技術應用於公司內部一個相當重要且關鍵的流程或問題上,即使當時它對許多人來說更像一個玩具,而不是一個生產力工具?這個動態是如何發展的?

這是個好問題。我會說,當我們最初設定時,正如你所說的,我一直很喜歡生成式 AI 領域的一點,我想你們也能體會,就是它的展示效果非常棒。每個產品的展示都很驚人,但當你真正嘗試應用並讓它持續穩定地表現時,很多時候它就是做不到。

我們有一整集的節目在討論對展示的反應。哦,太好了。下次我來,我們可以聊聊那個。但當我們第一次設定它,並開始問幾個問題時,我想我們有點驚訝它竟然能運作。所以,最初的幾個例子,我們問它關於程序的問題,比如「我如何為我的客戶開戶?」它能給出一個回應,我們當時覺得「哇,這相當不錯」。但我想我們很快就意識到,我的團隊缺乏主題專業知識。所以答案對我來說看起來很好,但我不是財務顧問,所以我實際上不知道這對財務顧問是否有用。我們第一個助理是財富管理的知識管理系統,而我不是主題專家,所以我也不知道,如果我問它如何開戶,它給我的步驟是否都正確,以及如果少了某個步驟,那是否是個關鍵步驟。

所以我們很早就建立了一個實驗室環境,第一件事就是找來一群主題專家和一群終端使用者,也就是財務顧問和他們的支援人員。我們請他們進去玩玩這個新工具。對他們來說,使用助理並不新鮮,因為他們已經有了一個,但這種生成式 AI 則是新的。

我們讓他們進去問一堆問題,然後為我們評分,指出哪些地方好,哪些地方不好。如果某個地方不好,我們就開始主題性地將問題分類。例如,是因為答案不準確?還是因為不完整,少了一些步驟?還是它完全產生了幻覺?

同樣的,當我們第一次這樣做時,現在要求 AI 引用其來源已經是常規做法了,但我們當時是在 RAG 這個概念還未出現前就在建構它。所以我們開始學習這些技巧。如果它產生幻覺,那我們要如何知道它的答案是從哪裡來的?我們開始加入來源引用。然後我們會問,那個來源正確嗎?因為有些問題是語言模型失控造成的,而其他很多情況下則是搜尋問題。所以,事情很快就變得非常複雜。但我認為,經過幾次與主題專家合作並從終端使用者那裡獲得回饋後,我們意識到它是有價值的。所以,雖然它有缺點,但它仍然能夠回答問題,足以讓使用者獲得價值。

最終,我們實際做的是,我想我們大概選了 25 個問題左右,讓 AI 回答這 25 個問題,同時也讓一位主題專家來做。我們給他們各一個小時的時間,結果毫無疑問地,AI 的答案要好得多。AI 實際上能夠在一個小時內回答所有 25 個問題,而人類卻做不到。

所以我認為,早期進行這樣的測試也為我們所有的控制合作夥伴和領導層鞏固了一個信念:它比我們從人類那裡得到的結果要好。因此我們就繼續沿著這條路走下去。

建立穩固的評估框架

妳剛才提到的聽起來像是一個早期評估框架的雛形。它似乎既能讓妳了解使用者旅程,又能用來向領導層證明這件事值得做。我很好奇,為什麼評估對你們這麼重要?是前者?是後者?還是兩者兼具?另外,這個問題聽起來太簡單了,所以我要再加一個:你們如何避免陷入那種評估的循環,就是你永遠無法在所有事情上達到 100% 的完美,那你們是如何選擇戰場的?

我想最後那點真的非常關鍵。對我們來說,身為金融機構,我們所做的事情必須準確,這點很重要。所以我們幾乎沒有犯錯的空間。我想這是我認為的主要區別,我有時候會羨慕新創公司,他們會說「哦,我們正在打造這些很酷的東西」,我會覺得「那真好」,因為你可以直接把它推向世界,附上一個免責聲明說「這個有時候才有用,我們需要你的回饋來改進它」。而我們不能真的那樣做。

雖然你可以加上免責聲明,是的,我們也加了。對我們來說,我們實際上對這個應用程式進行了長達九個月的試點。

我想,在今天的世界裡,花九個月來測試和驗證簡直是不可能的,我們會永遠落後。但在那個時間點,我們有喘息的空間,因為我們的第一個概念驗證是在 2022 年 9 月完成的。

ChatGBT 在一兩個月後才問世。因此,我們能夠利用那段時間真正開始思考這裡的框架是什麼。我認為需要大量的人工介入,我們不能真的依賴 AI 輔助的評估。

我們也無法依賴傳統的機器學習評估方式。我們試過那樣做,我們試著丟入一千個問題,跑個餘弦相似度,結果發現那根本什麼也告訴不了我們。所以我們必須在「好吧,我們無法實際審查每一個輸入和輸出」之間取得平衡。

因此,我們開始建立一個回歸測試套組,我們挑選了像 500 個問題作為基礎,每次我們想對解決方案進行更改時,都會利用這個套組。就像我說的,一開始我們面臨的很多問題都是搜尋問題。

所以我們會試著在搜尋中加入業務規則,然後用這 500 個問題來測試,接著評估結果是好是壞,或者它破壞了多少。我們做了大量的提示工程,特別是在早期,我們邊做邊發現了像 few-shot examples 這樣的東西。隨著時間的推移,我們不斷加入這些東西。

因此,我認為對我們來說最重要的事情是建立一個測試的分類法。這不僅僅是一個框架,如果我們說我們達到了 80% 的準確度,那實際上意味著什麼?因為每個人對準確度的描述都可能不同。所以當我們完成那九個月的測試時,我們不僅得到了框架,還有分類法、不同的方法和途徑,這些都是我們從助理的開發中學到的。這成為了我們開始與控制合作夥伴,如模型風險管理團隊、法律風險和合規團隊,建立治理流程時的基礎框架,每個使用案例都可以使用。這也是我們財富管理助理所能達到的標準。所以期望是,如果另一個使用案例也做一個助理,我們現在就有了一個基準。那九個月的投入絕對是值得的,因為它幫助所有其他使用案例加速。

他們不需要去思考「哦,我們需要建立一個數據集嗎?那個數據集應該長什麼樣?裡面應該有多少數據?我們該用什麼方法來測試?」我們能夠直接說「這就是做法」。

從測試到全面推廣

有個問題是,妳們是如何定義那個決策點,決定「好,我們現在要正式把它推出去了」,而不只是讓少數測試者使用,而是真正地面向大眾?妳之前提到了一個非常有趣的事情,除了對核心數據集進行評估和擁有一個框架之外,妳們實際上做了一個測試,就是讓 AI 去做,然後看它是否真的做得更好。當然,它顯然會更快,所以問題是它是否會犯下災難性的錯誤?我認為這其實是一個很好的方法,可以緩解人們有時會有的那種恐懼,就是 AI 到底需要多好才能有價值。

我有一個來自 Jason 的很棒的軼事,他告訴我他之前在 Axon 工作時的經歷。他說,當他們第一次告訴人們他們要把影片存到雲端,而不是地端或本地儲存時,人們問「那數據的遺失率是多少?」他進行了一些調查,發現遺失率是 5%。人們說「哦,這無法接受」。然後他們追問「那我們現在硬碟數據的遺失率是多少?」結果發現硬碟數據的遺失率是 25%。這就跟你剛才描述的情況很相似,就是直接進行一對一的比較。所以我很好奇,妳們是如何做出推廣這個解決方案的決策的?

是的,我想這就是我們人類常做的一件事,我們高估了自己的能力。所以,在早期,這只是我們的一個方法,正如你所說的,你永遠不可能達到 100% 的完美。我想我們能夠真正理解到一點,等等,我們在追求完美,但我們對人類卻沒有同樣的期望。所以,能夠證明當人類執行這項任務時,他們的表現是 40%,而 AI 的表現是 80%,這帶來了一種安心感。風險其實都還在,答案或回應都可能出錯。

但對我們來說,我認為公司最核心的原則之一,就是工作方式的變革管理,讓大家明白當你使用 AI 作為副駕駛或工具時,你必須用跟你第一次學用 Google 做研究報告時一樣的心態去思考它。我們被教導不能相信網路上看到或讀到的一切,而且你必須引用你的來源。

他們確實讓這件事變得更難了。是的,他們是。但我認為這就像是試圖推動人們的採用和教育訓練,讓他們明白我們將進行試點。

我總是對人們說,當我們在試點時,如果你得到不好的回應,那很棒。我們試圖真正創造這種實驗性、創新的心態,就是你將試用這個東西,它會出錯,而這是有史以來最好的事情,因為這就是我們試點的目的。我們希望你告訴我們這些問題,然後我們可以在幕後更新提示或修正參數,讓它達到 80% 的時間都能持續給出好的答案,然後我們才會放心地將它推向世界。

我也認為這總是取決於使用案例是什麼。顯然,有些使用案例,例如,如果你要直接面對客戶,這點我們還沒做,但如果你要直接面對客戶,你會希望它非常、非常一致地、永遠都是對的。

但當你在內部使用,做一些像摘要或內部虛擬助理這樣的事情時,我確實認為你在依賴人類去理解什麼是好的回應、什麼是壞的回應方面有更多的彈性空間,就像他們今天在用 Google 搜尋一樣。

我肯定會記住那句話,對於概念驗證來說,出錯是好事。這肯定會被再次使用。我認為這是個很棒的思考方式。

部署後的持續監控

我還有一個問題,妳之前提到了那個框架,就是有一套問題集來進行基準測試。妳如何思考從擁有那套問題集來進行基準測試和找出問題所在,到實際控制部署後和人們使用時發生的情況?妳如何思考在即時推論(live inference)期間的演變?

嗯,我會說,就我們的助理而言,我們所做的是取一個子集,也就是員工日常互動的一定百分比,然後對它們進行審查。所以我們可能,這只是舉例,每天審查一百個問題。我們有一個完整的標註團隊,他們有評分的標準,然後他們會進去評分,判斷回應是好是壞,是否完整、準確,是否引用了正確的文章,或者是否有更好的文章可以引用。他們會標註所有這些。所以我們每天都在觀察,以這個助理為例,看它是否持續地在預期範圍內,還是出現了大幅度的偏差。如果我們看到它偏離了,那對我們來說顯然是一個巨大的指標,表示有東西壞掉了,而這可能牽涉到很多事情。

但我想我們在人工標註方面很早就學到的一件事是,我們試圖將問題歸類到核心問題中,這對我們至關重要,因為一旦我們這樣做,當我們進行問題分類時,我們就能看到,例如,它總是不斷地拉取不及時的文章。那我們的業務規則一定出了什麼問題,它不再按日期篩選了。

所以當我們思考進入一個由 AI 來做更多審查的世界,並且在推論時就進行,我認為那些業務規則變得非常非常關鍵。而且我認為,這就是為什麼我仍然認為由人類先做第一輪審查很重要,因為我確實認為人類可以批判性地思考那些導致你將問題歸類到某個類別的決策點,然後利用那種主題式的知識並將其提供給 AI,這將幫助 AI 更有效地解決問題。

所以今天我們是 AI 輔助和人工標註兩者結合。我認為它們在效果上是相容的。但當我們能夠讓 AI 一天看 5,000 個標註,而不僅僅是一百個時,它們也幫助我們擴展規模。

迎接 Agentic AI 的挑戰

妳確實讓評估聽起來像是妳已經完全搞定了。所以,我們現在要問妳一個妳還沒搞定的問題,那就是我們即將迎來一個充滿 Agentic AI 的世界。你會有大型語言模型為人們採取行動、呼叫工具。妳認為妳的評估框架將如何擴展到大型語言模型採取行動的情況?這跟讓人工標註員進來說這是好是壞有點不同。

確實。我個人是這樣想的,而且我知道在公司,我們非常謹慎。我們知道從評估開始是多麼關鍵。我認為現在這個 Agentic 的世界裡,問題在於每個人都有 agent。每個產品、工具和工作流程現在都自動成為一個 agent。但對我們來說,當我們想到 agent,我們真正想到的是自主 agent,也就是你剛才談到的所有事情,一個可以自行選擇要使用哪個工具、要採取哪個行動的 agent。

所以,當我們開始更多地思考這個問題時,我實際上更像把它看作一名員工。也就是說,如果你要讓它開始執行這些不同的工作流程並採取行動,那麼你還需要了解 supervisory 應該是什麼樣的。在哪些決策點上,它或許應該詢問人類的意見?我想在像 Morgan Stanley 這樣的地方,這項技術實際應用的早期階段,你會看到更多這樣的情況,因為人類的簽核將會至關重要。

我想你會看到一種結合,可能會有其他的 AI 來擔任守護者的角色,可以這麼說,資深的 AI。沒錯。但這確實開始變得非常複雜。然後當它採取行動時,再次,當我更像把它看作一名員工時,我們也必須有一個類似這些 agent 的註冊表,這個 agent 的目的是什麼?它有權限做什麼?因為這對於我們能夠分類問題、了解哪裡出錯將會非常非常關鍵。所以這就是事情會變得複雜的地方,我認為我們對此還沒有一個很好的答案,因為現在還太早,但這是我們正在大量思考的問題。

這與我們如何建立那個核心基礎框架的指導原則是一樣的,一個每個人都可以遵循的框架,這樣當這項技術在全公司範圍內擴展時,我們就不會出現各種評估這些 agent 方式的偏差。

我們希望在全公司有一種統一的方式,這樣我們就能對所有 agent 在做什麼、它們如何做有一個非常好的了解,如果出了問題,我們就能有效且立即地進行處理。

駕馭變革管理

在我們許多合作案中,我最喜歡的主題之一可能是:如何處理變革管理?妳提到了所有這些事情,像是引進這些工具,聽起來好像很簡單。

對我們 Scale 來說,很棒的一點是,我們看到企業比幾年前更有準備,或許是一種必要的準備,去採用並快速採納新技術。但與此同時,這總是需要人們實際去使用它,人們需要習慣新的工作流程,幾乎是和新型態的同事一起工作。所以,妳們是如何處理變革管理的,尤其是在能夠快速行動並讓大家使用這些工具方面?

嗯,我認為這是一個多面向的方法。一方面,我們有大量的變革管理需要處理,光是我們現有的治理流程就需要。我們許多治理和控制審查都不是為生成式 AI 設計的,它們是為傳統的機器學習流程和程序而建立的。

因此,過去幾年來,作為一家公司,我們經歷了很多變革管理。這要大大歸功於我們的治理和控制合作夥伴,他們真的能夠說「好吧,這是一個新世界。我們如何以不同的方式思考,來改進我們審查這些東西的方式?」因為正如之前提到的,你真的可能永遠卡在治理審查中,永遠出不來。

那是一個方面,然後還有員工方面的變革管理。我們有許多員工舉手說「我們非常興奮,什麼時候能拿到下一個工具?」的同時,我們也有在公司工作了 40 多年、幾乎不怎麼用電腦的員工。所以對我們來說,這是一個多種方法結合的過程,包括大量的媒體參與,製作最佳實踐影片,在內部共享資源,讓大家可以在自己的時間自學。

我覺得過去這一年很酷的一點是,一開始我們推出的影片比較像是「提示工程 101」,而現在我們在談論的是「如何建立一個 Agentic 解決方案?」內容變得更加進階了。所以這還蠻有趣的。

然後我們也做了很多實地操作。在 Morgan Stanley,我們有非常協作的文化。所以我們做了很多與員工的實地合作,就是直接坐在他們的辦公桌旁,問他們「當你每天打開電腦,準備做某項工作時」,我以財富管理助理為例。

我總是對財務顧問說:「我知道你每天都會看市場,因為那是你的工作。我也知道你可能有個特定的客戶每天都會打電話問你 Morgan Stanley 的觀點是什麼。」這就是你在 Morgan Stanley 工作的原因,這樣你才能呈現 Morgan Stanley 的觀點,而不是每天進來,在 Google 上查些東西。

你何不每天進來,在助理中輸入:「根據今天市場發生的事,告訴我今天應該知道的事情,並告訴我 Morgan Stanley 的觀點。」就是創造那個習慣。我從人們那裡得到了很多回饋,他們說「哇,那真的很有影響力。一旦我養成了那個習慣,我就開始使用那個工具了。」

然後我開始了解它所釋放的可能性,現在我用它做一些我甚至不知道它能做的事情。所以我確實認為,這非常複雜。我們是一個在全球擁有 80,000 多名員工的組織。所以也存在著一些細微的差別,比如美國的員工和歐洲的員工擁有的東西不同,這都是因為不同的規定。但我認為我們仍然處於教育和採用的階段。

然後,當然,也要開始向領導層證明我們正在取得的進展,這樣他們才會繼續投入。

快問快答

問題一:在開始開發應用程式之前,你應該準備好一整套評估套組。同意還是不同意?

我只是覺得你在工作中學到很多,一旦你開始使用它,你就會看到發生了什麼。你可能需要添加一些東西,但我的行業也和你的不同。

是的,我想你必須要了解你希望它做什麼,這樣你才能真正評估它做得好不好。因為如果你在開發解決方案的過程中走得太遠,然後才用真實使用者會問的真實問題去測試它,結果發現它對終端使用者來說根本沒用,那你就會發現自己處境不妙。

但當那個高階主管再次要求那首詩的時候呢?沒錯。嗯,對於創意的應用案例,我理解。

問題二:對於大規模的 AI 轉型,企業需要放慢腳步,重視準確性勝於速度。

我個人的觀點是,準確性顯然非常重要,但我討厭把準確性置於一切之上,因為它沒有告訴你利害關係是什麼。很多時候,你可以在不達到某個準確度水平的情況下產生更大的影響,只要你讓人類以適當的方式參與其中,並設置好適當的防護措施。我覺得現在這一點可能更重要,才不會被淘汰。當然,準確性的需求取決於使用案例。

我只想提一下,從我的角度來看,我認為某個地方的某家公司遲早會犯錯。我幾乎可以向你保證,那會是因為他們沒有專注於準確性。所以對我們來說,這就是一個我們絕不妥協的核心原則。我們的老闆們可能非常不同。也許如果我們把「準確性」換成「有用性」,我就會同意這個說法了。

問題三:企業 AI 最大的障礙不是技術,而是人。

(全體同意)

我認為這只是關於如何利用我們已經擁有的東西,我們已經有一些客觀上非常酷、非常有用、非常有價值的東西。我認為如果我們能弄清楚如何圍繞現有的東西來建構產品和團隊,那將會產生很多價值。

我感覺改變總是困難的。所以採納任何新事物都很困難,特別是對於這些工具,我們稍微談到過,使用這些工具是一種非常新的體驗。所以它需要創造力。所以僅僅向人們展示如何從中獲得價值,往往就是一個解決方案。有時候我自己也會看到「哦,這是使用模型的一種非常有創意的方式」,而我從未想過,然後我就可以每天都這樣做了。

而且,這又回到了我最初的說法,那就是用這項技術建立概念驗證很容易。但要真正讓它變得有用是很難的。當我想到我們的員工時,我認為他們才是真正能夠為投資銀行解鎖最酷、最新使用案例的人,遠超過我所能做的。所以我認為他們越是使用它,越是習慣它,越是將它融入他們的工作流程、他們的日常生活中,我和我的團隊就越能利用一些我們甚至不知道可以用 AI 解決的、非常酷的事情。我認為那時魔法才會開始發生。我確實認為在這一點上,人仍然是障礙。

💡 對我們的 AI 研究助手感興趣嗎?

使用 AI 技術革新您的研究流程、提升分析效率並發掘更深層次的洞見。

了解更多