Satya Nadella — 微軟如何為 AGI 做準備

Roger’s Takeaway

微軟CEO Satya Nadella此次採訪中談到蠻多投資人在乎的點,我按照自己的觀點重新整理成以下幾點。

首先是,軟體產商的結構性變化,就類似硬體廠商所稱的摩爾定律,軟體廠商將以瓦每美元的 token 產出價值來衡量。這個價值目前每年是以5倍、10倍的速度在成長。

而GPU、ASIC的選擇上,Satya認為未來將會是都發展,關鍵是TCO (總體擁有成本,Total Cost of Ownership),近期微軟快速擴大資本支出,短期內看起來是買一堆折價的商品,但長期會是一個每五年輪換一次資料中心的平衡,這樣就不會因為一年的過度建設,導致在某個時間點卡住非常多。

在模型層面,Satya不認為會有一個唯一模型,如果有,那大家都關門大吉了。但從他看到的現狀來看,事實上模型『集中化』目前並沒有發生,反而是反向的趨勢,朝多個模型被部署的趨勢。Satya稱此為『數據流動性』,因此從基礎設施、模型與鷹架(scaffolding)層來看,不能只針對一套模型做優化。

微軟也致力於打造自己的模型層MIA,他招攬了Mustafa、Karen、Amar Subramanya、Nando(很多是從Google來的),加上微軟Azure的老將Scott Guthrie,支持自己的模型可以快速進展,儘管目前排名相對靠後。

至於應用服務的定價模式,Satya提到,訂閱制的好處是方便企業做預算,微軟目前什麼定價模式都有,時間會告訴微軟答案。

在最大的問題上,Satya認為,如果全球經濟可以因為新技術的出現而擴大10倍,過去工業革命花了150年,這次能不能壓縮在20年內完成。

我之前整理過,從工業革命以來,英國GDP成長最高的20年中僅僅成長,3.3%,因為工業革命的擴散速度非常慢,事實上,在IT革命也是,第一個電晶體是在1950年代出現,然而一直到1990年代才開始在美國創造5%左右的GDP增速,這意味著新技術的革命並不是馬上發生,根據諾貝爾獎得主Philippe Aghion與Peter Howitt合著的書籍《The power of creative destruction》提到,之所以會延遲這麼久,是因為GPT需要加上大量的次級創新,才能在各行各業落地,而非一下就完成在各行各業的部署,其次是成本的長期下降,才有可能讓此技術受到家庭的採用。

我們可以看到,目前在成本下降方面,AI依靠黃氏定律以每年效能提升十倍,成本降低十倍的速度前進,而應用的部署,目前仍處於早期(僅工程師、客服系統、廣告剛剛被打開),到底AI革命是否能在20年內完成工業革命的成就,我還是維持觀望的態度。

摘要

Microsoft CEO Satya Nadella 與 Dwarkesh Patel 和 Dylan Patel 深入探討公司為通用人工智慧(AGI)時代所做的準備。內容涵蓋 Microsoft 龐大的資料中心建設計畫、與其他 AI 實驗室和超大規模供應商的競爭、從 SaaS 到 AI 驅動消費模式的商業模式演變、與 OpenAI 的合作關係、自家晶片與模型開發(MAI)的進展,以及在主權 AI 的地緣政治格局中的策略。

訪談中提及人物的簡介

Scott Guthrie

Scott Guthrie 是微軟雲端與 AI 部門的執行副總裁,也是公司內部的關鍵領導者。他於 1997 年加入微軟,作為 .NET 平台的共同創辦人,親自開發了 ASP.NET 等核心技術,為微軟奠定了開發者生態系的基礎。2014 年,他接管了當時仍在追趕市場的 Azure 雲端平台,並成功將其打造成為能與 AWS 抗衡的全球第二大雲端服務供應商,這是他職業生涯中的重要事蹟。如今,他的職責已擴展至掌管整個雲端與 AI 業務,包括 Azure、Dynamics 365、GitHub 及微軟的整體 AI 戰略,是推動微軟近年來高速成長的核心人物。

Mustafa Suleyman

他是一位橫跨學術、創業與企業的 AI 領導者,於 2010 年共同創立了影響深遠的 AI 研究公司 DeepMind,並在 2014 年被 Google 收購後擔任應用 AI 部門的負責人。離開 Google 後,他於 2022 年共同創立了 AI 新創公司 Inflection AI。2024 年,他被 Satya Nadella 延攬至微軟,擔任新成立的 Microsoft AI 部門執行長,負責整合並推動包括 Copilot 在內的所有消費者導向的 AI 產品與研究。

Karén Simonyan

他是一位頂尖的 AI 科學家,以其在深度學習領域的開創性研究而聞名,尤其是在牛津大學期間共同開發了極具影響力的 VGGNet 電腦視覺模型。他後來加入 DeepMind 擔任首席研究科學家,並在 AlphaGo 和 AlphaZero 等突破性專案中扮演了關鍵角色。在與 Mustafa Suleyman 共同創立 Inflection AI 之後,他於 2024 年一同加入微軟,擔任 Microsoft AI 部門的首席科學家。

Amar Subramanya

他是一位在 Google 擁有長期且卓越資歷的 AI 工程領導者,在 Google 的十多年職業生涯中,他晉升為工程副總裁,並成為 Google 旗艦大型語言模型 Gemini 專案的核心人物之一,尤其在模型的後訓練(post-training)階段貢獻卓著。2024 年,他從 Google 被挖角至微軟,擔任企業副總裁(CVP),領導新成立的 Microsoft AI 倫敦實驗室,是微軟從競爭對手延攬的關鍵技術人才。

Nando de Freitas

他是一位世界知名的機器學習學者與研究科學家,在學術界(曾任牛津大學教授)和工業界都享有盛譽。他加入 DeepMind 後,領導了多個前沿研究團隊,專注於強化學習與大規模生成模型,其團隊的研究成果是 AlphaCode(能寫程式的 AI)等重要專案的基礎。2024 年,他也從 DeepMind/Google 轉投微軟,加入新成立的 Microsoft AI 倫敦實驗室,為微軟帶來了深厚的基礎研究實力。

Highlight

1.

Scott Guthrie

我們一直試圖每 18 到 24 個月將訓練能力提升 10 倍。所以Fairwater 2 資料中心的規模基本上是 GPT-5 訓練規模的 10 倍。從光纖網路的角度來看,這棟建築中的網路光纖數量,幾乎相當於兩年半前整個 Azure 所有資料中心的總和。

2.

Satya Nadella

我們的目標是能夠為一個大型訓練任務聚合這些浮點運算能力,然後將不同站點的資源整合起來。現實情況是,你會用它來訓練,然後用它來生成資料,再以各種方式用於推論。它不會永遠只用於一種工作負載。

3.

Satya Nadella

我同樣對這個想法感到興奮,認為這可能是自工業革命以來最重大的事件。我從這個前提出發。但同時,我也比較務實,認識到這仍處於早期階段。我們已經創造了一些非常有用的東西,看到了許多很棒的特性,這些規模化定律(scaling laws)似乎也行得通。我樂觀地認為它們會繼續發揮作用。其中一些確實需要真正的科學突破,但同時也涉及大量的工程技術等等。

話雖如此,我也認為過去 70 年的計算機發展,本身就是一個幫助我們前進的過程。我喜歡 Raj Reddy 對 AI 的一個比喻。他是卡內基美隆大學的圖靈獎得主。早在 AGI 出現之前,他就用這個比喻來形容 AI:它應該是「守護天使」或「認知放大器」。我非常喜歡這個說法。它簡單地闡述了 AI 的本質。歸根結底,它對人類的功用是什麼?它將成為一個認知放大器和一個守護天使。如果我這樣看待它,我就會把它視為一種工具。

4.

Satya Nadella

在某種程度上,這又回到了根本問題:經濟增長的藍圖到底會是什麼樣子?公司的形態會如何?生產力又會如何?對我來說,這正是關鍵所在。如果說工業革命……是在擴散了 70 年後,經濟增長才開始顯現。這是另一件需要記住的事。即使這次技術擴散得很快,要實現真正的經濟增長,它必須擴散到足以改變工作、工作產物和工作流程的程度。所以我認為,我們不應低估一個企業要真正改變所需的變革管理。

展望未來,人類和他們產出的 token 是否會獲得更高的槓桿效益,無論是未來的 Dwarkesh token 還是 Dylan token?想想科技的含量。沒有科技,你們能經營 SemiAnalysis 或這個 podcast 嗎?不可能,以你們現在達到的規模,絕無可能。

所以問題是,這個規模會有多大?它會不會因為新技術的出現而擴大 10 倍?絕對會。因此,無論你的營收達到某个數字,還是觀眾數達到某个數字,我認為這就是將會發生的事。重點是,工業革命花了 70 年,甚至 150 年才發生的事,這次可能在 20 年、25 年內發生。如果幸運的話,我希望將工業革命 200 年的歷程壓縮到 20 年內完成。

5.

Satya Nadella

商業模式本身的槓桿作用將保持相似。如果你看從消費者端到企業端的所有模式,總會有某種廣告單位、某種交易、某種為 AI 設備製造商帶來的設備毛利。還會有消費者和企業的訂閱服務,以及基於使用量的消費模式。所以我仍然認為這些都是計價方式。

至於你的問題,什麼是訂閱?到目前為止,人們喜歡訂閱是因為他們可以為此做預算。訂閱本質上是一種權利,讓使用者在訂閱範圍內享有一定的使用量。所以我認為這在某種程度上變成了一個定價決策。你被賦予多少使用權利,如果你看看所有程式碼相關的訂閱服務,它們基本上就是這樣,對吧?然後你會有專業版、標準版等等。所以我認為定價和利潤結構將會這樣分層。

有趣的是,對 Microsoft 來說,好消息是我們在所有這些計價模式中都有業務。在我們的產品組合層面,我們幾乎涵蓋了從消費模式、訂閱服務到所有其他消費者槓桿。我認為時間會告訴我們,哪些模式在哪個類別中更合理。

6.

我喜歡這張圖表有很多原因。第一,我們仍然在頂端。第二,這裡列出的所有公司都是在過去四、五年內誕生的。對我來說,這是最好的跡象。你有新的競爭對手,新的生存問題。當你問,現在是誰?Claude 會幹掉你,Cursor 會幹掉你,但不是 Borland。謝天謝地。這意味著我們走在正確的方向上。

就是這樣。我們從無到有達到這個規模,這就是市場的擴張。這就像雲端那樣。從根本上說,程式碼和 AI 這個類別可能會成為最大的類別之一。它是軟體工廠的類別。事實上,它可能比知識工作更大。我對此持開放態度。

我們將面臨激烈的競爭。這是你的觀點,而且是一個很好的觀點。但我很高興我們已經將我們所擁有的轉化為現在的成就,現在我們必須去競爭。在競爭方面,即使在剛結束的上一季,我們發布了季度財報,我想我們的訂閱用戶從 2000 萬增長到了 2600 萬。我對我們的訂閱增長和發展方向感到滿意。

猜猜所有那些生成大量程式碼的傢伙們的程式碼庫(repos)都去了哪裡?它們都去了 GitHub。GitHub 在程式碼庫創建、拉取請求(PRs)等各方面都創下了歷史新高。在某種程度上,我們希望保持這種開放性。這意味著我們希望擁有它。我們不想將它與我們自己的增長混為一談。有趣的是,我認為我們的統計數據是,每秒鐘就有一個開發者加入 GitHub。其中 80% 的人會自然而然地融入某種 GitHub Copilot 的工作流程中,因為它就在那裡。順帶一提,許多這些工具甚至會使用我們的程式碼審查代理,這些代理是預設開啟的,因為你可以直接使用。我們將會有很多結構性的機會。我們還將做的是我們對 Git 所做的事情。GitHub 的基礎元素,從 Git 開始,到 issues、actions,這些都是強大而美好的東西,因為它們都圍繞著你的程式碼庫構建。我們希望擴展這一點。

7.

Satya Nadella

在某種程度上,這一切都不是在使用者介面包裝層級用某個提示(prompt)完成的,而是在中介層透過教導它所有 Excel 的工具來完成的。我基本上是給它一個 markdown 文件,來教導它成為一個熟練的 Excel 使用者所需的技能。這有點奇怪,它有點回到了 AI 大腦的概念。你不是在建立傳統意義上的 Excel 商業邏輯。你是在拿傳統意義上的 Excel 商業邏輯,然後用這個知道如何使用工具的模型,為它包裹上一層認知層。在某種程度上,Excel 將會內建一個分析師和所有使用的工具。這就是每個人都會打造的東西。

所以即使對於模型公司來說,他們也必須競爭。如果他們定價過高,猜猜會發生什麼,如果我是一個像這樣的工具的開發者,我就會替換掉你。我可能會用你一陣子。所以只要有競爭……總會有贏家通吃的局面。如果有一個模型比其他所有模型都好,而且差距巨大,是的,那就是贏家通吃。但只要有多個模型存在競爭,就像超大規模運算的競爭一樣,並且有一個開源的選項,那麼在模型之上建立價值就有足夠的空間。

在 Microsoft,我看的角度是,我們將會從事超大規模運算業務,這將支持多個模型。我們在未來七年內將可以使用 OpenAI 的模型,我們將在其基礎上進行創新。基本上,我認為我們擁有一個前沿級別的模型,我們可以靈活地使用和創新。我們也將用 MAI 打造我們自己的模型。所以我們將永遠擁有一個模型層級。然後我們將會建立——無論是在安全性、知識工作、程式開發還是科學領域——我們自己的應用鷹架(application scaffolding),這將是模型優先的。它不會是一個模型的包裝,而是模型將被包裹在應用程式中。

8.

Satya Nadella

公司的未來將是工具業務,我有電腦,我用 Excel。事實上,未來我甚至會有一個 Copilot,那個 Copilot 也會有代理。但仍然是我在主導一切,一切都回歸到我這裡。這是一個世界。

第二個世界是,公司直接為一個 AI 代理配置一個計算資源,而這個代理是完全自主工作的。那個完全自主的代理將會擁有一套內建的、可供其使用的相同工具。所以這個 AI 工具不僅僅配備了一台原始的電腦,因為使用工具來完成工作會更具 token 效率。

事實上,我有點這樣看,我們今天的業務是終端使用者工具業務,未來將變成一個支持代理工作的基礎設施業務。這是另一種思考方式。事實上,我們在 M365 底層建立的所有東西仍然非常重要。你需要一個地方來儲存它,一個地方來存檔,一個地方來做資料搜尋(discovery),一個地方來管理所有這些活動,即使你是一個 AI 代理。這是一個新的基礎設施。

9.

Dylan Patel

我的理解是,這些模型公司都在建立環境來訓練他們的模型使用 Excel 或 Amazon 購物,或是訂機票等等。但同時,他們也在訓練這些模型進行遷移。因為這可能是當下最有價值的事情:將基於主機(mainframe-based)的系統轉換為標準的雲端系統,將 Excel 資料庫轉換為帶有 SQL 的真實資料庫,或者將在 Word 和 Excel 中完成的工作轉換為更程式化、更有效率的,在傳統意義上人類也能完成但對軟體開發者來說成本效益不高的東西。

這似乎是未來幾年每個人都會用 AI 來做的事情,以大規模地創造價值。如果模型可以利用工具本身遷移到其他地方,Microsoft 如何融入其中?是的,Microsoft 在資料庫、儲存和所有這些其他類別中都處於領先地位,但 Office 生態系統的使用將會顯著減少,就像主機生態系統的使用可能會減少一樣。不過主機在過去二十年裡實際上一直在增長,儘管現在沒人再談論它們了。它們仍然在增長。

Satya Nadella

百分之百,我同意這一點。

歸根結底,在相當長的一段時間內,世界將會是混合的,因為人們會使用工具,而這些工具將與必須使用工具的代理一起工作,並且它們需要相互溝通。我生成的產物是什麼,然後人類需要看到什麼?所有這些在任何地方,無論是輸出還是輸入,都將是實際的考量。我認為這不會只是關於「哦,我遷移了」。底線是,我必須生活在這個混合的世界裡。

10.

Satya Nadella

首先,我們絕對會在我們所有的產品中最大程度地使用 OpenAI 的模型。這是我們在未來七年內將繼續做的核心事情,不僅僅是使用它,還要為它增值。這就是分析師和這個 Excel 代理的用武之地,這些都是我們將要做的事情,我們將進行強化學習微調(RL fine-tuning)。我們將在 GPT 家族的基礎上進行一些中期訓練,利用我們獨特的數據資產來建立能力。

對於 MAI 模型,我認為我們的思考方式是,新協議的好消息是,我們可以非常、非常清楚地表明,我們將建立一個世界級的超級智慧團隊,並以雄心壯志去追求它。但同時,我們也將利用這段時間來聰明地運用這兩者。這意味著我們將一方面非常專注於產品,另一方面非常專注於研究。因為我們可以使用 GPT 家族,我最不想做的事情就是以一種只是重複且沒有太多附加價值的方式使用我的浮點運算能力(flops)。

即使在 LMArena 上,我們從文本模型開始,它首次亮相時排名第 13。順帶一提,它只用了大約 15,000 個 H100 進行訓練。那是一個非常小的模型。所以,這也是為了證明我們的核心能力,指令遵循能力以及其他一切。我們想確保我們能達到當時最先進的水平。這向我們展示了,考慮到規模化定律,如果我們給它更多的浮點運算能力,我們能做到什麼。我們下一步將做的是一個全能模型(omni-model),我們將整合我們在音訊、圖像和文本方面所做的工作。這將是 MAI 方面的下一個里程碑。

所以當我思考 MAI 的路線圖時,我們將會建立一個一流的超級智慧團隊。我們將繼續公開發布一些這樣的模型。它們要麼會用在我們的產品中,因為它們在延遲和成本上更友好,或者它們會有某些特殊能力。我們將進行真正的研究,以便為未來五、六、七、八年內在這個朝向超級智慧的征途上所需的所有突破做好準備——同時利用我們擁有 GPT 家族的優勢,我們也可以在其基礎上進行工作。

11.

Satya Nadella

我們將建立一個世界級的團隊,而且我們已經開始組建一個世界級的團隊了。我們有 Mustafa 加入,我們有 Karen。我們有 Amar Subramanya,他在 Gemini 2.5 做了很多後訓練工作,現在在 Microsoft。Nando,他在 DeepMind 做了很多多媒體工作,也在這裡。我們將建立一個世界級的團隊。

我希望全世界知道的是,我們將建立支持多種模型的基礎設施。

其次,在我們自己的模型能力方面,我們絕對會在我們的產品中使用 OpenAI 的模型,並且我們將開始建立我們自己的模型。

12.

Satya Nadella

你的觀點是,如果只有一個模型,是世界上部署最廣泛的唯一模型,它能看到所有數據並進行持續學習,那遊戲就結束了,大家都可以關門大吉了。但至少我看到的現實是,在今天的世界裡,儘管任何一個模型都可能佔據主導地位,但情況並非如此。以程式碼為例,有多種模型存在。事實上,這種情況每天都在減少。沒有一個模型被廣泛部署。而是有多個模型被部署。這就像資料庫一樣。人們總是在想,「一個資料庫能否成為到處都使用的那個?」但事實並非如此。有多種類型的資料庫被部署用於不同的使用案例。

我認為持續學習會帶來一些網路效應——我稱之為數據流動性——這是任何一個模型都具備的。它會在所有領域都發生嗎?我不這麼認為。它會在所有地區都發生嗎?我不這麼認為。它會在所有市場區隔都發生嗎?我不這麼認為。它會同時在所有類別中發生嗎?我也不這麼認為。因此,我覺得設計空間如此之大,以至於有大量的機會。

但你的根本觀點是,擁有一個在基礎設施層、模型層和鷹架(scaffolding)層的能力,然後不僅僅是作為一個垂直堆疊來組合這些東西,而是能夠為每個東西的目的來組合它們。你不能建立一個只為一個模型優化的基礎設施。

13.

Satya Nadella

我們做出的一個關鍵決定是,如果我們要將 Azure 打造成在 AI 的各個階段——從訓練到中期訓練、數據生成再到推論——都表現出色,我們就需要機隊的彈性可替換性(fungibility)。所以這整個考量讓我們決定不去用特定世代的技術來建造大量的容量。

到目前為止,我們每 18 個月為各種 OpenAI 模型將訓練能力提升 10 倍,我們意識到關鍵是保持這個步伐。但更重要的是要有一個平衡,不僅僅是訓練,還要能夠在世界各地提供這些模型的服務。因為歸根結底,是貨幣化的速度決定了我們能否持續投入資金。而且基礎設施需要我們支持多種模型。

如果我看我們現在的路線,我們現在開始了更多的建設。我們也在盡可能多地購買託管容量,無論是自建、租賃,甚至是 GPU 即服務。但我們是根據我們看到的需求、服務需求和訓練需求來建設的。我們不想僅僅成為一家公司的託管商,只與一個客戶有大量的業務往來。那不是一個生意,你應該與那家公司進行垂直整合。

另一件事是,我不想被某一代技術的大規模部署所束縛。我們剛看到了 GB200,GB300 也快來了。等到 Vera Rubin、Vera Rubin Ultra 出現時,資料中心的樣貌將會截然不同,因為每個機櫃、每排機櫃的功耗將會大不相同。冷卻需求也將截然不同。這意味著我不想只為了某一代、某個系列的產品去建造數個 GW 的電力容量。所以我認為,建設的節奏很重要,彈性可替換性和地點很重要,工作負載的多樣性很重要,客戶的多樣性也很重要,這就是我們正在努力的方向。

我們學到的另一件事是,每個 AI 工作負載不僅需要 AI 加速器,還需要很多其他東西。事實上,我們的很多利潤結構將來自那些其他東西。因此,我們希望將 Azure 打造成對長尾工作負載非常出色的平台,因為這才是超大規模業務的本質,同時我們也知道,從裸機(bare-metal)開始,我們必須在最高階的訓練上具有超強的競爭力。

14.

Satya Nadella

你必須思考的不是未來五年要做什麼,而是未來五十年要做什麼。我們做出了我們的決定。我對我們與 OpenAI 的合作關係以及我們正在做的事情感到非常滿意。我們有相當可觀的業務。我們祝他們取得巨大的成功。事實上,我們也是 Oracle 容量的購買者。我們祝他們成功。

我會追蹤你們的數據,無論是 AWS、Google 還是我們的,我認為這非常有用。但這並不意味著我必須追逐那些數字。我追逐它們,不僅僅是為了它們在某個時期可能代表的毛利率。Microsoft 獨特能完成的,對我們來說有意義的業務是什麼?這才是我們要做的事。

15.

Dwarkesh Patel

直接使用 Azure 的長尾客戶是誰?

Satya Nadella

所有模型都將在 Azure 上提供,所以任何工作負載說:「嘿,我想用一些開源模型和一個 OpenAI 模型」,如果你今天去 Azure Foundry,你會發現所有這些模型你都可以配置、購買 PTU(Processing Time Units)、獲得一個 Cosmos DB、一個 SQL DB、一些儲存和一些計算資源。這才是一個真實工作負載的樣子。一個真實的工作負載不僅僅是對一個模型的 API 呼叫。一個真實的工作負載需要所有這些東西才能建立或實例化一個應用程式。

事實上,模型公司需要這些才能建立任何東西。這不僅僅是像,「我有一個 token 工廠」。我必須擁有所有這些東西。這就是超大規模業務。而且它不依賴於任何單一模型,而是所有這些模型。所以如果你想要 Grok 加上,比如說,OpenAI 加上一個開源模型,來 Azure Foundry,配置它們,建立你的應用程式。這裡有一個資料庫。這就是這個業務的本質。

16.

Satya Nadella

我們從 Nvidia 那裡學到的最大教訓之一是,他們在遷移方面的步伐加快了。

我不想因為一代產品而被套牢四五年的折舊。事實上,Jensen 給我的建議有兩點。第一是,要以光速執行。這就是為什麼這個亞特蘭大資料中心的執行速度……從我們拿到它到交給一個真正的工作負載,大概是 90 天。這在那個方面是真正的光速執行。我想在這方面做得很好。

然後這樣我就可以在擴展中建立每一代產品。然後每五年,你就會有一個更平衡的東西。所以它實際上就像一個大規模工業運營的流程,你突然不會變得不平衡,你不會在一個時間點建立了很多,然後因為你被所有這些東西困住而暫停很長時間。所以這些都是考量。

17.

Dwarkesh Patel

你提到這個會貶值的資產,在五六年內,佔了資料中心總擁有成本(TCO)的 75%。而 Jensen 在這上面賺了 75% 的利潤。所以所有超大規模供應商都在試圖開發自己的加速器,以便降低這項壓倒性的設備成本,增加他們的利潤。

Satya Nadella

第一,任何新加速器的最大競爭對手,甚至可以說是 Nvidia 的上一代產品。在一個機隊中,我要看的是整體的總擁有成本(TCO)。我對我們自己的產品設定的標準……順帶一提,我剛看了 Maia 200 的數據,看起來很棒,但我們在計算方面學到的一件事是……我們以前有很多 Intel,然後我們引入了 AMD,然後我們引入了 Cobalt。我們就是這樣擴展的。我們至少在核心計算方面有很好的實踐證明,如何建立自己的晶片,然後管理一個三者在某種平衡中共存的機隊。

即使是 Google 也在買 Nvidia,Amazon 也是。這很合理,因為 Nvidia 在創新,而且它是通用的。所有模型都能在上面運行,客戶需求也在那裡。因為如果你建立自己的垂直整合產品,你最好有自己的模型,要麼用它來訓練,要麼用它來推論,而且你必須為它創造自己的需求,或者補貼它的需求。所以你要確保你適當地擴展它。

我們要做的方式是在我們自己的 MAI 模型和我們的晶片之間建立一個閉環,因為我覺得這才給了你做自己晶片的權利,你實際上是根據你正在做的事情來設計微架構,然後你與自己的模型保持同步。

18.

Satya Nadella

我認為你提到的結構性變化是巨大的。我將其描述為我們現在既是一個資本密集型企業,也是一個知識密集型企業。事實上,我們必須利用我們的知識來提高資本支出的投資回報率(ROIC)。

硬體廠商在行銷摩爾定律方面做得非常出色,我認為這令人難以置信,而且很棒。但如果你看看我在財報電話會議上提供的一些數據,對於某個特定的 GPT 家族,我們在軟體上實現的吞吐量提升,以每瓦每美元的 token 產出來衡量,季度之間、年度之間的提升是巨大的。在某些情況下,可能是 5 倍、10 倍,甚至 40 倍,僅僅是因為你可以如何優化。這就是知識密集度帶來資本效率的體現。在某種程度上,這是我們必須掌握的。

有些人問我,傳統的託管商和超大規模供應商有什麼區別?軟體。是的,它是資本密集的,但只要你有系統知識、軟體能力,能夠按工作負載、按機隊進行優化……這就是為什麼當我們說彈性可替換性(fungibility)時,裡面有這麼多的軟體。這不僅僅是關於機隊本身。

這是驅逐一個工作負載然後安排另一個工作負載的能力。

逐字稿

Satya Nadella — 微軟如何為 AGI 做準備

Dwarkesh Patel

今天我們採訪 Satya Nadella。「我們」指的是我和 SemiAnalysis 的創辦人 Dylan Patel。Satya,歡迎你。

Satya Nadella

謝謝。很高興。謝謝你們來到亞特蘭大。

Dwarkesh Patel

謝謝你帶我們參觀這個新設施。看到這一切真的很酷。

Satya Nadella

當然。

Dwarkesh Patel

Satya 和 Microsoft 雲端與 AI 執行副總裁 Scott Guthrie 帶我們參觀了他們全新的 Fairwater 2 資料中心,這是目前世界上最強大的資料中心。

Scott Guthrie

我們一直試圖每 18 到 24 個月將訓練能力提升 10 倍。所以這裡的規模基本上是 GPT-5 訓練規模的 10 倍。從光纖網路的角度來看,這棟建築中的網路光纖數量,幾乎相當於兩年半前整個 Azure 所有資料中心的總和。

Satya Nadella

這裡大概有五百萬個網路連接。

Dwarkesh Patel

你們在一個地區的不同站點之間,以及兩個地區之間都擁有這麼大的頻寬。這是否意味著你們對未來的擴展性下了一個大賭注,預期未來會有某個巨大的模型需要動用兩個完整的地區來進行訓練?

Satya Nadella

我們的目標是能夠為一個大型訓練任務聚合這些浮點運算能力,然後將不同站點的資源整合起來。現實情況是,你會用它來訓練,然後用它來生成資料,再以各種方式用於推論。它不會永遠只用於一種工作負載。

Scott Guthrie

你將會看到附近正在建設的 Fairwater 4,它也將連接到那個 petabit 網路上,這樣我們就可以用非常高的速率將兩者連接起來。然後,我們透過 AI 廣域網路(WAN)連接到 Milwaukee,那裡我們正在建造多個其他的 Fairwater 資料中心。

Satya Nadella

你可以清楚地看到模型平行化(model parallelism)和資料平行化(data parallelism)。這基本上是為整個園區的訓練任務和超級電腦叢集(super pods)而設計的。然後透過廣域網路,你可以連接到威斯康辛州的資料中心。你可以將所有這些資源聚合起來,運行一個訓練任務。

Scott Guthrie

我們現在看到的是一個還沒有伺服器、沒有機櫃的機房單元(cell)。

Dylan Patel

一個單元裡有多少個機櫃?

Scott Guthrie

我們通常不透露這個數字,但是……

Dylan Patel

這就是我問的原因。

Scott Guthrie

你到樓上就會看到了。

Dylan Patel

我會開始數的。

Scott Guthrie

你可以開始數。我們會讓你數的。

Dylan Patel

這棟建築裡有多少個這樣的單元?

Scott Guthrie

這個我也不能告訴你。

Dwarkesh Patel

嗯,用除法算很簡單。

Satya Nadella

天啊,這裡有點吵。

Dwarkesh Patel

你看到這些時,是不是在想:「現在我知道我的錢花到哪裡去了。」

Satya Nadella

這感覺就像是:「我經營的是一家軟體公司。歡迎來到軟體公司。」

Dwarkesh Patel

一旦你們決定使用 GB200 和 NVLink,設計空間還有多大?還有多少其他的決策需要做?

Satya Nadella

模型架構與最佳化的實體規劃之間存在著耦合關係。從這個意義上說,這也挺嚇人的,因為總會有新的晶片問世。以 Vera Rubin Ultra 為例,它的功率密度將會截然不同,冷卻需求也會大相徑庭。所以你不會想把所有東西都按照同一個規格來建造。這又回到了我們將要討論的話題,那就是你希望能夠隨著時間擴展,而不是一次性擴展然後就被困住。

Dylan Patel

回顧過去所有的技術轉型——無論是鐵路、網際網路、可替換零件、工業化,還是雲端——每一次革命從技術發現到普及並滲透到經濟中的速度都越來越快。許多上過 Dwarkesh 播客的來賓都認為,這是最後一次技術革命或轉型,而且這一次非常、非常不同。

至少到目前為止,在市場上,我們在三年內就看到超大規模資料中心業者明年的資本支出(capex)飆升至 5000 億美元,這個速度是先前任何革命都無法比擬的。最終狀態似乎也大不相同。你對此的看法,似乎與那些高喊「AGI 就要來了」的「AI 兄弟」們很不一樣。我想更了解你的想法。

Satya Nadella

我同樣對這個想法感到興奮,認為這可能是自工業革命以來最重大的事件。我從這個前提出發。但同時,我也比較務實,認識到這仍處於早期階段。我們已經創造了一些非常有用的東西,看到了許多很棒的特性,這些規模化定律(scaling laws)似乎也行得通。我樂觀地認為它們會繼續發揮作用。其中一些確實需要真正的科學突破,但同時也涉及大量的工程技術等等。

話雖如此,我也認為過去 70 年的計算機發展,本身就是一個幫助我們前進的過程。我喜歡 Raj Reddy 對 AI 的一個比喻。他是卡內基美隆大學的圖靈獎得主。早在 AGI 出現之前,他就用這個比喻來形容 AI:它應該是「守護天使」或「認知放大器」。我非常喜歡這個說法。它簡單地闡述了 AI 的本質。歸根結底,它對人類的功用是什麼?它將成為一個認知放大器和一個守護天使。如果我這樣看待它,我就會把它視為一種工具。

但你也可以用非常神秘的方式來看待它,說它不僅僅是一個工具。它能做所有這些以前只有人類能做的事情。但過去許多技術也是如此。以前有很多事情只有人類能做,後來我們有了能做這些事的工具。

Dwarkesh Patel

我們不必糾結於定義,但可以這樣想:也許需要五年、十年、二十年。在某個時刻,機器終將能產出「Satya tokens」,而 Microsoft 的董事會認為這些「Satya tokens」非常有價值。

Dylan Patel

你採訪 Satya 是在浪費多少經濟價值?

Dwarkesh Patel

我可付不起「Satya tokens」的 API 費用。不管你怎麼稱呼它,「Satya tokens」是工具還是代理(agent),都無所謂。現在,如果模型的成本是每百萬個 token 幾美元或幾美分,那麼利潤擴展的空間就非常巨大,因為一百萬個 Satya 的 token 價值連城。我的問題是,這份利潤會流向何方?Microsoft 在其中佔有多少比例?

Satya Nadella

在某種程度上,這又回到了根本問題:經濟增長的藍圖到底會是什麼樣子?公司的形態會如何?生產力又會如何?對我來說,這正是關鍵所在。如果說工業革命……是在擴散了 70 年後,經濟增長才開始顯現。這是另一件需要記住的事。即使這次技術擴散得很快,要實現真正的經濟增長,它必須擴散到足以改變工作、工作產物和工作流程的程度。所以我認為,我們不應低估一個企業要真正改變所需的變革管理。

展望未來,人類和他們產出的 token 是否會獲得更高的槓桿效益,無論是未來的 Dwarkesh token 還是 Dylan token?想想科技的含量。沒有科技,你們能經營 SemiAnalysis 或這個 podcast 嗎?不可能,以你們現在達到的規模,絕無可能。

所以問題是,這個規模會有多大?它會不會因為新技術的出現而擴大 10 倍?絕對會。因此,無論你的營收達到某个數字,還是觀眾數達到某个數字,我認為這就是將會發生的事。重點是,工業革命花了 70 年,甚至 150 年才發生的事,這次可能在 20 年、25 年內發生。如果幸運的話,我希望將工業革命 200 年的歷程壓縮到 20 年內完成。

Dylan Patel

Microsoft 過去一直是或許是最偉大的軟體公司,也是最大的軟體即服務(SaaS)公司。你們經歷過一次轉型,從過去銷售 Windows 授權和光碟,到現在銷售 Microsoft 365 的訂閱服務。

當我們從那次轉型看到你們今日的業務,會發現之後還有另一場轉型正在發生。軟體即服務的每位使用者增量成本極低。它有很高的研發成本和客戶獲取成本。這也是為什麼,不是 Microsoft,而是許多 SaaS 公司在市場上表現非常差的原因,因為 AI 的銷貨成本(COGS)太高了,這完全打破了這些商業模式的運作方式。

作為或許是最偉大的軟體即服務公司,你如何帶領 Microsoft 轉型到這個銷貨成本至關重要、且每位使用者增量成本不同的新時代?因為現在你們的收費方式是:「嘿,Copilot 每月 20 美元。」

Satya Nadella

這是一個很好的問題,因為在某種程度上,商業模式本身的槓桿作用將保持相似。如果你看從消費者端到企業端的所有模式,總會有某種廣告單位、某種交易、某種為 AI 設備製造商帶來的設備毛利。還會有消費者和企業的訂閱服務,以及基於使用量的消費模式。所以我仍然認為這些都是計價方式。

至於你的問題,什麼是訂閱?到目前為止,人們喜歡訂閱是因為他們可以為此做預算。訂閱本質上是一種權利,讓使用者在訂閱範圍內享有一定的使用量。所以我認為這在某種程度上變成了一個定價決策。你被賦予多少使用權利,如果你看看所有程式碼相關的訂閱服務,它們基本上就是這樣,對吧?然後你會有專業版、標準版等等。所以我認為定價和利潤結構將會這樣分層。

有趣的是,對 Microsoft 來說,好消息是我們在所有這些計價模式中都有業務。在我們的產品組合層面,我們幾乎涵蓋了從消費模式、訂閱服務到所有其他消費者槓桿。我認為時間會告訴我們,哪些模式在哪個類別中更合理。

關於 SaaS,既然你提到了,這是我經常思考的一點。以 Office 365 或 Microsoft 365 為例。擁有較低的每用戶平均收入(ARPU)是件好事,因為這裡有個有趣的地方。在從伺服器轉向雲端的過程中,我們曾經問過自己一個問題:「天啊,如果我們只是把原來使用我們 Office 授權和 Office 伺服器的用戶轉移到雲端,然後我們還要承擔銷貨成本(COGS),這不僅會壓縮我們的利潤,還會讓我們從根本上成為一家利潤較低的公司。」

但結果是,轉向雲端極大地擴展了市場。我們在印度只賣了幾台伺服器,銷量並不大。然而在雲端時代,突然間印度的每個人都能以零買的方式負擔得起伺服器,降低了 IT 成本。事實上,我之前沒意識到的一件大事是,人們過去花在 SharePoint 底層儲存上的錢有多少。EMC 最大的業務板塊可能就是 SharePoint 的儲存伺服器。所有這些在雲端時代都消失了,因為沒有人需要再去購買。事實上,這是一種營運資金的支出,基本上是現金流出。所以,雲端極大地擴展了市場。

所以這次的 AI 也會是這樣。以程式開發為例,我們用數十年時間打造了 GitHub 和 VS Code,突然之間,程式碼助理在一年內就變得如此龐大。我認為這也會發生,也就是市場會大規模擴張。

Dwarkesh Patel

問題是,市場會擴張,但接觸到 Microsoft 的那部分營收會擴張嗎?Copilot 就是一個例子。根據 Dylan 的數據,今年早些時候,GitHub Copilot 的營收大約是 5 億美元,而且沒有什麼實質的競爭對手。但現在,你有 Claude Code、Cursor 和 Copilot,營收都差不多,大約在 10 億美元左右。Codex 也在追趕,大約是 7 到 8 億美元。所以問題是,在 Microsoft 能夠觸及的所有平台上,Microsoft 版本的 Copilot 有什麼優勢?

Satya Nadella

順帶一提,我喜歡這張圖表。

我喜歡這張圖表有很多原因。第一,我們仍然在頂端。第二,這裡列出的所有公司都是在過去四、五年內誕生的。對我來說,這是最好的跡象。你有新的競爭對手,新的生存問題。當你問,現在是誰?Claude 會幹掉你,Cursor 會幹掉你,但不是 Borland。謝天謝地。這意味著我們走在正確的方向上。

就是這樣。我們從無到有達到這個規模,這就是市場的擴張。這就像雲端那樣。從根本上說,程式碼和 AI 這個類別可能會成為最大的類別之一。它是軟體工廠的類別。事實上,它可能比知識工作更大。我對此持開放態度。

我們將面臨激烈的競爭。這是你的觀點,而且是一個很好的觀點。但我很高興我們已經將我們所擁有的轉化為現在的成就,現在我們必須去競爭。在競爭方面,即使在剛結束的上一季,我們發布了季度財報,我想我們的訂閱用戶從 2000 萬增長到了 2600 萬。我對我們的訂閱增長和發展方向感到滿意。

但更有趣的是,猜猜所有那些生成大量程式碼的傢伙們的程式碼庫(repos)都去了哪裡?它們都去了 GitHub。GitHub 在程式碼庫創建、拉取請求(PRs)等各方面都創下了歷史新高。在某種程度上,我們希望保持這種開放性。這意味著我們希望擁有它。我們不想將它與我們自己的增長混為一談。有趣的是,我認為我們的統計數據是,每秒鐘就有一個開發者加入 GitHub。其中 80% 的人會自然而然地融入某種 GitHub Copilot 的工作流程中,因為它就在那裡。順帶一提,許多這些工具甚至會使用我們的程式碼審查代理,這些代理是預設開啟的,因為你可以直接使用。我們將會有很多結構性的機會。我們還將做的是我們對 Git 所做的事情。GitHub 的基礎元素,從 Git 開始,到 issues、actions,這些都是強大而美好的東西,因為它們都圍繞著你的程式碼庫構建。我們希望擴展這一點。

上週在 GitHub Universe 大會上,我們所做的就是這個。我們說 Agent HQ 是我們將要打造的概念性產品。在這裡,舉個例子,你有一個叫做 Mission Control 的東西。你進入 Mission Control,現在我可以啟動任務。有時我把它描述成所有這些 AI 代理的「有線電視」,因為我基本上會把 Codex、Claude、Cognition 的東西、任何人的代理、Grok,所有這些都打包到一個訂閱裡。所以我得到一個套餐,然後我就可以發布一個任務並引導它們,它們會在各自獨立的分支中工作。我可以監控它們。我認為這將是創新的最大領域之一,因為現在我希望能使用多個代理。我希望能消化多個代理的輸出。然後我希望能掌控我的程式碼庫。

如果需要建立某種抬頭顯示器(heads-up display),讓我能快速引導和分類程式碼代理生成的內容,對我來說,在 VS Code、GitHub 以及我們將作為 Mission Control 建立的所有這些新基礎元素之間,搭配一個控制平台。可觀察性……想想每個將要部署這一切的人。這將需要一整套可觀察性工具,來了解哪個代理在什麼時間對哪個程式碼庫做了什麼。我認為這就是機會所在。

歸根結底,你的觀點很有道理,那就是我們最好保持競爭力並不斷創新。如果我們不這樣做,我們就會被推翻。但我喜歡這張圖表,至少只要我們還在頂端,即使有競爭。

Dylan Patel

這裡的關鍵點在於,無論誰的程式碼代理獲勝,GitHub 都會持續成長。但那個市場的年增長率大概只有 10%、15%、20%,這遠高於 GDP。它是一個很棒的複利增長引擎。但這些 AI 程式碼代理的成長速度驚人,從去年底大約 5 億美元的營運率(run rate)——當時只有 GitHub Copilot——到現在,GitHub Copilot、Claude Code、Cursor、Cognition、Windsurf、Replit、OpenAI Codex……整個市場在今年第四季的營運率已經達到 50 到 60 億美元。這是 10 倍的增長。

當你審視軟體代理的潛在市場總額(TAM)時,它是你支付給人們的 2 兆美元工資,還是超越這個數字?因為世界上每家公司現在都能更有效率地開發軟體?毫無疑問,Microsoft 會從中分一杯羹。但你們的市佔率在短短一年內,從接近 100%,或肯定遠高於 50%,下降到不到 25%。人們憑什麼相信 Microsoft 會繼續贏下去?

Satya Nadella

Dylan,這有點回到了一個觀點,那就是這裡沒有什麼是理所當然的,我們不應該有任何信心,除了去創新。我們所擁有的幸運突破是,這個類別將會比我們過去擁有高市佔率的任何領域都大得多。讓我這樣說吧。你可以說我們在 VS Code 中有很高的市佔率,在 GitHub 的程式碼庫中有很高的市佔率,那是一個很好的市場。但重點是,即使在一個更廣闊的市場中擁有一個不錯的市佔率……

你可以說我們在客戶端-伺服器運算(client-server computing)中有很高的市佔率。我們在超大規模運算(hyperscale)中的市佔率遠低於此。但它是不是一個更大的業務?是的,大了好幾個數量級。所以至少這是一個存在的證明,即使我們的市佔率不如從前那麼強大,只要我們競爭的市場在創造更多價值,Microsoft 依然可以過得很好。而且市場上可以有多個贏家。就是這樣。

但我同意你的觀點,歸根結底,這一切都意味著你必須具有競爭力。我每季都在關注這一點。這就是為什麼我對我們將用 Agent HQ 做的事情非常樂觀,將 GitHub 變成一個所有這些代理聚集的地方。正如我所說,我們在那裡將會有多個成功的機會。不一定……其中一些公司可以和我們一起成功,所以不需要只有一個贏家和一個訂閱。

Dwarkesh Patel

我想我們之所以關注這個問題,不僅僅是關於 GitHub,而是根本上關於 Office 和 Microsoft 提供的所有其他軟體。對於 AI 的發展,一種看法是,模型將持續受到限制,你需要隨時進行直接可見的觀察。

另一種看法是,隨著時間的推移,這些現在執行需要兩分鐘任務的模型,未來將會執行需要 10 分鐘、30 分鐘的任務。再往後,它們或許能自主完成數天的工作。到那時,模型公司可能會收取數千美元的費用,讓你接觸到一個真正的「同事」,這個同事可以使用任何使用者介面與人類溝通,並在不同平台之間遷移。

如果我們越來越接近那種情況,為什麼不是那些越來越賺錢的模型公司拿走了所有的利潤?為什麼隨著 AI 變得越來越強大,那些負責「搭建鷹架」(scaffolding)的工作變得越來越不重要的地方,還會那麼重要?這就涉及到現有的 Office,以及那些僅僅在做知識工作的「同事」。

Satya Nadella

這是一個很好的觀點。所有的價值是會全部轉移到模型上,還是在鷹架(scaffolding)和模型之間分配?我想時間會證明一切。但我的基本觀點是,激勵結構會變得很清晰。以資訊工作為例,或者甚至以程式開發為例。事實上,我在 GitHub Copilot 中最喜歡的一個設定叫做「自動(auto)」,它會自動進行優化。我買一個訂閱,然後「自動」模式就會開始為我所要求的任務挑選並優化。它甚至可以是完全自主的。它可以在多個模型之間套利可用的 token 來完成一項任務。

如果你接受這個論點,那麼模型就會變成商品。特別是有了開源模型,你可以選擇一個檢查點(checkpoint),然後用你的一些數據來訓練它,你正在看到這種情況發生。我想我們所有人,無論是從 Cursor 還是從 Microsoft,都會開始看到一些自家的模型。然後你會把大部分任務交給它處理。

所以一種論點是,如果你贏得了鷹架——也就是今天處理所有模型不穩定或智慧不均勻問題的部分,而你必須這麼做——如果你贏得了這個部分,那麼你就會垂直整合到模型中,因為你將擁有數據的流動性和其他優勢。而且會有足夠多的檢查點可供使用。這是另一點。

從結構上來說,我認為世界上總會有一個相當強大的開源模型可供你使用,只要你有東西可以配合它使用,也就是數據和一個鷹架。我可以論證說,如果你是一家模型公司,你可能會遇到「贏家的詛咒」。你可能做了所有艱苦的工作,完成了令人難以置信的創新,但這一切離被商品化只有一步之遙。然後,擁有數據進行基礎處理和情境工程,並且擁有數據流動性的人,就可以拿走那個檢查點並進行訓練。所以我認為這個論點可以從兩方面來看。

Dylan Patel

解構你所說的,世界上有兩種看法。一種是,有這麼多不同的模型存在。開源模型也存在。模型之間會有差異,這會在一定程度上決定誰贏誰輸。但是,鷹架(scaffolding)才是讓你獲勝的關鍵。

另一種看法是,模型本身才是關鍵的智慧財產權。每個人都在激烈競爭,而且會有「嘿,我可以用 Anthropic 或 OpenAI」的情況。你可以從營收圖表中看到這一點。OpenAI 的營收在他們終於推出一個與 Anthropic 功能相似(儘管方式不同)的程式碼模型後,開始急遽上升。

還有一種觀點認為,模型公司是獲取所有利潤的一方。因為如果你看今年,至少在 Anthropic,他們在推論(inference)上的毛利率從遠低於 40% 上升到年底超過 60%。儘管中國的開源模型比以往任何時候都多,但利潤率仍在擴大。OpenAI 具有競爭力,Google 具有競爭力,X/Grok 現在也具有競爭力。所有這些公司現在都具有競爭力,然而儘管如此,模型層的利潤率卻顯著擴大了。你對此有何看法?

Satya Nadella

這是一個很好的問題。也許幾年前人們會說:「哦,我只要包裝一個模型就能建立一家成功的公司。」這個想法可能已經被推翻了,主要是因為模型能力和所用工具的進步。

但有趣的是,當我看到 Office 365,就以我們打造的這個叫做 Excel Agent 的小東西為例。這很有趣。Excel Agent 不是一個使用者介面層級的包裝。它實際上是一個位於中介層(middle tier)的模型。在這種情況下,因為我們擁有 GPT 家族的所有智慧財產權,我們正在將它放入 Office 系統的核心中介層,教導它如何原生理解 Excel 的一切。這不僅僅是「嘿,我只有像素層級的理解。」我對 Excel 的所有原生構件都有完整的理解。因為你想想看,如果我要給它一個推理任務,我甚至需要修正我犯的推理錯誤。這意味著我需要不僅僅看到像素,我需要能夠看到「哦,我那個公式搞錯了」,而且我需要理解它。

在某種程度上,這一切都不是在使用者介面包裝層級用某個提示(prompt)完成的,而是在中介層透過教導它所有 Excel 的工具來完成的。我基本上是給它一個 markdown 文件,來教導它成為一個熟練的 Excel 使用者所需的技能。這有點奇怪,它有點回到了 AI 大腦的概念。你不是在建立傳統意義上的 Excel 商業邏輯。你是在拿傳統意義上的 Excel 商業邏輯,然後用這個知道如何使用工具的模型,為它包裹上一層認知層。在某種程度上,Excel 將會內建一個分析師和所有使用的工具。這就是每個人都會打造的東西。

所以即使對於模型公司來說,他們也必須競爭。如果他們定價過高,猜猜會發生什麼,如果我是一個像這樣的工具的開發者,我就會替換掉你。我可能會用你一陣子。所以只要有競爭……總會有贏家通吃的局面。如果有一個模型比其他所有模型都好,而且差距巨大,是的,那就是贏家通吃。但只要有多個模型存在競爭,就像超大規模運算的競爭一樣,並且有一個開源的選項,那麼在模型之上建立價值就有足夠的空間。

在 Microsoft,我看的角度是,我們將會從事超大規模運算業務,這將支持多個模型。我們在未來七年內將可以使用 OpenAI 的模型,我們將在其基礎上進行創新。基本上,我認為我們擁有一個前沿級別的模型,我們可以靈活地使用和創新。我們也將用 MAI 打造我們自己的模型。所以我們將永遠擁有一個模型層級。然後我們將會建立——無論是在安全性、知識工作、程式開發還是科學領域——我們自己的應用鷹架(application scaffolding),這將是模型優先的。它不會是一個模型的包裝,而是模型將被包裹在應用程式中。

Dwarkesh Patel

你提到的其他事情我有很多問題想問。但在我們轉到那些話題之前,我仍然想知道,這是否沒有前瞻性地看待 AI 的能力,你想像中的模型就像今天存在的模型一樣。它只是截取你的螢幕畫面,但無法查看每個儲存格內的公式是什麼。我認為更好的心智模型是,想像這些模型將能夠像人類一樣使用電腦。一個使用 Excel 的人類知識工作者可以查看公式,可以使用替代軟體,如果需要,可以在 Office 365 和另一個軟體之間遷移數據,等等。

Satya Nadella

這正是我所說的。

Dwarkesh Patel

但如果是這樣的話,那麼與 Excel 的整合就不是那麼重要了。

Satya Nadella

不,不,別擔心與 Excel 的整合。畢竟,Excel 是作為分析師的工具而建立的。很好。所以無論這個 AI 是誰,只要它是一個分析師,就應該有它能使用的工具。

Dwarkesh Patel

他們有電腦。就像人類可以使用電腦一樣。那是他們的工具。

Satya Nadella

工具就是電腦。所以我說的是,我正在建立一個分析師,它本質上是一個 AI 代理,而這個代理碰巧預先知道如何使用所有這些分析工具。

Dwarkesh Patel

只是為了確保我們談論的是同一件事,這是不是像我這樣一個人類使用 Excel……

Satya Nadella

不,它是完全自主的。所以現在我們或許應該闡述一下我對公司未來的看法。公司的未來將是工具業務,我有電腦,我用 Excel。事實上,未來我甚至會有一個 Copilot,那個 Copilot 也會有代理。但仍然是我在主導一切,一切都回歸到我這裡。這是一個世界。

第二個世界是,公司直接為一個 AI 代理配置一個計算資源,而這個代理是完全自主工作的。那個完全自主的代理將會擁有一套內建的、可供其使用的相同工具。所以這個 AI 工具不僅僅配備了一台原始的電腦,因為使用工具來完成工作會更具 token 效率。

事實上,我有點這樣看,我們今天的業務是終端使用者工具業務,未來將變成一個支持代理工作的基礎設施業務。這是另一種思考方式。事實上,我們在 M365 底層建立的所有東西仍然非常重要。你需要一個地方來儲存它,一個地方來存檔,一個地方來做資料搜尋(discovery),一個地方來管理所有這些活動,即使你是一個 AI 代理。這是一個新的基礎設施。

Dwarkesh Patel

為了確保我理解,你的意思是,理論上,未來一個能夠實際使用電腦的 AI——所有這些模型公司目前都在努力研發——即使它不與 Microsoft 合作或在我們的保護傘下,也可以使用 Microsoft 的軟體。但你的意思是,如果你使用我們的基礎設施,我們會給你更低層級的存取權限,讓你更有效率地完成你原本也能完成的事情?

Satya Nadella

百分之百。情況是這樣的:我們以前有伺服器,然後有了虛擬化,然後我們有了更多的伺服器。這是另一種思考這個問題的方式。不要把工具看作是最終的東西。在人類使用的那個工具之下,整個基礎層是什麼?那個整個基礎層也是 AI 代理的引導基礎,因為 AI 代理需要一台電腦。

事實上,我們看到一個顯著增長的地方,一個非常有趣的事情是,所有那些把 Office 文件等當作自主代理來處理的公司,他們都希望配置 Windows 365。他們真的希望能夠為這些代理配置一台電腦。絕對是這樣。這就是為什麼我們將會擁有一個終端使用者運算基礎設施業務,而且這個業務會持續增長,因為它的增長速度將會超過使用者數量的增長。

這也是人們問我的另一個問題,「嘿,以每位使用者計價的業務會怎麼樣?」至少從早期的跡象來看,也許思考以每位使用者計價的業務的方式,不僅僅是每位使用者,而是每位代理。如果你說它是每位使用者和每位代理,那麼關鍵是為每個代理配置什麼東西?一台電腦,一套圍繞它的安全措施,一個身份認證。所有這些東西,可觀察性等等,都是管理層。這一切都將被整合進去。

Dylan Patel

我的理解是,這些模型公司都在建立環境來訓練他們的模型使用 Excel 或 Amazon 購物,或是訂機票等等。但同時,他們也在訓練這些模型進行遷移。因為這可能是當下最有價值的事情:將基於主機(mainframe-based)的系統轉換為標準的雲端系統,將 Excel 資料庫轉換為帶有 SQL 的真實資料庫,或者將在 Word 和 Excel 中完成的工作轉換為更程式化、更有效率的,在傳統意義上人類也能完成但對軟體開發者來說成本效益不高的東西。

這似乎是未來幾年每個人都會用 AI 來做的事情,以大規模地創造價值。如果模型可以利用工具本身遷移到其他地方,Microsoft 如何融入其中?是的,Microsoft 在資料庫、儲存和所有這些其他類別中都處於領先地位,但 Office 生態系統的使用將會顯著減少,就像主機生態系統的使用可能會減少一樣。不過主機在過去二十年裡實際上一直在增長,儘管現在沒人再談論它們了。它們仍然在增長。

Satya Nadella

百分之百,我同意這一點。

Dylan Patel

這個流程是怎樣的?

Satya Nadella

歸根結底,在相當長的一段時間內,世界將會是混合的,因為人們會使用工具,而這些工具將與必須使用工具的代理一起工作,並且它們需要相互溝通。我生成的產物是什麼,然後人類需要看到什麼?所有這些在任何地方,無論是輸出還是輸入,都將是實際的考量。我認為這不會只是關於「哦,我遷移了」。底線是,我必須生活在這個混合的世界裡。

但這並沒有完全回答你的問題,因為可能會出現一個全新的、高效的前沿,在那裡只有代理與代理之間完全優化地工作。即使是在代理與代理之間工作,需要哪些基礎元素(primitives)?你需要一個儲存系統嗎?那個儲存系統需要有電子搜尋(e-discovery)功能嗎?你需要可觀察性嗎?你需要一個身份系統,讓你可以使用多個模型但都用同一個身份系統嗎?這些都是我們今天為 Office 系統或其他系統所擁有的核心底層軌道。未來我們也將擁有這些。

你談到了資料庫。天啊,我希望所有的 Excel 都有一個資料庫後端。我希望這一切能立即發生。而且那個資料庫是一個好的資料庫。事實上,資料庫將會是一個大幅增長的東西。如果我考慮到所有的 Office 文件都能更好地結構化,因為代理世界的存在,結構化和非結構化數據之間的連接能力會更好,這將會增長底層的基礎設施業務。而這一切的消耗都是由代理驅動的。

你可以說所有這些都只是由一家模型公司即時生成的軟體。這也可能是真的。我們也會是這樣的一家模型公司。我們會內建……競爭可能是我們會建立一個模型加上所有的基礎設施並提供它,然後會有一群能夠做到這一點的公司之間展開競爭。

Dwarkesh Patel

說到模型公司,你說你們不僅會有基礎設施,還會有模型本身。目前,Microsoft AI 兩個月前發布的最新模型在 Chatbot Arena 上排名第 36。你們顯然擁有 OpenAI 的智慧財產權。在你同意的程度上,它似乎是落後的。為什麼會這樣,特別是考慮到理論上你們有權利分叉(fork)OpenAI 的單體程式碼庫(monorepo)或蒸餾(distill)他們的模型,尤其是如果擁有一個領先的模型公司是你們策略的重要組成部分?

Satya Nadella

首先,我們絕對會在我們所有的產品中最大程度地使用 OpenAI 的模型。這是我們在未來七年內將繼續做的核心事情,不僅僅是使用它,還要為它增值。這就是分析師和這個 Excel 代理的用武之地,這些都是我們將要做的事情,我們將進行強化學習微調(RL fine-tuning)。我們將在 GPT 家族的基礎上進行一些中期訓練,利用我們獨特的數據資產來建立能力。

對於 MAI 模型,我認為我們的思考方式是,新協議的好消息是,我們可以非常、非常清楚地表明,我們將建立一個世界級的超級智慧團隊,並以雄心壯志去追求它。但同時,我們也將利用這段時間來聰明地運用這兩者。這意味著我們將一方面非常專注於產品,另一方面非常專注於研究。因為我們可以使用 GPT 家族,我最不想做的事情就是以一種只是重複且沒有太多附加價值的方式使用我的浮點運算能力(flops)。

我希望能夠將我們用來生成 GPT 家族的浮點運算能力最大化其價值,同時我的 MAI 浮點運算能力則用於……以我們發布的圖像模型為例,我認為它在圖像領域排名第九。我們既用它來進行成本優化,它也應用於 Copilot 和 Bing,我們將會繼續使用它。我們在 Copilot 中有一個音訊模型。它具有個性和其他特點。我們為我們的產品對它進行了優化。所以我們會做這些。

即使在 LMArena 上,我們從文本模型開始,它首次亮相時排名第 13。順帶一提,它只用了大約 15,000 個 H100 進行訓練。那是一個非常小的模型。所以,這也是為了證明我們的核心能力,指令遵循能力以及其他一切。我們想確保我們能達到當時最先進的水平。這向我們展示了,考慮到規模化定律,如果我們給它更多的浮點運算能力,我們能做到什麼。我們下一步將做的是一個全能模型(omni-model),我們將整合我們在音訊、圖像和文本方面所做的工作。這將是 MAI 方面的下一個里程碑。

所以當我思考 MAI 的路線圖時,我們將會建立一個一流的超級智慧團隊。我們將繼續公開發布一些這樣的模型。它們要麼會用在我們的產品中,因為它們在延遲和成本上更友好,或者它們會有某些特殊能力。我們將進行真正的研究,以便為未來五、六、七、八年內在這個朝向超級智慧的征途上所需的所有突破做好準備——同時利用我們擁有 GPT 家族的優勢,我們也可以在其基礎上進行工作。

Dylan Patel

假設我們快進七年,你不再能使用 OpenAI 的模型。Microsoft 會做些什麼來確保他們是領先的,或者擁有一個領先的 AI 實驗室?今天,OpenAI 開發了許多突破性技術,無論是擴展性還是推理能力。或者說 Google 開發了像 transformers 這樣的突破性技術。

但這也是一場巨大的人才爭奪戰。你看到 Meta 在人才上花費了超過 200 億美元。你看到 Anthropic 去年從 Google 挖走了整個 Blueshift 推理團隊。你看到 Meta 最近又從 Google 挖走了一個大型的推理和後訓練團隊。這類人才戰爭的資本密集度非常高。可以說,如果你在基礎設施上花費 1000 億美元,你也應該在使用這些基礎設施的人才上花費 X 金額,這樣他們才能更有效地取得這些新的突破。

人們如何能相信 Microsoft 會擁有一支世界級的團隊,能夠取得這些突破?一旦你決定打開資金的水龍頭——你現在在資本效率上做得比較聰明,似乎是為了避免浪費錢做重複的工作——但一旦你決定需要這麼做,人們怎麼能說:「哦,是的,現在你可以衝到前五名的模型了?」

Satya Nadella

歸根結底,我們將建立一個世界級的團隊,而且我們已經開始組建一個世界級的團隊了。我們有 Mustafa 加入,我們有 Karen。我們有 Amar Subramanya,他在 Gemini 2.5 做了很多後訓練工作,現在在 Microsoft。Nando,他在 DeepMind 做了很多多媒體工作,也在這裡。我們將建立一個世界級的團隊。事實上,即使在本週晚些時候,Mustafa 也會發表一些東西,更清晰地說明我們的實驗室將要做什麼。

或許我希望全世界知道的是,我們將建立支持多種模型的基礎設施。因為從超大規模的角度來看,我們希望建立最具規模的基礎設施集群,能夠支持全世界需要的所有模型,無論是來自開源社區,還是顯然來自 OpenAI 和其他公司。這是一項工作。

其次,在我們自己的模型能力方面,我們絕對會在我們的產品中使用 OpenAI 的模型,並且我們將開始建立我們自己的模型。而且我們可能會——就像在 GitHub Copilot 中使用了 Anthropic 一樣——甚至將其他前沿模型也整合到我們的產品中。我認為每次都是這樣……歸根結底,產品在滿足特定任務或工作時的評估才是最重要的。我們將從那裡回溯到所需的垂直整合,知道只要你用產品很好地服務了市場,你總是可以進行成本優化。

Dwarkesh Patel

未來有一個問題。現在,我們的模型在訓練和推論之間有區別。有人可能會說,不同模型之間的差異越來越小。展望未來,如果你真的期望達到人類水平的智慧,人類是在工作中學習的。如果你回想過去 30 年,是什麼讓「Satya tokens」如此有價值?是你在 Microsoft 獲得的過去 30 年的智慧和經驗。

如果模型達到人類水平,我們最終將擁有能夠在工作中持續學習的模型。在我看來,這將為領先的模型公司帶來巨大的價值,因為你將一個模型的副本廣泛部署到整個經濟體中,學習如何完成每一項工作。與人類不同,它們可以將學習成果整合到那個模型中。因此,這會形成一種持續學習的指數級反饋循環,看起來幾乎像是一種智慧爆炸。

如果這種情況發生,而 Microsoft 到那時還不是領先的模型公司……你說我們可以將一個模型換成另一個模型,等等。那時這還重要嗎?因為就像這個模型知道如何做經濟中的每一項工作,而其他的長尾模型卻不知道。

Satya Nadella

你的觀點是,如果只有一個模型,是世界上部署最廣泛的唯一模型,它能看到所有數據並進行持續學習,那遊戲就結束了,大家都可以關門大吉了。但至少我看到的現實是,在今天的世界裡,儘管任何一個模型都可能佔據主導地位,但情況並非如此。以程式碼為例,有多種模型存在。事實上,這種情況每天都在減少。沒有一個模型被廣泛部署。而是有多個模型被部署。這就像資料庫一樣。人們總是在想,「一個資料庫能否成為到處都使用的那個?」但事實並非如此。有多種類型的資料庫被部署用於不同的使用案例。

我認為持續學習會帶來一些網路效應——我稱之為數據流動性——這是任何一個模型都具備的。它會在所有領域都發生嗎?我不這麼認為。它會在所有地區都發生嗎?我不這麼認為。它會在所有市場區隔都發生嗎?我不這麼認為。它會同時在所有類別中發生嗎?我也不這麼認為。因此,我覺得設計空間如此之大,以至於有大量的機會。

但你的根本觀點是,擁有一個在基礎設施層、模型層和鷹架(scaffolding)層的能力,然後不僅僅是作為一個垂直堆疊來組合這些東西,而是能夠為每個東西的目的來組合它們。你不能建立一個只為一個模型優化的基礎設施。如果你這樣做,萬一你落後了怎麼辦?事實上,你建立的所有基礎設施都將是浪費。你需要建立一個能夠支持多個模型家族和譜系的基礎設施。否則,你投入的資本,是為一種模型架構優化的,這意味著只要一個小小的調整,比如某個類似 MoE(Mixture-of-Experts)的突破發生,你整個網路拓撲就作廢了。這是件可怕的事情。

因此,你會希望基礎設施能夠支持你自己的模型家族和其他模型家族中可能出現的任何東西。你必須保持開放。如果你認真對待超大規模業務,你必須對此認真。如果你認真想成為一家模型公司,你必須基本上說:「人們可以在模型之上做些什麼,這樣我才能擁有一個獨立軟體供應商(ISV)生態系統?」除非我認為我會擁有每個類別,那是不可能的。那樣你就不會有 API 業務,而根據定義,這意味著你永遠不會成為一家成功部署在各地的平台公司。因此,行業結構本身會迫使人們專注於特定領域。在這種專注中,像 Microsoft 這樣的公司應該在每個層級憑藉其優勢進行競爭,而不是認為這一切都是通往「遊戲結束,大獲全勝」的道路,我只要垂直整合所有這些層級就行了。這種事不會發生。

Dylan Patel

去年,Microsoft 本來有望成為迄今為止最大的基礎設施提供商。你們在 2023 年初就行動了,所以你們走出去,獲取了所有資源,包括租賃資料中心、開始建設、確保電力供應等等。你們當時的進度預計在 2026 或 2027 年就能超越 Amazon。到 2028 年肯定能超過他們。

從那時起,我們稱之為去年下半年,Microsoft 進行了一次大的暫停,他們放棄了許多原本要租用的地點,然後 Google、Meta、某些情況下的 Amazon、Oracle 接手了這些地點。

我們現在正坐在世界上最大的資料中心之一,所以顯然這不是全部,你們仍在瘋狂擴張。但有些你們停工的工地。你們為什麼這麼做?

Satya Nadella

這有點回到超大規模業務的本質問題。我們做出的一個關鍵決定是,如果我們要將 Azure 打造成在 AI 的各個階段——從訓練到中期訓練、數據生成再到推論——都表現出色,我們就需要機隊的彈性可替換性(fungibility)。所以這整個考量讓我們決定不去用特定世代的技術來建造大量的容量。

因為你必須意識到的另一件事是,到目前為止,我們每 18 個月為各種 OpenAI 模型將訓練能力提升 10 倍,我們意識到關鍵是保持這個步伐。但更重要的是要有一個平衡,不僅僅是訓練,還要能夠在世界各地提供這些模型的服務。因為歸根結底,是貨幣化的速度決定了我們能否持續投入資金。而且基礎設施需要我們支持多種模型。

所以一旦我們確定了這一點,我們就修正了我們的路線。如果我看我們現在的路線,我們現在開始了更多的建設。我們也在盡可能多地購買託管容量,無論是自建、租賃,甚至是 GPU 即服務。但我們是根據我們看到的需求、服務需求和訓練需求來建設的。我們不想僅僅成為一家公司的託管商,只與一個客戶有大量的業務往來。那不是一個生意,你應該與那家公司進行垂直整合。

鑑於 OpenAI 將會成為一家成功的獨立公司,這非常棒。這很合理。即使 Meta 可能會使用第三方容量,但最終他們都會是第一方。對於任何有大規模需求的公司來說,他們自己就會成為一個超大規模供應商。對我來說,目標是建立一個超大規模的機隊和我們自己的研究計算能力。這就是調整的目的。所以我感覺非常、非常好。

順帶一提,另一件事是,我不想被某一代技術的大規模部署所束縛。我們剛看到了 GB200,GB300 也快來了。等到 Vera Rubin、Vera Rubin Ultra 出現時,資料中心的樣貌將會截然不同,因為每個機櫃、每排機櫃的功耗將會大不相同。冷卻需求也將截然不同。這意味著我不想只為了某一代、某個系列的產品去建造數個 GW 的電力容量。所以我認為,建設的節奏很重要,彈性可替換性和地點很重要,工作負載的多樣性很重要,客戶的多樣性也很重要,這就是我們正在努力的方向。

我們學到的另一件事是,每個 AI 工作負載不僅需要 AI 加速器,還需要很多其他東西。事實上,我們的很多利潤結構將來自那些其他東西。因此,我們希望將 Azure 打造成對長尾工作負載非常出色的平台,因為這才是超大規模業務的本質,同時我們也知道,從裸機(bare-metal)開始,我們必須在最高階的訓練上具有超強的競爭力。

但這不能排擠掉其他業務,因為我們不是只做五個合約,為五個客戶提供裸機服務的公司。那不是 Microsoft 的業務。那可能是別人的業務,這是件好事。我們所說的是,我們從事的是超大規模業務,歸根結底是 AI 工作負載的長尾業務。為了做到這一點,我們將為一系列模型,包括我們自己的模型,提供一些領先的裸機即服務能力。我想,這就是你看到的平衡。

Dylan Patel

圍繞著這個彈性可替換性(fungibility)的話題,還有一個問題。好吧,這不是你想要的地方,你寧願把它設在像亞特蘭大這樣人口密集的中心。我們就在這裡。還有一個問題是,隨著 AI 任務的範圍擴大,這有多重要?一個推理提示需要 30 秒,一個深度研究需要 30 分鐘,將來軟體代理可能需要數小時、數天等等,與人類互動的時間會越來越長。地點是 A、B 還是 C,為什麼重要?

Satya Nadella

這是一個很好的問題。正是如此。事實上,這也是我們想要思考 Azure 區域應該是什麼樣子,以及 Azure 區域之間的網路連接應該如何的另一個原因。我認為隨著模型能力的演進和這些 token 使用方式的演進,無論是同步還是非同步,你都不希望處於不利的位置。

此外,順帶一提,數據駐留法規是什麼?還有整個歐盟的事情,我們實際上必須創建一個歐盟數據邊界(EU Data Boundary)。這基本上意味著你不能隨意將一個呼叫來回傳送到任何地方,即使它是非同步的。因此,你可能需要有高密度的區域性設施,然後還有電力成本等等。

但你提出這個觀點是百分之百正確的,我們在建設時的拓撲結構必須不斷演進。第一,為了每瓦每美元的 token 產出。經濟效益是什麼?在這之上,還要疊加使用模式是什麼?使用模式包括同步、非同步。但還有計算儲存是什麼?因為延遲對於某些事情可能很重要。儲存最好就在附近。如果我在這附近有一個 Cosmos DB 用於會話數據,甚至是自主運行的東西,那麼它也必須在附近,等等。所有這些考量都將塑造超大規模業務。

Dylan Patel

在這次暫停之前,我們預測到 2028 年,你們的電力容量將達到 12-13 GW。現在我們預估大約是 9.5 GW。

但更相關的是——我只是想讓你更具體地說明這不是你想做的業務——Oracle 正在從你們規模的五分之一,到 2027 年底將會比你們更大。

雖然這不是 Microsoft 等級的投資回報率,但他們仍然有 35% 的毛利率。所以問題是,也許這不是 Microsoft 的業務,但你們現在因為拒絕這項業務,放棄了優先承購權等等,創造出了一個超大規模供應商。

Satya Nadella

首先,我不想貶低 Oracle 在建立其業務方面所取得的成功,我祝他們一切順利。我想我已經回答了你的問題,那就是,對於我們來說,去為一家模型公司提供託管服務,而且還是在有限時間範圍的 RPO(Recovery Point Objective,恢復點目標)下,是沒有意義的。讓我們就這樣說吧。

你必須思考的不是未來五年要做什麼,而是未來五十年要做什麼。我們做出了我們的決定。我對我們與 OpenAI 的合作關係以及我們正在做的事情感到非常滿意。我們有相當可觀的業務。我們祝他們取得巨大的成功。事實上,我們也是 Oracle 容量的購買者。我們祝他們成功。

但在這一點上,我認為我們試圖做的事情背後的產業邏輯非常清晰,那就是,這不是關於追逐……首先,順帶一提,我會追蹤你們的數據,無論是 AWS、Google 還是我們的,我認為這非常有用。但這並不意味著我必須追逐那些數字。我追逐它們,不僅僅是為了它們在某個時期可能代表的毛利率。Microsoft 獨特能完成的,對我們來說有意義的業務是什麼?這才是我們要做的事。

Dwarkesh Patel

我想從更宏觀的角度提個問題,我同意你的觀點,在其他條件相同的情況下,擁有一個長尾客戶群,可以從中獲得更高利潤,這比為少數幾個實驗室提供裸機服務是更好的業務。但接下來的問題是,這個行業的發展方向是什麼?如果我們相信我們正走在通往越來越聰明的 AI 的道路上,那麼行業的形態為什麼不是 OpenAI、Anthropic 和 DeepMind 成為平台,而長尾企業實際上是在這個平台上做生意?他們需要裸機,但他們才是平台。直接使用 Azure 的長尾客戶是誰?因為你想使用的是通用的認知核心。

Satya Nadella

但那些模型都將在 Azure 上提供,所以任何工作負載說:「嘿,我想用一些開源模型和一個 OpenAI 模型」,如果你今天去 Azure Foundry,你會發現所有這些模型你都可以配置、購買 PTU(Processing Time Units)、獲得一個 Cosmos DB、一個 SQL DB、一些儲存和一些計算資源。這才是一個真實工作負載的樣子。一個真實的工作負載不僅僅是對一個模型的 API 呼叫。一個真實的工作負載需要所有這些東西才能建立或實例化一個應用程式。

事實上,模型公司需要這些才能建立任何東西。這不僅僅是像,「我有一個 token 工廠」。我必須擁有所有這些東西。這就是超大規模業務。而且它不依賴於任何單一模型,而是所有這些模型。所以如果你想要 Grok 加上,比如說,OpenAI 加上一個開源模型,來 Azure Foundry,配置它們,建立你的應用程式。這裡有一個資料庫。這就是這個業務的本質。

有一個獨立的業務叫做只向模型公司銷售原始的裸機服務。這就是關於你想要做多少這類業務,不想要做多少,以及它到底是什麼的爭論。這是業務中一個非常不同的部分,我們身在其中,但我們也有限制,不讓它排擠掉其他部分。但至少這是我看待它的方式。

Dylan Patel

這裡有兩個問題。一個是,為什麼你們不能兩者兼得?另一個是,根據我們對你們 2028 年容量的估計,它少了 3.5 GW。當然,你可以把那些容量專門用於 OpenAI 的訓練和推論,但你也可以把它專門用於實際運行 Azure、運行 Microsoft 365、運行 GitHub Copilot。我本可以自己建,而不給 OpenAI。

Satya Nadella

或者我可能想把它建在不同的地點。我可能想把它建在阿聯酋,我可能想把它建在印度,我可能想把它建在歐洲。其中一件事是,正如我所說,鑑於監管需求和數據主權需求,我們現在有真正的容量限制,我們必須在世界各地建設。首先,美國本土的容量非常重要,我們希望什麼都建。

但當我展望 2030 年時,我對 Microsoft 的第一方和第三方業務形態有一個全球性的視野。第三方按前沿實驗室和他們想要多少來劃分,相對於我們想為多個模型建立的推論容量,以及我們自己的研究計算需求。這一切都進入了我的計算。你 rightfully 指出了暫停,但暫停並不是因為我們說:「哦天啊,我們不想建那個了。」我們意識到,我們希望以稍微不同的方式來建設我們想要建設的東西,無論是從工作負載類型、地理類型還是時間安排上。

我們將繼續增加我們的 GW,問題是以什麼速度和在什麼地點。以及我如何利用摩爾定律,也就是說,我真的想在 2027 年過度建設 3.5 GW,還是我想在 2027-28 年將其分散,甚至知道……我們從 Nvidia 那裡學到的最大教訓之一是,他們在遷移方面的步伐加快了。

那是一個很大的因素。我不想因為一代產品而被套牢四五年的折舊。事實上,Jensen 給我的建議有兩點。第一是,要以光速執行。這就是為什麼這個亞特蘭大資料中心的執行速度……從我們拿到它到交給一個真正的工作負載,大概是 90 天。這在那個方面是真正的光速執行。我想在這方面做得很好。

然後這樣我就可以在擴展中建立每一代產品。然後每五年,你就會有一個更平衡的東西。所以它實際上就像一個大規模工業運營的流程,你突然不會變得不平衡,你不會在一個時間點建立了很多,然後因為你被所有這些東西困住而暫停很長時間,就像你說的,在一個可能很適合訓練,但可能不適合推論的地點,因為我無法提供服務,即使都是非同步的,因為歐洲不允許我往返德州。所以這些都是考量。

Dylan Patel

我該如何將這番話與你過去幾週的所作所為合理化?你宣布了與 Iris Energy、Nebius 和 Lambda Labs 的交易,而且還有更多交易即將到來。你正在走出去,從這些新興雲端服務商(neoclouds)那裡租用容量,而不是自己建造。

Satya Nadella

這對我們來說沒問題,因為現在當你對需求有清晰的了解,而且可以在人們正在建設的地方滿足這些需求時,這很好。事實上,我們會接受租賃,我們會接受客製化建設(build-to-suit),我們甚至會接受 GPU 即服務,在我們沒有容量但需要容量而別人有容量的地方。

順帶一提,我甚至會歡迎每一個新興雲端服務商都加入我們的市集。因為猜猜看?如果他們把他們的容量帶到我們的市集,那個通過 Azure 進來的客戶將會使用那個新興雲端服務商,這對他們來說是一個巨大的勝利,同時也會使用來自 Azure 的計算、儲存、資料庫和所有其他服務。所以我完全不認為這是我應該自己獨吞一切的事情。

Dwarkesh Patel

你提到這個會貶值的資產,在五六年內,佔了資料中心總擁有成本(TCO)的 75%。而 Jensen 在這上面賺了 75% 的利潤。所以所有超大規模供應商都在試圖開發自己的加速器,以便降低這項壓倒性的設備成本,增加他們的利潤。

Dylan Patel

當你看看他們現在的進展,Google 遙遙領先於其他所有人。他們做這個已經最久了。

他們將生產大約五百萬到七百萬顆自己的 TPU 晶片。你看看 Amazon,他們試圖生產三百萬到五百萬顆(終身出貨量)。但當我們看 Microsoft 訂購的自家晶片數量時,遠低於這個數字。你們的計畫也進行了同樣長的時間。你們的內部晶片發生了什麼事?

Satya Nadella

這是個好問題。有幾件事。第一,任何新加速器的最大競爭對手,甚至可以說是 Nvidia 的上一代產品。在一個機隊中,我要看的是整體的總擁有成本(TCO)。我對我們自己的產品設定的標準……順帶一提,我剛看了 Maia 200 的數據,看起來很棒,但我們在計算方面學到的一件事是……我們以前有很多 Intel,然後我們引入了 AMD,然後我們引入了 Cobalt。我們就是這樣擴展的。我們至少在核心計算方面有很好的實踐證明,如何建立自己的晶片,然後管理一個三者在某種平衡中共存的機隊。

因為順帶一提,即使是 Google 也在買 Nvidia,Amazon 也是。這很合理,因為 Nvidia 在創新,而且它是通用的。所有模型都能在上面運行,客戶需求也在那裡。因為如果你建立自己的垂直整合產品,你最好有自己的模型,要麼用它來訓練,要麼用它來推論,而且你必須為它創造自己的需求,或者補貼它的需求。所以你要確保你適當地擴展它。

我們要做的方式是在我們自己的 MAI 模型和我們的晶片之間建立一個閉環,因為我覺得這才給了你做自己晶片的權利,你實際上是根據你正在做的事情來設計微架構,然後你與自己的模型保持同步。在我們的情況下,好消息是 OpenAI 有一個我們可以使用的計畫。所以認為 Microsoft 不會有什麼東西是——

Dylan Patel

你對那個計畫有多大程度的存取權限?

Satya Nadella

全部。

Dylan Patel

你直接就拿到所有的智慧財產權?所以你唯一沒有的智慧財產權是消費級硬體?

Satya Nadella

就是這樣。

Dylan Patel

哦,好的。有意思。

Satya Nadella

順帶一提,我們也給了他們一堆智慧財產權來幫助他們起步。這是他們……的原因之一,因為我們一起建造了所有這些超級電腦。我們為他們建造,他們也理所當然地從中受益。現在當他們創新時,即使是在系統層面,我們也能接觸到所有的一切。我們首先希望為他們實現他們所建造的,但之後我們會擴展它。

所以,如果說有什麼的話,我思考你問題的方式是,Microsoft 希望成為 Nvidia 一個出色的、我稱之為「光速執行」的合作夥伴。因為坦白說,那個機隊就是生命本身。顯然 Jensen 在利潤方面做得非常好,但總擁有成本(TCO)有很多個面向,我希望在 TCO 上做到最好。除此之外,我希望能夠真正與 OpenAI 的產品線和 MAI 的產品線以及系統設計合作,知道我們在兩端都擁有智慧財產權。

Dwarkesh Patel

說到權利,你幾天前接受採訪時說,在你們與 OpenAI 達成的新協議中,你們擁有 OpenAI 進行的無狀態(stateless)API 呼叫的獨家權利。我們有點困惑,如果存在任何狀態(state),會怎麼樣。你剛才提到,所有這些即將出現的複雜工作負載都需要記憶體、資料庫和儲存等等。如果 ChatGPT 在會話中儲存東西,那現在還算無狀態嗎?

Satya Nadella

這就是原因所在。我們做出的策略性決定,同時也考慮到 OpenAI 為了能夠採購計算資源所需的靈活性……基本上,你可以把 OpenAI 看作同時擁有一個 PaaS(平台即服務)業務和一個 SaaS(軟體即服務)業務。SaaS 業務是 ChatGPT。他們的 PaaS 業務是他們的 API。那個 API 是 Azure 獨家的。至於 SaaS 業務,他們可以在任何地方運行。

Dylan Patel

他們可以和任何他們想合作的人一起打造 SaaS 產品嗎?

Satya Nadella

如果他們想要一個合作夥伴,而那個合作夥伴想要使用一個無狀態 API,那麼 Azure 就是他們可以獲得無狀態 API 的地方。

Dylan Patel

看來他們有辦法一起打造產品,而且這是一個有狀態(stateful)的東西……

Satya Nadella

不,即使是那樣,他們也必須來 Azure。再次強調,這是本著「我們在合作夥伴關係中看重什麼」的精神來做的。我們確保了這一點,同時,考慮到 OpenAI 需要的所有靈活性,我們也是他們的好夥伴。

Dylan Patel

舉例來說,Salesforce 想要整合 OpenAI。這不是透過 API。他們實際上是一起合作,一起訓練一個模型,然後部署在,比如說,Amazon 上。這被允許嗎?還是他們必須使用你們的……

Satya Nadella

對於任何像那樣的客製化協議,他們都必須來這裡運行……我們做了一些少數的例外,比如美國政府等等,但除此之外,他們都必須來 Azure。

Dwarkesh Patel

退一步說,當我們在工廠裡來回走動時,你談到的一件事是,Microsoft,你可以把它看作一個軟體企業,但現在它真的在變成一個工業企業。有這麼多的資本支出,這麼多的建設。如果你只看過去兩年,你們的資本支出大約增加了兩倍。也許你把這個趨勢推算下去,它實際上就變成了一個巨大的工業爆炸。

Dylan Patel

其他超大規模供應商正在貸款。Meta 在路易斯安那州貸了 200 億美元的款。他們還做了一筆公司貸款。很明顯,每個人的自由現金流都將趨近於零,我相信如果你敢這麼做,Amy 一定會狠狠修理你,但到底發生了什麼?

Satya Nadella

我認為你提到的結構性變化是巨大的。我將其描述為我們現在既是一個資本密集型企業,也是一個知識密集型企業。事實上,我們必須利用我們的知識來提高資本支出的投資回報率(ROIC)。

硬體廠商在行銷摩爾定律方面做得非常出色,我認為這令人難以置信,而且很棒。但如果你看看我在財報電話會議上提供的一些數據,對於某個特定的 GPT 家族,我們在軟體上實現的吞吐量提升,以每瓦每美元的 token 產出來衡量,季度之間、年度之間的提升是巨大的。在某些情況下,可能是 5 倍、10 倍,甚至 40 倍,僅僅是因為你可以如何優化。這就是知識密集度帶來資本效率的體現。在某種程度上,這是我們必須掌握的。

有些人問我,傳統的託管商和超大規模供應商有什麼區別?軟體。是的,它是資本密集的,但只要你有系統知識、軟體能力,能夠按工作負載、按機隊進行優化……這就是為什麼當我們說彈性可替換性(fungibility)時,裡面有這麼多的軟體。這不僅僅是關於機隊本身。

這是驅逐一個工作負載然後安排另一個工作負載的能力。我能管理那個調度演算法嗎?這就是我們必須達到世界級水平的地方。所以,是的,我認為我們仍然會是一家軟體公司,但是的,這是一個不同的業務,我們將會管理它。歸根結底,Microsoft 擁有的現金流讓我們能夠讓這兩個臂膀都運作良好。

Dwarkesh Patel

看來在短期內,你更相信事情需要時間,會比較曲折。但或許從長遠來看,你認為那些談論 AGI 和 ASI 的人是對的。Sam 最終會是對的。

我有一個更廣泛的問題,關於一個超大規模供應商做什麼才合理,鑑於你必須在這個五年內就會貶值的東西上投入巨資。所以如果你對像 Sam 在三年內預期的那種事情有 2040 年的時間表,那麼在那個世界裡,你做什麼是合理的?

Satya Nadella

需要有一部分資源分配給,我稱之為,研究計算。這需要像你做研發一樣來處理。坦白說,這是最好的核算方式。我們應該把它看作是研發費用,你應該問:「研究計算的規模是多少,你希望如何擴展它?」我們甚至可以說在某個時期內實現一個數量級的擴展。選擇你的目標,是兩年?還是 16 個月?諸如此類。這是一部分,是基本門檻,是研發費用。

其餘的都由需求驅動。最終,你可以提前於需求進行建設,但你最好有一個不會完全失控的需求計畫。

Dwarkesh Patel

你相信嗎……這些實驗室現在預測 2027-28 年的營收將達到 1000 億美元,而且他們預測營收將繼續以每年 3 倍、2 倍的速度增長……

Satya Nadella

在市場上,現在有各種各樣的激勵措施,而且是理所當然的。你期望一個正在努力籌集資金的獨立實驗室會做什麼?他們必須提出一些數字,這樣他們才能真正籌集到資金,以便支付他們的計算費用等等。

這是件好事。有人會承擔一些風險並投入其中,而且他們已經展現了成果。這不是說完全是風險,而沒有看到他們一直以來的表現,無論是 OpenAI,還是 Anthropic。所以我對他們所做的感到非常滿意,而且我們與這些傢伙有大量的業務往來。所以這一切都很好。

但總體而言,最終有兩個簡單的事情。一是你必須為研發分配資源。你提到了人才。AI 人才非常珍貴。你必須在那裡花錢。你必須在計算上花錢。所以在某種程度上,研究人員與 GPU 的比例必須很高。這是在這個世界上成為一個領先的研發公司所需要的。而且這需要擴展,你必須有一個能夠讓你擴展的資產負債表,而且要在它成為普遍共識之前很久就開始。這是一件事。但另一件事完全是關於如何預測。

Dylan Patel

當我們放眼全球,美國在許多技術堆疊中佔據了主導地位。美國透過 Microsoft 擁有 Windows,即使在中國,Windows 也是主要的作業系統。當然,有開源的 Linux,但 Windows 在中國的個人電腦上無處不在。你看看 Word,它無處不在。你看看所有這些各種技術,它們無處不在。Microsoft 和其他公司也在其他地方成長。他們在歐洲、印度和所有這些其他地方,在東南亞、拉丁美洲和非洲,在所有這些不同的地方建設資料中心。

但這次似乎很不一樣。今天,技術、計算的政治層面……美國政府不在乎網路泡沫。但美國政府以及世界上所有其他政府,似乎都非常關心 AI。問題是,我們現在處於一個兩極世界,至少是美國和中國,但歐洲、印度和所有這些其他國家都在說:「不,我們也要有主權 AI。」

Microsoft 如何應對與 90 年代的差異——當時世界上只有一個國家重要,那就是美國,我們的公司產品銷往各地,因此 Microsoft 受益匪淺——到一個兩極分化的世界?在這個世界裡,Microsoft 不一定能理所當然地贏得整個歐洲、印度或新加坡。實際上存在著主權 AI 的努力。你的思考過程是什麼?你如何看待這個問題?

Satya Nadella

這是一個極其關鍵的部分。我認為,美國科技業和美國政府的首要任務是確保我們不僅要做領先的創新型工作,還要共同在世界各地建立對我們技術堆疊的信任。因為我總是說,美國是一個令人難以置信的地方。它在歷史上是獨一無二的。它佔世界人口的 4%,GDP 的 25%,市值的 50%。我認為你應該思考一下這些比例並反思它。

那 50% 的市值之所以能實現,坦白說,是因為世界對美國的信任,無論是對其資本市場,還是對其技術及其在任何特定時期對領先產業重要事務的管理。如果這種信任被打破,那對美國來說就不是好日子。我們從這一點開始,我想無論是川普總統、白宮、David Sacks,每個人,真的,我想都明白這一點。

因此,我讚賞美國政府和科技業共同採取的任何行動,例如,作為一個行業,共同將我們自己的資本投入到世界各地去冒險。我希望美國政府能將美國公司在世界各地的外國直接投資歸功於自己。這是最少被談論,但卻是美國應該做的最好的行銷,那就是,不僅僅是所有外國直接投資都流向美國,而是最領先的產業,也就是這些 AI 工廠,正在世界各地被創建。被誰創建?被美國和美國公司。

所以你從那裡開始,然後你甚至圍繞它建立其他協議,這些協議關乎它們的連續性,它們對主權的合法關切,無論是數據駐留,還是讓它們擁有真正的自主權和隱私保障等等。事實上,我們對歐洲的承諾值得一讀。我們對歐洲做出了一系列承諾,關於我們將如何管理我們在那裡的超大規模投資,以便歐盟和歐洲國家擁有主權。

我們也在法國和德國建立主權雲。我們有一個叫做 Azure 上的主權服務(Sovereign Services on Azure),它實際上給人們提供了金鑰管理服務以及機密計算,包括 GPU 中的機密計算,我們與 Nvidia 在這方面做了很棒的創新型工作。所以我對能夠在技術上和政策上建立對美國技術堆疊的這種信任感到非常、非常好。

Dwarkesh Patel

你如何看待隨著持續學習和模型層級上的事情產生網路效應,這種情況會如何發展?也許你在超大規模供應商層級也有類似的東西。你預計各國會說:「看,很明顯一個模型或幾個模型是最好的,所以我們要用它們,但我們會在權重必須託管在我們國家的問題上制定一些法律」?還是你預計會有這樣的推動,以至於它必須是在我們國家訓練的模型?

也許這裡的一個類比是,半導體對經濟非常重要,人們希望擁有自己的主權半導體,但 TSMC 就是更好。而半導體對經濟如此重要,以至於你就是會去台灣買半導體。你必須這麼做。AI 會是這樣嗎?

Satya Nadella

歸根結底,重要的是在他們的經濟中使用 AI 來創造經濟價值。這就是擴散理論,最終,重要的不是領先的產業,而是利用領先技術來創造自己比較優勢的能力。所以我認為這將從根本上成為核心驅動力。

但話雖如此,他們會希望這種能力能夠持續。所以在某種程度上,這就是我相信為什麼總會有一種制衡力量來對抗「嘿,這個模型能否擁有所有失控的部署?」的原因之一。這就是為什麼開源將永遠存在。根據定義,將會有多個模型。這將是一種方式。這是人們要求連續性並且不承擔集中風險的另一種方式,可以這麼說。

所以你說:「嘿,我想要多個模型,然後我想要一個開源的。」我覺得只要有這些,每個國家都會覺得:「好吧,我不必擔心部署最好的模型並廣泛擴散,因為我總是可以拿走我的數據和我的流動性,然後把它轉移到另一個模型上,無論是開源的還是來自另一個國家的,或者其他的。」集中風險和主權,也就是真正的自主權,這兩件事將會驅動市場結構。

Dylan Patel

關於這點,半導體並不存在這種情況。所有的冰箱、汽車裡的晶片都是台灣製造的。

Satya Nadella

直到現在才不存在。

Dylan Patel

即便如此,如果台灣被切斷,就不再有汽車或冰箱了。TSMC 亞利桑那廠並不能取代任何實質比例的產能。所謂的主權,在某種程度上是一種騙局。擁有它是值得的,擁有它很重要,但它不是真正的主權。我們是一個全球經濟體。

Satya Nadella

我認為這就像在說:「嘿,到目前為止,我們對於韌性(resilience)的意義以及需要做些什麼,還一無所知。」任何民族國家,包括美國,在這一點上都會採取必要的措施,在一些關鍵供應鏈上實現更高程度的自給自足。

所以我,作為一家跨國公司,必須將此視為一個首要的要求。如果我不這樣做,那麼我就是不尊重那個國家長期的政策利益。我不是說他們在短期內不會做出務實的決定。絕對是的,全球化不可能就這樣倒轉。所有這些資本投資不可能以……的速度進行。但同時,想想看,如果有人出現在華盛頓說:「嘿,我們不打算建任何半導體工廠」,他們會被趕出美國。同樣的事情也會發生在其他每個國家。

因此,我們作為公司,必須尊重所學到的教訓,無論是疫情喚醒了我們還是其他什麼。但無論如何,人們都在說:「看,全球化太棒了。它幫助供應鏈全球化並變得超級高效。但有一種東西叫做韌性,我們想要韌性。」因此,這個特性將會被建立起來。

以什麼樣的速度,我想,是你提出的重點。你不能彈指之間就說所有 TSMC 的工廠現在都在亞利桑那州,並且擁有他們所有的能力。他們不會是這樣的。但是否有計畫?將會有一個計畫。我們應該尊重那個計畫嗎?絕對應該。所以我感覺這就是世界。我希望順應世界的潮流,順應它未來想做的事,而不是說:「嘿,我們有一個不尊重你們觀點的觀點。」

Dwarkesh Patel

只是為了確保我理解,這裡的想法是,每個國家都會想要某種數據駐留、隱私等等。而 Microsoft 在這裡處於特別有利的地位,因為你們與這些國家有關係,你們在建立這類主權資料中心方面有專業知識。因此,Microsoft 特別適合一個有更多主權要求的世界。

Satya Nadella

我不想把它描述成我們 somehow 是獨一無二地享有特權。我只想說,我認為這是一個業務要求,我們幾十年來一直在做所有艱苦的工作,並且我們計畫繼續做下去。

所以我對 Dylan 先前問題的回答是,我認真對待——無論是在美國,還是當白宮和美國政府說:「我們希望你將更多的晶圓產能分配給美國的晶圓廠」時——我們都認真對待。或者無論是資料中心和歐盟邊界,我們都認真對待。所以對我來說,尊重國家關心主權的合法理由,並為此建立軟體和實體設施,是我們將要做的事。

Dylan Patel

當我們走向一個美國與中國的兩極世界時,這不僅僅是你對抗 Amazon,或你對抗 Anthropic,或你對抗 Google。還有大量的競爭。美國如何重建信任?你如何重建信任?去說服大家:「不,美國公司將會是你們的主要供應商。」你如何看待與崛起的中國公司,無論是 ByteDance 和 Alibaba,還是 Deepseek 和 Moonshot 的競爭?

Dwarkesh Patel

補充一下這個問題,一個擔憂是我們正在討論 AI 如何變成一場工業資本支出競賽,你必須在所有供應鏈環節上快速建設。當你聽到這個,至少到目前為止,你只會想到中國。這是他們的比較優勢。特別是如果我們明年不會一步登天到 ASI,而是需要數十年的建設和基礎設施,你如何應對中國的競爭?他們在那個世界裡是否享有特權?

Satya Nadella

這是一個很好的問題。事實上,你剛才點出了為什麼對美國技術的信任可能是最重要的特點。它甚至可能不是模型的能力。而是,「我能信任你這家公司嗎?我能信任你這個國家及其機構作為一個長期的供應商嗎?」這或許才是贏得世界的關鍵。

Dwarkesh Patel

這是一個很好的結語。Satya,謝謝你接受採訪。

Satya Nadella

非常感謝。

Dylan Patel

謝謝你。

Satya Nadella

太棒了。你們兩個真是個好團隊。

💡 對我們的 AI 研究助手感興趣嗎?

使用 AI 技術革新您的研究流程、提升分析效率並發掘更深層次的洞見。

了解更多