Google:AI 公司的故事

Podcast連結

Highlight

1.

Google 不僅在十年前擁有世界上最密集的 AI 人才,從而帶來了這項突破,而且時至今日,他們擁有的資產組合幾乎是你能想像到的最佳狀態。他們擁有頂級的 AI 模型 Gemini。他們不依賴某些公共雲來託管模型,他們有自己的 Google Cloud,現在年營收達到 500 億美元,這是真正的規模。

他們是一家晶片公司,擁有自己的 Tensor 處理單元(TPU),這是除了 Nvidia GPU 之外,世界上唯一真正具規模的 AI 晶片部署。也許還有 AMD,但這兩家絕對是前兩名。

有位研究人員曾對我說,如果你沒有一個基礎的前沿模型,或者你沒有一款 AI 晶片,那麼在 AI 市場上,你可能就只是一個大宗商品。而 Google 是唯一一家兩者兼具的公司。

Google 仍然擁有一群瘋狂的人才儲備,儘管 ChatGPT 幾乎成了這個時代的代名詞,但 Google 仍然掌握著那個文字框——那個對絕大多數人來說通往網路的前門,每當任何人在網路上有任何意圖時都會使用它。

2.

在 Transformer 論文發表之前,以下所有我們之前談到過的人,都曾是 Google 的員工:Ilya Sutskever,OpenAI 的創始首席科學家;他與 Jeff Hinton 和 Alex Krizhevsky 一起在 AlexNet 上完成了開創性的 AI 研究,並在那之前幾年發表了成果,他們三位都是 Google 的員工;同樣的還有 Dario Amodei,Anthropic 的創辦人;Andrej Karpathy,直到最近還是 Tesla 的首席科學家;Andrew Ng、Sebastian Thrun、Noam Shazeer,以及所有 DeepMind 的成員:Demis Hassabis、Shane Legg、Mustafa Suleyman——Mustafa 除了過去是 DeepMind 的創辦人之外,現在還負責 Microsoft 的 AI 業務。

基本上,在 AI 領域每一位有名望的人物都曾在 Google 工作過,唯一的例外可能是 Yann LeCun,他在 Facebook 工作。

3.

Larry Page 始終將 Google 視為一家人工智慧公司。事實上,Larry Page 的父親是一位電腦科學教授,他在密西根大學攻讀博士學位時,研究的正是機器學習和人工智慧,這在當時的電腦科學領域並不是一個熱門的領域。

4.

PageRank,也就是 Google 賴以建立的 PageRank 演算法,是一種統計方法。你可以將其歸類為電腦科學範疇內的 AI。而 Larry 當然一直有著更遠大的夢想。

我們之前在這個節目中引用過他在 2000 年,也就是 Google 成立兩年後說過的話:「人工智慧將是 Google 的終極版本。如果我們擁有終極的搜尋引擎,它將理解網路上的一切,它將完全理解你想要什麼,並給你正確的東西。那顯然是人工智慧。我們現在離做到這一點還很遠,但我們可以逐步接近,而這基本上就是我們在這裡努力的方向。」

5.

有一天,在 2000 年末或 2001 年初,時間線有些模糊,一位名叫 George Harik 的 Google 工程師正在與著名的 Google 工程師 Ben Gomes,以及一位相對較新的工程師,名叫 Noam Shazeer 一起吃午餐。

George 是 Google 最早的十名員工之一,是一位傑出的工程師,就像 Larry Page 的父親一樣,他擁有密西根大學的機器學習博士學位。當 George 在那裡就讀時,這仍然是一個相對罕見、逆向的電腦科學子領域。

所以,他們三個人正在吃午餐,George 不經意地對大家說,他有一個來自博士生時代的理論,即壓縮數據實際上等同於理解數據。他的思路是,如果你能拿一段給定的資訊,把它變小,儲存起來,然後稍後再將其恢復成原始形式,唯一可能做到這一點的方法是,作用於數據的任何力量都必須真正理解它的含義。因為你在丟失資訊,把它縮減成更小的東西,然後再重新創造出原始的東西。這就像一個學生在學校裡,你在學校學到一些東西,讀了一本很長的教科書,把資訊儲存在記憶中,然後你參加一個考試,看你是否真的理解了這些材料,如果你能重現這些概念,那麼你就真的理解了。

這在某種程度上預示了今天的大型語言模型(LLM),它們就像將全世界的知識壓縮成一定數量的 TB,變成一個壓縮過的小向量集。至少與全世界的資訊相比是小的,但這不就是那個想法嗎?你可以將全世界的資訊儲存在一個 AI 模型中,這個模型有點難以理解和掌握,但如果你解壓縮它,你就能將知識恢復到其原始形式。

6.

Noam 和 George 繼續努力,最終他們創造了一個相當大的——我這裡用引號括起「大」,因為是相對於當時而言——語言模型,他們親切地稱之為 Fill,即「機率性層級推論學習器」(Probabilistic Hierarchical Inferential Learner)。

2003 年,Susan Wojcicki 和 Jeff Dean 正準備推出 AdSense。他們需要一種方法來理解這些第三方網頁,也就是發布者的內容,以便在上面投放 Google 的廣告。而 Fill 正是他們用來實現這個目的的工具。

7.

Fill 變得如此龐大,據說到 2000 年代中期,Fill 佔用了 Google 整個資料中心基礎設施的 15%。我想其中很大一部分是 AdSense 的廣告投放,但也包括「您是不是要找」以及他們在 Google 內部開始使用的所有其他東西。
所以,早期的自然語言系統在計算上是昂貴的。
是的。

所以,好的,現在是 2000 年代中期。快轉到 2007 年,這是對我們故事來說非常非常重要的一年。

Google 剛在不久前推出了 Google 翻譯產品。這是所有偉大產品誕生的時代,我們之前談過,地圖、Gmail、文件,以及所有後來會出現的精彩事物,如 Chrome 和 Android。
他們有大約十年的輝煌時期,基本上推出了你所知道的 Google 的所有產品,除了搜尋。真的,在一個十年的輝煌期裡。然後,從 2013 年開始,大約有十年的時間,他們基本上沒有推出任何你聽說過的新產品,直到我們迎來了 Gemini。

8.

Google 翻譯的首席架構師是另一位傑出的機器學習博士,名叫 Franz Och。Franz 在自然語言處理和機器學習方面有深厚的背景,他的博士學位也是在這個領域。他在德國獲得了博士學位。

當時,DARPA——國防高等研究計劃署——正在舉辦他們著名的機器翻譯挑戰賽。所以 Google 和 Franz 當然也參加了。Franz 建立了一個更大的語言模型,在當年的 DARPA 挑戰賽中,這個模型完全擊敗了競爭對手。這大概是 2006 或 2007 年。它獲得了一個當時極高的 BLUE 分數,這是一種評估翻譯品質的演算法基準。當時,這個分數比任何其他可能的東西都要高。

9.

Jeff 進去和翻譯團隊一起工作了幾個月,他重新設計了演算法,使其能夠並行處理句子中的詞語,而不是順序處理。因為當你翻譯一組句子或句子中的一組詞語時,你不一定需要按順序來。你可以把問題分解成不同的部分,獨立處理。你可以將其並行化。

你不會得到完美的翻譯,但想像一下你只翻譯每一個單詞,你至少可以同時並行翻譯所有單詞,重新組合句子,然後大致理解原始的含義。
是的,而且正如 Jeff 非常清楚的,因為他和 Sanjay 基本上是用 Urs Hölzle 的架構建立的,Google 的基礎設施是極度可並行化的。它是分散式的,你可以把工作負載分解成小塊,把它們發送到 Google 擁有的各個資料中心,重新組合專案,然後將結果返回給用戶。

他們是世界上在跨越多個資料中心的 CPU 上並行化工作負載方面做得最好的公司。

Jeff 和團隊的努力將平均句子翻譯時間從 12 小時縮短到 100 毫秒。然後他們就在 Google 翻譯中發布了這個功能,結果非常棒。

10.

當然,Google 業務的皇冠上的明珠,也可能是這項技術的一個有趣的應用,就是 AdWords 的廣告品質分數。這實際上就是對特定廣告文案的預期點擊率的預測。你可以想像,一個能夠很好地吸收資訊、理解並根據這些資訊進行預測的 LLM,對於計算 Google 的廣告品質可能非常有用。
是的,這直接轉化為 Google 的利潤。

11.

2007 年 4 月,Larry Page 聘請了來自史丹佛大學的 Sebastian Thrun。他來到 Google,先是兼職,後來全職,致力於機器學習的應用。Sebastian 曾是史丹佛大學 SAIL(史丹佛人工智慧實驗室)的負責人。這是一個傳奇的 AI 實驗室,在 60 年代、70 年代的第一波 AI 浪潮中非常活躍,當時 Larry 的父親也活躍在那個領域。後來它一度關閉,然後在 2000 年代初又重新啟動並充滿活力,而 Sebastian 正是 SAIL 的領導者。

在 2007 年 12 月,Sebastian 請來了一位當時相對不知名的多倫多大學機器學習教授,名叫 Jeff Hinton,來 Google 校園做一次技術演講。他還沒被雇用,只是來給 Google 的人做一次技術演講。他談到了他和他在多倫多大學的博士生和博士後學生正在做的一些新工作,關於利用神經網絡開闢新道路。

對於任何不認識 Jeff Hinton 這個名字的人來說,他現在被廣泛稱為神經網絡的教父,甚至是整個 AI 發展方向的教父。他當時算是一個邊緣的學者。

12.

神經網絡並不是一個新想法,理論上它有巨大的潛力,但在實踐中,做多層運算需要太多的計算能力。你真的只能有一層,或者最多是個位數層級的電腦神經網絡,直到那個時候。

但是,Jeff 和他的前博士後,一個叫 Yann LeCun 的人,開始在社群中宣傳:「嘿,如果我們能找到一種方法,擁有多層、深層的神經網絡,也就是我們所說的深度學習,我們就能真正實現這裡的潛力。」
問題不在於想法不好,而在於實現方式,這需要大量的運算能力來完成所有的數學運算,所有的乘法運算,才能在一層又一層的神經網絡中傳播,從而檢測、理解和儲存模式。如果我們真的能做到這一點,一個龐大的、多層的神經網絡將會非常有價值,而且可能真的能成功。
現在是 2007 年,2000 年代中期,摩爾定律已經發展到足夠的程度,你實際上可以開始測試其中一些理論。
所以,Jeff 來了,他在 Google 做了一場演講。

Google 的人,Sebastian、Jeff Dean 和其他所有人都非常興奮。因為他們已經在用翻譯和他們正在研究的語言模型做類似的事情了。那還沒有使用深度神經網絡,但 Jeff 正在研究這個。所以,這裡出現了一個全新的架構方法,如果他們能讓它成功,就能讓他們正在建立的這些模型運作得更好,識別更複雜的模式,更好地理解數據。非常有前景。

再次強調,這在當時很大程度上還處於理論階段。

所以,Sebastian Thrun 在這次技術演講後,把 Jeff Hinton 帶進了 Google 的圈子。我想,在接下來的幾年裡,他先是作為顧問,後來 Jeff Hinton 在技術上成了 Google 的實習生,這就是他們繞過全職兼職政策的方式。
是的。他是 2011、2012 年左右的暑期實習生,而且請注意,那時候他已經 60 歲了。

Sebastian 的這個將電腦科學、機器學習學者引進 Google 作為承包商、兼職或實習生的概念——基本上是讓他們保留學術職位,同時為 Google 的產品做大型專案——取得了巨大的成功,以至於到 2009 年末,Sebastian、Larry 和 Sergey 決定,他們應該在 Google 內部成立一個全新的部門。於是,Google X,這個登月工廠,就誕生了。

Google X 的第一個專案,由 Sebastian 親自領導。

二個專案,叫做 Google Brain。

13.

當 Sebastian 全職離開史丹佛大學,加入 Google 後,當然需要有人接管 SAIL。接任的人是另一位電腦科學教授,一位傑出的學者,名叫 Andrew Ng。

Sebastian 做了什麼?他招募 Andrew 兼職來 Google,每週花一天時間在 Google 校園裡。這恰逢 X 的成立,Sebastian 將這個部門正式化。

在 2010、2011 年左右,Andrew 正在 Google 校園裡度過他的一週一天,他碰到了誰呢?當然是 Jeff Dean。Jeff Dean 告訴 Andrew 他和 Franz 在語言模型方面的成就,以及 Jeff Hinton 在深度學習方面的進展。當然 Andrew 也知道這些。Andrew 也談到他和 SAIL 在史丹佛大學做的事情。

他們決定:「你知道嗎,也許時機終於成熟了,可以在 Google 內部真正大展拳腳,建立一個巨大的、非常大的深度學習模型。」

在你說時機可能成熟的時候,Google 之前已經嘗試過兩次了,而且兩個專案都沒真正成功。他們嘗試過一個叫做 Brains on Borg 的東西——Borg 是他們用來運行所有基礎設施的內部系統——他們也嘗試過 Cortex 專案,但這兩個都沒有真正成功。所以 Google 內部,在研究團隊裡,對於大規模神經網絡是否真的能在 Google 的基礎設施上運作,是有點陰影的。

所以,他們兩人,Andrew Ng 和 Jeff Dean,找來了 Greg Corrado,他是一位神經科學博士和傑出的研究員,當時已經在 Google 工作。2011 年,他們三人在 X 內部啟動了第二個正式專案,恰如其分地命名為 Google Brain。

他們三人開始著手建立一個非常非常大的深度學習神經網絡模型。

如果他們要這麼做,他們需要一個系統來運行它。Google 一向擅長將這種前沿研究,然後進行架構和工程系統的設計,讓它真正能夠運行。

所以 Jeff Dean 正在開發這個系統,這個基礎設施,他決定將這個基礎設施命名為 DistBelief。這當然是一個雙關語,既指系統的分散式特性,也指「disbelief」(不相信),因為當時領域裡的大多數人,甚至 Google 內部的大多數人,都認為這行不通。

14.

當時所有的研究都指向一個觀點,就是你需要同步。所以所有的運算都需要非常密集,發生在一台單一機器上,有非常高的並行性,有點像 GPU 做的事情。你希望所有的運算都發生在一個地方,這樣就很容易查詢系統中其他所有東西的計算值,然後再進行下一步。

Jeff Dean 用 DistBelief 寫的恰恰相反。它分散在大量的 CPU 核心上,可能遍布一個資料中心,甚至可能在不同的資料中心。所以理論上這很糟糕,因為這意味著你在任何一台機器上都需要不斷等待其他機器同步它們更新的參數,然後才能繼續。但相反,這個系統實際上是異步運作的,它不費事去獲取其他核心的最新參數。所以你基本上是在用過時的數據更新參數。你會認為這行不通,但神奇的是,它成功了。

15.

在一篇他們在 2011 年底提交的論文中,我先告訴你論文的標題:《利用大規模無監督學習建立高階特徵》。但大家都叫它「貓咪論文」。
貓咪論文。
你和 Google 的任何人,或者 AI 領域的任何人聊,他們都會說:「哦,是的,貓咪論文。」

他們做的是,他們訓練了一個龐大的九層神經網絡,用 16,000 個 CPU 核心在一千台不同的機器上,從 YouTube 影片的未標記幀中識別貓。

Sundar提到看到貓咪論文出現在他的辦公桌上,是他腦海中 Google 故事裡的關鍵時刻之一。
後來他們在一次 TGIF(Thank God It's Friday,Google 的週五全員會議)上展示了貓咪論文的成果,你和 Google 的人聊,他們會說:「哦,天啊,那次 TGIF,那改變了一切。」
它證明了大型神經網絡可以真正學習有意義的模式,而不需要監督和標記數據。不僅如此,它還可以在 Google 建立的分散式系統上運行,讓它真正在他們的基礎設施上運作。而這對整個事情來說是一個巨大的解鎖。

所以,貓咪論文證明了你可以用這項技術,一個深度神經網絡,運行在 DistBelief 上,去深入 YouTube 庫中的影片,並理解它們的內容,然後用這些數據來找出要向人們推薦什麼影片。
如果你能回答「是貓還是不是貓」的問題,你就能回答更多其他的問題。
這是 Jeff Dean 關於這件事的引述:「我們建立了一個系統,讓我們能夠通過模型和數據並行的方式來訓練相當大的神經網絡。我們有一個在 1000 萬個隨機選擇的 YouTube 幀上進行無監督學習的系統。」

然後 Facebook 借鑒了它,他們雇用了 Yann LeCun,開始了 Facebook AI 研究,然後他們把它帶進了 Instagram,然後 TikTok 和字節跳動也採用了它,然後它又回到了 Facebook 和 YouTube,變成了 Reels 和 Shorts。這是接下來十年裡,地球上的人們度過閒暇時間的主要方式。

對於任何能善用推薦系統和分類系統的公司——基本上是任何有社交 feed 的公司——AI 時代是從 2012 年開始的。
是的,AI 時代從 2012 年開始,一部分是貓咪論文,另一部分是 Jensen 和 Nvidia 一直稱之為 AI 的「大爆炸時刻」,那就是 AlexNet。

16.

2013年

Jeff Hinton,在多倫多大學,他有兩位他正在合作的研究生。Alex Krizhevsky 和 Ilya Sutskever。
當然,未來的 OpenAI 共同創辦人和首席科學家。
他們三人正在用 Jeff 的深度神經網絡想法和演算法,為著名的 ImageNet 電腦科學競賽準備一個參賽作品。

他們靈光一閃,想到:「如果我們重新設計這個東西,不是在 CPU 上運行,而是在一種完全不同的電腦晶片上運行呢?這種晶片本質上就是高度、高度、高度並行化的——電玩遊戲的顯示卡。」由當時該領域的領先公司 Nvidia 製造。
當時並不顯而易見,尤其是不顯而易見的是,這種先進的、前沿的、學術性的電腦科學研究,通常是在超級電腦上進行的,會用這些玩具般的電玩遊戲卡。

所以,在 AlexNet 之後,整個電腦科學界都為之沸騰。
人們開始停止懷疑神經網絡了。

所以,在 AlexNet 之後,多倫多的三位,Jeff Hinton、Alex Krizhevsky 和 Ilya Sutskever,做了自然而然的事:他們創辦了一家公司,叫做 DNN Research(深度神經網絡研究)。這家公司沒有產品,這家公司有 AI 研究員。

發生了一件非常瘋狂的事,第一筆收購報價其實是來自百度。

百度出價 1200 萬美元。Jeff Hinton 不太知道如何為公司估值,也不知道這個價格是否合理。所以他做了任何一個學者都會做的事,來最好地確定公司的市場價值:他說:「非常感謝,我現在要辦一場拍賣。」而且他要以一種高度結構化的方式進行,每一次有人出價,計時器就會重置,然後會有另外一個小時,讓其他人提交新的出價。

他聯繫了所有他從研究社群中認識的,現在在一家他認為適合他們做研究的大公司工作的人。這包括百度,包括 Google,包括 Microsoft,還有另外一家成立兩年的新創公司-DeepMind。

Facebook 還沒有真正進入 AI 領域。他們還在試圖建立自己的 AI 實驗室。因為 Yann LeCun 和 FAIR 是在 2013 年開始的。

競標價格不斷攀升,到了某個時刻,Microsoft 退出了,然後又回來。我跟你說過,DeepMind 也退出了。所以最後剩下 Baidu 和 Google 在競爭。

最終,在某個時刻,研究人員們互相看了一眼,說:「我們真正想去的地方是哪裡?」他們想去 Google。於是他們在 4400 萬美元時停止了競標,然後直接說:「Google,這筆錢已經綽綽有餘,我們選擇跟你們走。」

哇。我知道金額大約是 4000 萬美元,但我不知道這個完整的故事。這幾乎就像 Google 本身,以及它的荷蘭式拍賣 IPO 過程。多麼貼切啊。

這件事導致他們三個人直接加入了 Google Brain,為那裡的一切注入了強大的動力。劇透一下,幾年後,接替 Sebastian Thrun 掌管 Google X 的 Astro Teller。

2014 年 1 月,Google收購Deepmind

DeepMind 於 2010 年創立,創辦人是一位名叫 Demis Hassabis 的神經科學博士,他之前創辦過一家電玩遊戲公司。哦耶。還有倫敦大學學院的一位名叫 Shane Leg 的博士後研究員,以及第三位共同創辦人,是 Demis 從小到大的朋友之一,Mustafa Suleyman。

這組合相當不尋常。至少可以這麼說。這組合後來產生了一位騎士和一位諾貝爾獎得主。

所以,執行長 Demis 曾是一位童年時期的西洋棋神童,後來成為了電玩遊戲開發者。他在 1994 年 17 歲時,被劍橋大學錄取,但因為年紀太小,大學要他休學一年再來。他決定在那一年去一家名為 Bullfrog Productions 的電玩遊戲工作室工作。在那裡,他創造了《Theme Park》這款遊戲,如果你還記得的話。它就像是《SimCity》的主題樂園版。這是一款很成功的遊戲,在商業上非常成功。《RollerCoaster Tycoon》可以說是它的模仿者,後來也推出了很多續作。哦,我玩了超多那個的。

之後,他去了劍橋大學讀電腦科學。畢業後,他又回到了遊戲產業,創辦了另一家名為 Elixir 的遊戲工作室,但最終失敗了。然後他決定去攻讀神經科學博士學位,這就是 Demis 最終來到倫敦大學學院的原因。

在那裡,他遇到了 Shane Leg,他當時是博士後研究員。Shane 自稱是當時 AI 領域「瘋狂邊緣派」的一員。他相信,AI 的力量每年都會變得越來越強大,最終會變得比人類更聰明。Shane 是最早推廣「通用人工智慧」(AGI)這個詞的人之一。

所以,Demis 和 Shane 一拍即合。他們拉攏了 Demis 的兒時好友 Mustafa,他本人也非常聰明,曾就讀於牛津大學,但在 19 歲左右輟學去創業。於是,他們三個人決定創辦一家公司,名為 DeepMind。這個名字當然是向 Jeff Hinton 的深度學習研究以及多倫多大學的研究成果致敬,也反映了他們三人想要用深度學習真正創造一個「有智慧的心智」的目標。

當時 Jeff、Ilya 和 Alex 還沒真正思考到這個層面。正如我們所說,這在當時是「瘋狂邊緣派」的想法。

是的。AlexNet 和貓咪論文,整個領域當時都專注於更好地分類數據,如何更好地將數據歸類到模式中。從那裡跳到「我們要創造智慧」,是一個巨大的飛躍。

要實現他們的目標,需要錢。

這很有趣,其實他們當時並不需要那麼多資金。當時的 AI 只需要幾張 GPU。我們還沒有在訓練巨大的大型語言模型。那最終是他們的抱負,但當時他們只需要籌集幾百萬美元。但問題是,當你沒有商業計畫,只是想「解決智慧」時,誰會給你幾百萬美元呢?你需要找到一些瘋子。

這對創投來說很難推銷。

所以,在 2010 年 6 月,Demis 和 Shane 設法被邀請參加在加州舊金山舉行的「奇點峰會」(Singularity Summit)。因為他們在倫敦籌不到這筆錢。

這次峰會是由 Ray Kurzweil(未來的 Google 員工,首席未來學家)、Eliezer Yudkowsky 和 Peter Thiel 組織的。

Shane 說:「我們需要一個瘋狂到願意資助一家 AGI 公司的人。一個有足夠資源,不在乎幾百萬美元,並且喜歡超級有野心的事物的人。他們還必須非常有逆向思維,因為他去找的任何一位教授肯定都會告訴他,絕對不要考慮資助這種東西。」

這個描述聽起來非常像 Peter Thiel。

所以,他們到了會場,Demis 準備演講。他走上台,看向觀眾席,Peter 不在那裡。原來 Peter 並沒有真正深度參與這次會議。他很忙。

他們想:「糟糕,我們錯過機會了。怎麼辦?」然後,幸運之神眷顧了他們。他們發現 Peter 當晚在舊金山的家裡要舉辦一場會後派對。他們進了派對,Demis 找到了 Peter。Demis 非常非常聰明,任何聽過他說話的人都會馬上知道。他心想,與其直接向 Peter 提案,不如拐彎抹角。他開始和 Peter 聊西洋棋,因為他知道,大家都知道,Peter Thiel 熱愛西洋棋。而 Demis 在青少年時期曾是世界排名第二的 14 歲以下棋手。

這個人懂得如何下棋。所以 Peter 覺得:「嗯,我喜歡你。你看起來很聰明。你是做什麼的?」Demis 解釋說他有一家 AGI 新創公司,他們其實是來這裡的,他在台上發了言,大家對此都很興奮。Peter 說:「嗯,好吧。明天來 Founders Fund,給我你的提案。」

他們去了,提案很成功,Founders Fund 領投了 DeepMind 約 200 萬美元的種子輪融資。

天啊,AI 公司種子輪的時代變了。想像一下用不到 200 萬美元的支票領投 DeepMind 的種子輪。

在 2013 年底的某一天,他們接到了一通電話,來自 Mark Zuckerberg。他想收購這家公司。

Mark 已經意識到在 AlexNet 事件後 Google 發生的所有事情,以及 AI 對於社群媒體動態推薦的影響,就像在 YouTube 上一樣。他也看到了 AI 在 Facebook 和 Instagram 上可能發揮的潛力。他已經招募了 Yann LeCun,他是 Jeff Hinton 的老博士後,和 Jeff 一起被譽為 AI 和深度學習的教父之一。

他真正推廣了卷積神經網路的概念,這是當時 AI 領域的下一個熱門話題。

於是,他和 Yann 一起創立了 FAIR(Facebook AI Research),這是 Facebook 內部與 Google Brain 競爭的機構。記住,誰是 Facebook 的第一位投資者,並且仍在董事會上?Peter Thiel。他也是 DeepMind 的領投者。你猜 Mark 是從哪裡聽說 DeepMind 的?Peter Thiel。

然後,Demis 接到了第三通電話,來自 Larry Page。

Larry 一直將 Google 視為一家 AI 公司。Demis 當然也將 DeepMind 視為一家 AI 公司,以至於在實現 AGI 之前,他甚至不想開發任何產品。

事實上,Demis 告訴我們,當我們為這集做準備時,他覺得 Larry 完全理解他。Larry 完全支持 DeepMind 所做的一切使命。

還有另一件對 Google 來說非常方便的事。他們已經有了 Brain。所以 Larry 不需要 Demis、Shane 和 Mustafa 以及 DeepMind 來 Google 開發產品。對。Brain 已經在 Google 內部開發產品了。Demis 完全可以相信 Larry 說的話:「不,待在倫敦,繼續研究智慧,做你們正在做的事。我不需要你們來開發產品。」Brain 正在積極地與產品團隊合作,試圖找出如何將神經網路部署到他們的產品中以使其變得更好。這就是他們存在的理由。所以他們很樂意同意這一點。

還有第三個原因,為什麼 Google 是 DeepMind 的完美歸宿:基礎設施。Google 擁有你所能想要的一切運算基礎設施。隨時可用。

17.

在 2014 年春天,Jeff Dean 和 John Giannandrea,他後來去了 Apple 擔任 AI 主管,但在這個時候,他在 Google 負責 Google Brain。他們坐下來制定了一個計畫,如何正式地將 GPU 納入 Google 的機群。這是一個重大的決定,一個重大的改變。

所以他們決定訂購 4 萬張 GPU,來自 Nvidia。是的,當然,你還能向誰訂購呢?總價 1.3 億美元。這是一個足夠大的價格標籤,以至於這個請求被提升到了 Larry Page 那裡,他親自批准了,儘管財務部門想否決它,因為他說:「看,Google 的未來是深度學習。」

順帶一提,讓我們看看當時的 Nvidia。這是一個巨大、巨大的訂單。他們當時的總營收是 40 億美元,而這只是一個 1.3 億美元的訂單。我的意思是,Nvidia 當時主要是一家消費級顯卡公司。

是的,他們的市值是 100 億美元。

這幾乎就像 Google 給了 Nvidia 一個秘密,告訴他們:「嘿,這不僅僅在像 ImageNet 競賽這樣的研究中有效,神經網路對我們作為一家企業來說,價值大到足以讓我們現在就投入超過 1 億美元,沒有任何問題。」

我們得找個時間問問 Jensen 這件事。這肯定是一個暗示。這肯定給了 Nvidia 信心,讓他們相信這將是未來的一個巨大商機,應該大力投入。

所以,整個 Google 都意識到了這個想法。他們開始真正地把它投入到他們的產品中。Google Photos 出現了,Gmail 開始提供打字建議。David,正如你之前指出的,Google 巨大的 AdWords 業務開始找到更多用深度學習賺錢的方法。特別是,當他們整合它之後,他們可以開始預測人們未來會點擊哪些廣告。所以 Google 開始在 GPU 上投入數億美元,在最初的 1.3 億美元基礎上,但很快就從他們的廣告系統中回本了。所以,購買盡可能多的 GPU 變得越來越理所當然。

18.

在 Google 推出語音辨識功能後,有一個很棒的時刻,這是他們最新的神經網路應用,當時只在 Nexus 手機上推出。因為,同樣,他們沒有基礎設施來支持所有的 Android 手機。這項功能變得非常受歡迎,Jeff Dean 算了一下,如果人們每天用這個功能三分鐘,然後我們把它推廣到所有十億台 Android 手機,我們將需要兩倍於我們目前在整個 Google 擁有的資料中心數量,才能應付這個需求。

Jeff Dean 去找 Urs Hölzle,跟他說:「我們需要另一個 Google。」

很方便的是,Jonathan Ross,Google 的一位工程師,一直在利用他的 20% 時間,研究一個涉及 FPGA 的專案。這些基本上是昂貴但可編程的晶片,能產生非常棒的結果。所以他們決定創建一個正式的專案,將那項工作與其他一些現有的工作結合起來,打造一個客製化的 ASIC,或稱應用特定積體電路。

於是,就有了張量處理單元(TPU),專為神經網路打造,比當時的 GPU 效率高得多,但代價是你幾乎不能用它做其他任何事。它不適合圖形處理,也不適合很多其他的 GPU 工作負載,只適合矩陣乘法,只適合神經網路。

但這讓 Google 能夠擴展他們的資料中心,而不需要將整個 footprint 翻倍。TPU 背後的大想法,如果你想知道核心洞見是什麼,是他們使用了降低的計算精度。所以它會把像 4586.8272 這樣的數字,四捨五入到 4586.8,甚至可能只是 4586,小數點後什麼都沒有。

這乍聽之下有點反直覺,你為什麼會想要用更不精確的四捨五入的數字,來做這麼複雜的數學運算呢?答案是效率。如果你能在你的軟體架構中做繁重的工作,或者所謂的「量化」來彌補,你就可以用更不精確的數字來儲存信息,那麼你就可以用同樣的電力、同樣的記憶體和同樣的電晶體,在每秒內做更多的計算。所以你可以更快地得到答案,或者使用更大的模型。整個想法非常巧妙。

TPU 的另一件事是,它必須現在就做出來。因為很明顯,語音轉文字是一個趨勢,很明顯 Google 的一些其他應用場景也是。是的,對所有這些來自 Google Brain 的東西的需求,是立即的,而且非常大。

所以,TPU 在 15 個月內,被設計、驗證、製造並部署到資料中心。

19.

今天,據估計,Google 擁有兩百到三百萬個 TPU。作為參考,Nvidia 去年出貨了,大家不確定具體數字,但大約是 400 萬張 GPU。所以,大家談論 AI 晶片時,好像這只是 Nvidia 的一場獨角戲,但 Google 擁有一個幾乎與 Nvidia 規模相當的內部部門,為他們自己和 Google Cloud 的客戶製造自己的晶片。TPU 在 AI 領域是一個巨大的交易,我認為很多人沒有意識到。

20.

這是一個巨大的諷刺,也是讓 OpenAI 和 Elon Musk 感到抓狂的事情之一,那就是 OpenAI 在 2015 年創立,目標是:「嘿,讓我們把這些人才從 Google 挖出來,讓競爭環境公平一些。」結果 Google 只是加速了。

對。他們還建立了 TensorFlow,這是 Google Brain 建立的框架,讓研究人員能夠建立、訓練和部署機器學習模型。他們建立它的方式是,它不僅僅只能在 TPU 上運行,它還非常便攜,不需要任何重寫就可以在 GPU 甚至 CPU 上運行。所以這取代了舊的 DistBelief 系統,成為他們內部和外部,為 ML 研究人員提供支持的框架。

21.

在 2017 年,一篇論文發表了,來自 Google Brain 團隊的八位研究人員。有點悄無聲息。這八個人,對於這篇論文和它的描述,以及它的影響,當然是非常興奮的。他們認為這將會非常重要。

這就是 Transformer 論文。

在 Franz Och 在 Google Translate 上的工作取得成功之後,以及那裡發生的改進,大約是在 2000 年代末期?2007 年。對,2000 年代中後期。他們不斷地改進 Translate,然後,一旦 Jeff Hinton 加入,AlexNet 出現了,他們就轉而使用基於神經網路的語言模型來做 Translate。

這是一個巨大的進步,也是一個很大的文化衝擊。因為你有這些研究人員空降進來,同樣由 Jeff Dean 領導,說:「我很確定我們的神經網路能比我們過去十年一直使用的經典方法做得好得多。如果我們花接下來幾個月的時間,做一個概念驗證呢?」他們最終拋棄了整個舊的程式碼庫,完全轉向了這個神經網路。當時有一篇很棒的《紐約時報》雜誌的報導,在 2016 年刊登了關於這件事的文章。我還記得當時讀完整篇文章,下巴都快掉下來了。哇,神經網路真是個大事。而這是在 Transformer 論文發表的前一年。

所以,他們重寫了 Google Translate,讓它基於循環神經網路,這在當時是最先進的技術,而且效果有了很大的提升。

但是,隨著 Google Brain 和 Google Translate 團隊的不斷努力,他們發現了一些局限性。特別是一個大問題是,它們會太快地「忘記」事情。

為了解決這個問題,Google 嘗試的方法之一是使用一種稱為長短期記憶網絡(Long Short-Term Memory Networks),或簡稱 LSTM 的技術。基本上,LSTM 所做的是創造一個持久的、或說「長」的「短期記憶」。

然而,LSTM 雖然有效,但它們的計算成本非常高,而且並不太適合平行處理。當時所有源於 AlexNet 和 TPU 計畫的努力都指向平行化,認為這才是未來,是讓 AI 真正發揮作用的方式。在這一點上,LSTM 構成了一個阻礙。

因此,Google Brain 內部的一個團隊開始尋找一種更好的架構。他們希望新架構既能擁有 LSTM 的優點——不會太快忘記上下文,又能更好地進行平行化和擴展,以利用所有這些新的硬體架構。

一位名叫 Jakob Oskoreit 的研究員一直在思考一個想法,那就是擴大語言處理中「注意力(attention)」的範圍。如果模型不只是專注於眼前的幾個詞,而是被告知去關注整個文本語料庫呢?根據完整的上下文,並將注意力分配到整個文本,然後對下一個翻譯的詞做出預測。

順帶一提,這實際上就是專業的人類譯者翻譯文本的方式。你不會逐字翻譯,而是會先閱讀原文的全部內容,理解其上下文,然後才回過頭來,在掌握整篇文章脈絡的情況下開始翻譯。

這個方法需要大量的計算能力,但它非常適合平行化處理。Jakob 開始與 Brain 團隊的其他幾位成員合作,他們對此感到興奮。他們決定將這項新技術命名為「Transformer」。

這個命名有兩個原因:第一,這確實是它在做的事——接收大量資訊,進行處理和理解,然後轉換它。第二,因為他們小時候都喜歡變形金剛(Transformers)。它接收龐大的文本語料庫,並以壓縮格式儲存。

22.

談到 Noam Shazeer,他得知了這個專案。他想,他對此有些經驗,這聽起來很酷。

Noam 加入團隊後,基本上就像 Jeff Dean 一樣,從頭重寫了整個程式碼庫。當他完成後,Transformer 的表現徹底輾壓了基於 LSTM 的 Google 翻譯解決方案。

結果發現,他們把模型做得越大,效果就越好。

23.

Rich Sutton 的著名文章《苦澀的教訓》(The Bitter Lesson)要到 2019 年才會發表。對於沒讀過的人來說,它的主旨是:我們作為 AI 研究者,總以為自己很聰明,工作是想出下一個偉大的演算法。但實際上,從語言到計算機視覺再到西洋棋,在每個領域,只要你找到一個可擴展的架構,然後投入更多資料和更多算力,就能獲得更好的結果。這些無限擴展的模型,最終是資料量取勝。

這確實是這個觀點開始成為主流的起點,大家意識到:「哦,我們已經找到了那個可擴展的架構」,這個架構在接下來的近十年裡,只要投入更多資料、更多能源、更多算力,就能帶來更好的結果。

24.

在一年內,他們打造了大型語言模型 BERT。認為 Google 在 Transformer 論文發表後什麼也沒做的說法是錯誤的。他們其實做了很多事。事實上,BERT 是最早的大型語言模型之一。他們利用基於 Transformer 的大型語言模型做了很多工作。

因此,在一個或許對人類價值而言最偉大的決定之一,同時也可能是 Google 史上最糟糕的企業決策之一中,Google 允許這組八位研究員發表了這篇論文。論文的標題是《Attention Is All You Need》,顯然是向 The Beatles 關於愛的經典歌曲致敬。

截至 2025 年的今天,這篇論文在其他學術論文中已被引用超過 173,000 次,使其成為目前 21 世紀被引用次數第七多的論文,而且我認為榜單上排在它前面的其他論文發表時間都更早。

當然,在幾年內,這篇 Transformer 論文的所有八位作者都離開了 Google,去創辦或加入了 AI 新創公司,包括 OpenAI。

這是一次殘酷的損失。Noam 創辦了 Character.AI,後來 Google 透過一項涉及授權、IP 和招聘協議的奇特安排,以數十億美元的代價讓他回歸。可以說,2017 年開啟了 Google 未能充分抓住自己創造的機會的五年。

25.

2018 年 6 月,OpenAI 發表了一篇論文,描述了他們如何採用 Transformer,並開發出一種新的方法:在網路上大量的通用文本上進行「預訓練」,然後針對特定用例對其進行「微調」。他們也宣布已經訓練並運行了這種方法的第一個概念驗證模型,他們稱之為 GPT-1,即「生成式預訓練 Transformer」第一版。

2019 年,OpenAI 發布了 GPT-2。雖然還處於早期階段,但非常有前景。它可以做很多事情,但需要使用者有相當大的創造力。你基本上需要是個開發者才能使用它。如果你是個普通消費者,使用它的門檻很高。你必須先寫幾段文字,然後將它們貼到語言模型中,它會根據你提供的源段落,建議一種完成寫作的方式。但它不是互動式的,它是一個 API。

然後,在 2020 年 6 月,GPT-3 問世了。仍然沒有面向普通用戶的介面,但它非常出色。GPT-2 展示了可能性,而 GPT-3 則開始進入「它能否通過圖靈測試」的討論範圍。你很難區分 GPT 寫的文章和人類寫的文章。它非常出色,圍繞它的討論也越來越多。

所以,儘管消費者還沒有真正使用它,但更廣泛的認知是,一些有趣的事情即將發生。創投公司收到的 AI 商業計劃書數量在這個時期開始上升,Nvidia 的股價也是如此。

然後在 2021 年夏天,Microsoft 發布了使用 GPT-3 的 GitHub Copilot。這不僅是第一個整合了 GPT 的 Microsoft 產品,也是第一個將 OpenAI 技術產品化的應用。這是一件大事,它開始大規模地改變軟體編寫的方式。起初只有少數軟體工程師在使用,但現在,大約 75% 的公司程式碼都是由 AI 編寫的。

在那之後,Microsoft 又向 OpenAI 投資了 20 億美元,這在當時看來是一大筆錢。

在 2022 年底,也就是 ChatGPT 發布之前,人們開始覺得 Google 變慢了,對變化的反應遲鈍。感覺它像是一家老舊僵化的公司,就像 2000 年代的 Microsoft。他們已經有一段時間沒有推出突破性產品了。大家對 Google 的未來並不看好。

然後,ChatGPT 出現了。

OpenAI 已經有了 GPT-3.5,它變得非常有用,但仍然存在如何實際使用它的問題,如何將它產品化。Sam 只是說:「我們應該做一個聊天機器人,這似乎是一個自然的介面。」在一個星期內,他們內部就有人把對 GPT-3.5 API 的調用變成了一個你可以與之聊天的產品。

2022 年 11 月 30 日,OpenAI 發布了一個名為 ChatGPT 的新 GPT-3.5 介面的「研究預覽版」。那天早上,Sam Altman 發推文說:「今天我們推出了 ChatGPT。在這裡與它交談。」並附上了連結。

26.

Google 確實有一個聊天機器人。Noam 在 Transformer 論文發表後,立即開始向 Google 領導層倡導,他認為 Transformer 的潛力巨大,甚至應該考慮拋棄搜索索引和十個藍色連結的模式,全力將整個 Google 轉變為一個巨大的 Transformer 模型。

Noam 實際上繼續前進,並建立了一個名為 Meena 的聊天機器人介面,連接到一個大型 Transformer 模型。可以說與 ChatGPT 非常接近。當然,它沒有任何後訓練的安全性措施,所以它會失控。有人告訴我們,你甚至可以直接問它誰該死,它會給你列出名字。它不是一個可以發布的產品。

它是一個非常原始、不安全、未經後訓練的聊天機器人模型。但它確實存在於 Google 內部,而他們沒有發布它。

從技術上講,它不僅沒有經過後訓練,也沒有 RLHF(帶有人類反饋的強化學習),這是當今模型的一個非常核心的組成部分。ChatGPT 在 3.0 版本中可能沒有,但在 3.5 版本和發布時肯定有。所以,即使它是在 OpenAI,它也太糟糕了,無法發布。但對於 Google 這樣規模的公司,他們當然不能冒險。所以從戰略上講,他們面臨著這種困境。

但除了戰略問題,這裡還有兩個商業模式的問題。第一,如果你提議放棄十個藍色連結,把 google.com 變成一個巨大的 AI 聊天機器人,當你提供直接答案而不是展示廣告讓用戶點擊時,收入就會下降。這顛覆了整個商業模式。雖然他們現在正在考慮這個問題,但在 2021 年之前,提出這樣的建議是絕對不可能的。

第二,在出版商和用戶之間存在法律風險。

而且,還有一個品牌承諾和信任的問題。消費者非常信任 Google。

而且,當時也沒有一個令人信服的理由去做這件事,因為沒有人真正要求這樣的產品。Noam 知道,Google 內部的人也知道,你可以為一個基於 Transformer 的大型語言模型製作一個聊天介面,而且這是一個非常有吸引力的產品。但普通大眾並不知道。連 OpenAI 自己也沒完全意識到。

27.

在 2022 年 12 月,Sundar 在公司內部發布了「紅色警報」。

他說的是:「我們需要盡快開發並發布真正的原生 AI 產品。」這實際上是作為 incumbent 面對破壞性創新時,教科書式的正確反應。你不能把頭埋在沙子裡,你需要說:「好吧,我們需要去開發和發布能與這些破壞性創新者相媲美的產品。」

Sundar 做出了兩個非常重大的決定。第一,他說我們不能再有兩個 AI 團隊了。我們將把 Brain 和 DeepMind 合併成一個名為 Google DeepMind 的實體。

第二個決定,他說:「我希望你們去開發一個新模型,我們只會有一個模型。這將是整個 Google 的模型,無論是內部使用還是所有外部 AI 產品,都將使用這個模型。它將被稱為 Gemini,不再有不同的模型,不再有不同的團隊,所有東西都只用一個模型。」

紅色警報在 2022 年 12 月發出。2023 年 2 月,他們匆忙發布了 Bard。他們採用了 Lambda 模型和聊天介面,將其重新命名為 Bard,並立即向公眾發布。這是一個糟糕的產品。

28.

他們在 2023 年 5 月的 Google I/O 大會上非常迅速地宣布了這件事。他們宣布了 Gemini,宣布了計劃,同時也推出了搜尋中的 AI Overviews。這真是 Google 立即決定以 AI 速度運作的體現。要知道,ChatGPT 是在 2022 年 11 月 30 日推出的。

這個新的 Gemini 模型的一個關鍵部分是它將是多模態的。一個模型處理所有事情:文本、圖像、影片、音訊。他們在 2023 年 12 月向早期公眾開放,僅僅六個月的時間,他們就把它打造出來、訓練好並發布了。

2024 年 2 月,他們推出了具有一百萬 token 上下文視窗的 Gemini 1.5,這個視窗比市場上任何其他模型都要大得多,這也開啟了各種新的應用場景。2025 年 3 月,他們推出了 Gemini 2.5 Pro。

現在,Gemini 每月有 4.5 億活躍用戶。即使最近在 App Store 中排名第一,這個數字仍然讓人難以置信。

逐字稿

歡迎收聽 Acquired 2025 年秋季的節目,這是一個關於偉大公司及其背後故事與策略的 podcast。我是 Ben Gilbert。
我是 David Rosenthal。
我們是你的主持人。

創新者的窘境

這裡有一個兩難的困境。想像你有一家獲利豐厚的公司。你銷售的每一個單位產品都能帶來巨額利潤。你所競爭的市場也同樣巨大,甚至可以說是世界上最大的市場之一。但幸運的是,除此之外,你在這個巨大的市場中還處於壟斷地位,擁有 90% 的市佔率和高度的用戶鎖定效應。

而且當你說到壟斷時,是根據美國政府的定義。
完全正確。

但接著,想像一下:在你的研究實驗室裡,你聰明的科學家們提出了一項發明。這項特殊的發明,當與你其他聰明科學家們過去的眾多舊發明結合時,創造出的產品在大多數用途上都遠勝於你現有的產品。

所以,你會推出基於這項新發明的新產品。

尤其是因為出於純粹的善意,你的科學家們已經發表了研究論文,闡述這項新發明有多麼出色,以及在此之前的許多發明。所以現在,有新的新創公司競爭者正在迅速將那項發明商業化。所以,David,你當然會改變你的整個產品線,以基於這項新技術。

這聽起來像一部電影。
是的,但問題在於,你還沒有想出如何讓這個令人難以置信的新產品像你舊有的、像印鈔機一樣的業務那樣獲利。所以或許你不應該推出那款新產品。

David,這聽起來就像是創新者的窘境。

AI 革命的濫觴

當然,聽眾們,這就是今日的 Google,而且這或許是「創新者窘境」最經典的教科書案例。我們現在所處的整個 AI 革命,都基於 2017 年 Google Brain 團隊發明的 Transformer。所以,想想 OpenAI 和 ChatGPT、Anthropic、創下歷史新高的 Nvidia,所有這些現在的瘋狂現象,都仰賴於 Google 在 2017 年發表的那篇研究論文。

Google 無可匹敵的資產

再想一下:Google 不僅在十年前擁有世界上最密集的 AI 人才,從而帶來了這項突破,而且時至今日,他們擁有的資產組合幾乎是你能想像到的最佳狀態。他們擁有頂級的 AI 模型 Gemini。他們不依賴某些公共雲來託管模型,他們有自己的 Google Cloud,現在年營收達到 500 億美元,這是真正的規模。

他們是一家晶片公司,擁有自己的 Tensor 處理單元(TPU),這是除了 Nvidia GPU 之外,世界上唯一真正具規模的 AI 晶片部署。也許還有 AMD,但這兩家絕對是前兩名。

有位研究人員曾對我說,如果你沒有一個基礎的前沿模型,或者你沒有一款 AI 晶片,那麼在 AI 市場上,你可能就只是一個大宗商品。而 Google 是唯一一家兩者兼具的公司。

Google 仍然擁有一群瘋狂的人才儲備,儘管 ChatGPT 幾乎成了這個時代的代名詞,但 Google 仍然掌握著那個文字框——那個對絕大多數人來說通往網路的前門,每當任何人在網路上有任何意圖時都會使用它。

策略的十字路口

但問題依然存在:Google 在策略上應該怎麼做?他們應該冒著一切風險,憑藉其與生俱來的優勢,在人工智慧領域取勝嗎?或者,保護他們從搜尋業務中獲得的巨額利潤,會不會在 AI 浪潮席捲而來時束縛住他們?

但或許我們首先必須回答這個問題:David Rosenthal,Google 是如何走到這一步的?所以聽眾們,今天,我們將講述 Google 這家 AI 公司的故事。

你喜歡這個開場嗎,David?
我喜歡。你是不是在我不知情的情況下,聘請了一位好萊塢的劇本寫作顧問?
這 100% 是我自己寫的,沒有使用任何 AI,謝謝。
沒有 AI。

說到 Acquired 社群,我們即將舉辦一個週年慶祝活動。
是的。
節目十週年了。我們將舉辦一場公開的 Zoom 通話,與大家一起慶祝,有點像我們過去與 LP 們進行的 LP call。我們將在 2025 年 10 月 20 日太平洋時間下午 4 點舉行。更多細節請查看節目說明。

那麼,在此聲明,本節目並非投資建議,David 和我可能持有我們討論的公司的投資,本節目僅供資訊和娛樂目的。

David,Google,這家 AI 公司。

人才的搖籃:AI 巨擘的共同起點

Ben,正如你在那段精彩的開場白中所提到的,如果我們從今天倒退十年,在 Transformer 論文發表之前,以下所有我們之前談到過的人,都曾是 Google 的員工:Ilya Sutskever,OpenAI 的創始首席科學家;他與 Jeff Hinton 和 Alex Krizhevsky 一起在 AlexNet 上完成了開創性的 AI 研究,並在那之前幾年發表了成果,他們三位都是 Google 的員工;同樣的還有 Dario Amodei,Anthropic 的創辦人;Andrej Karpathy,直到最近還是 Tesla 的首席科學家;Andrew Ng、Sebastian Thrun、Noam Shazeer,以及所有 DeepMind 的成員:Demis Hassabis、Shane Legg、Mustafa Suleyman——Mustafa 除了過去是 DeepMind 的創辦人之外,現在還負責 Microsoft 的 AI 業務。

基本上,在 AI 領域每一位有名望的人物都曾在 Google 工作過,唯一的例外可能是 Yann LeCun,他在 Facebook 工作。

是的,現在要追溯一個大型 AI 實驗室的源頭而不發現 Google 在其起源故事中,是相當困難的。

是的,這裡的類比幾乎就像是,在電腦時代的黎明,一家公司,比如 IBM,雇用了每一個懂得如何寫程式的人。所以就像,如果其他人想寫一個電腦程式,抱歉,你做不到,任何懂得程式設計的人都在 IBM 工作。這就是 2010 年代中期 AI 和 Google 的情況。但是,學習如何寫電腦程式並不是那麼困難,以至於外面的人學不會。而學習如何成為一名 AI 研究員,則要困難得多。

沒錯,那是特定博士課程的內容,指導教授的數量非常有限。而且該領域內部對於領域發展方向、什麼是合法的、什麼是瘋狂的、異端的、宗教般的東西,存在大量的內鬥。

早期願景:將 Google 打造成 AI 公司

是的。那麼,Ben,是的,問題是:我們是如何走到這一步的?這要追溯到公司的創立。Larry Page 始終將 Google 視為一家人工智慧公司。事實上,Larry Page 的父親是一位電腦科學教授,他在密西根大學攻讀博士學位時,研究的正是機器學習和人工智慧,這在當時的電腦科學領域並不是一個熱門的領域。

是的,事實上,很多人認為專攻 AI 是浪費時間,因為三十年前的許多重大理論在某種程度上已經被證明是錯誤的,或者至少人們認為它們是錯誤的。因此,Larry 的父親將他的生命、事業和研究工作投入到 AI 領域,坦白說是一種逆向思維。

而那也影響了 Larry。如果你仔細看,PageRank,也就是 Google 賴以建立的 PageRank 演算法,是一種統計方法。你可以將其歸類為電腦科學範疇內的 AI。而 Larry 當然一直有著更遠大的夢想。我們之前在這個節目中引用過他在 2000 年,也就是 Google 成立兩年後說過的話:「人工智慧將是 Google 的終極版本。如果我們擁有終極的搜尋引擎,它將理解網路上的一切,它將完全理解你想要什麼,並給你正確的東西。那顯然是人工智慧。我們現在離做到這一點還很遠,但我們可以逐步接近,而這基本上就是我們在這裡努力的方向。」

它一直都是一家 AI 公司。
是的,那是在 2000 年。

語言模型的起源:從拼寫校正到 AdSense

嗯,有一天,在 2000 年末或 2001 年初,時間線有些模糊,一位名叫 George Harik 的 Google 工程師正在與著名的 Google 工程師 Ben Gomes,以及一位相對較新的工程師,名叫 Noam Shazeer 一起吃午餐。

George 是 Google 最早的十名員工之一,是一位傑出的工程師,就像 Larry Page 的父親一樣,他擁有密西根大學的機器學習博士學位。當 George 在那裡就讀時,這仍然是一個相對罕見、逆向的電腦科學子領域。

所以,他們三個人正在吃午餐,George 不經意地對大家說,他有一個來自博士生時代的理論,即壓縮數據實際上等同於理解數據。他的思路是,如果你能拿一段給定的資訊,把它變小,儲存起來,然後稍後再將其恢復成原始形式,唯一可能做到這一點的方法是,作用於數據的任何力量都必須真正理解它的含義。因為你在丟失資訊,把它縮減成更小的東西,然後再重新創造出原始的東西。這就像一個學生在學校裡,你在學校學到一些東西,讀了一本很長的教科書,把資訊儲存在記憶中,然後你參加一個考試,看你是否真的理解了這些材料,如果你能重現這些概念,那麼你就真的理解了。

這在某種程度上預示了今天的大型語言模型(LLM),它們就像將全世界的知識壓縮成一定數量的 TB,變成一個壓縮過的小向量集。至少與全世界的資訊相比是小的,但這不就是那個想法嗎?你可以將全世界的資訊儲存在一個 AI 模型中,這個模型有點難以理解和掌握,但如果你解壓縮它,你就能將知識恢復到其原始形式。

是的,而這些模型展示了理解能力。嗯,它們真的理解嗎?這是個問題。這是個問題。它們肯定模仿了理解。

所以,在這次對話中——這發生在 25 年前——新進的年輕工程師 Noam 停下腳步,心想:「哇,如果這是真的,那真是太深刻了。」

這是在 Google 的一個微型廚房裡嗎?
這是在 Google 的一個微型廚房裡,他們正在吃午餐。
你是從哪裡找到這段故事的?一個 25 年前的故事。
這是 Steven Levy 的偉大著作《In the Plex》中的一段。這是書中一個小小的段落,因為這本書是在 ChatGPT 和 AI 出現之前出版的。

所以,Noam 開始對 George 的想法產生興趣,並在接下來的幾個月裡,兩人以最 Google 的方式決定,他們要停止手頭上所有其他工作,專心研究這個想法:語言模型、壓縮數據,以及他們是否能用數據產生機器的理解能力。如果他們能做到這一點,那對 Google 將會非常有益。我想這恰逢 2001 年 Larry Page 解雇了所有工程組織的管理人員,所以每個人都在做他們想做的事。

有趣。
在《In the Plex》中,George 有一段很棒的引述:「有相當多的人認為 Noam 和我把我們的才華花在這上面是件非常糟糕的事,但 Sanjay Ghemawat——Sanjay 當然是 Jeff Dean 著名的多產程式設計夥伴——認為這很酷。」

所以,George 會對任何他們遇到的懷疑者提出以下論點:「Sanjay 認為這是個好主意,而世界上沒有人比 Sanjay 更聰明,所以為什麼 Noam 和我應該接受你認為這是個壞主意的觀點呢?」

這就像如果你在足球比賽中擊敗了最強的隊伍,你是否就理所當然地成為新的最強隊伍?
是的。所以,這一切最終讓 Noam 和 George 深入研究了自然語言的機率模型。意思是,對於網路上出現的任何給定詞語序列,另一個特定詞語序列緊隨其後的機率是多少?這對於任何了解今日 LLM 工作原理的人來說,應該聽起來相當熟悉。

哦,有點像下一個詞的預測器。
是的,或者如果你將其通用化,就是下一個 token 的預測器。
是的。

所以,他們用這項工作做的第一件事,就是創造了 Google 搜尋中的「您是不是要找」拼寫校正功能。
哦,那是從這裡來的?
那是從這裡來的,Noam 創造了這個。

所以,這對 Google 來說意義重大,因為當你打錯查詢時,使用者體驗很差,而且需要重新輸入。但這也給 Google 的基礎設施帶來了負擔,因為每次這些錯誤的查詢發出後,Google 的基礎設施都會去提供對應的結果,而這些結果是無用的,並且會立即被新的查詢覆蓋。
沒錯。
而且這是一個範圍非常緊湊的問題,你可以看到,「哦,哇,80% 的時候,當有人輸入『god groomer』時,他們其實是指『dog groomer』」,然後他們會重新輸入。如果信度非常高,你就可以直接更正,甚至不用詢問他們,然後再問他們是否要選擇退出,而不是選擇加入。這是一個很棒的功能,也是這項技術在一個非常狹窄領域中的一個很好的初步應用案例。
完全正確。

所以,他們取得了這次成功,Noam 和 George 繼續努力,最終他們創造了一個相當大的——我這裡用引號括起「大」,因為是相對於當時而言——語言模型,他們親切地稱之為 Fill,即「機率性層級推論學習器」(Probabilistic Hierarchical Inferential Learner)。

這些 AI 研究員真的很喜歡創造他們的逆向縮寫詞。
他們喜歡他們的文字遊戲。
是的。

所以,快轉到 2003 年,Susan Wojcicki 和 Jeff Dean 正準備推出 AdSense。他們需要一種方法來理解這些第三方網頁,也就是發布者的內容,以便在上面投放 Google 的廣告。而 Fill 正是他們用來實現這個目的的工具。

哇,我不知道語言模型也參與其中。
是的,所以 Jeff Dean 借用了 Fill,並著名地用它在一週內寫出了 AdSense 的實現版本,因為他是 Jeff Dean。接著,AdSense 就誕生了。這為 Google 帶來了數十億美元的新營收,幾乎是一夜之間。因為這與搜尋廣告所使用的廣告詞庫是相同的,他們只是現在將這些廣告投放到第三方頁面上。他們大規模地擴展了現有廣告系統的庫存,這都多虧了 Fill。
多虧了 Fill。

關於 Jeff Dean 的趣聞

好的,現在是我們必須停下來,分享一些關於 Jeff Dean 的趣聞的時刻。Jeff Dean 將是這一集的主線,關於「等等,Google 是怎麼做到的?Jeff Dean 是怎麼回家,然後在一個週末重寫了整個巨大的分散式系統,解決了 Google 所有問題的?」

當初 Chuck Norris 的趣聞很流行時,關於 Jeff Dean 的趣聞也在 Google 內部流傳開來。我想分享幾個我最喜歡的。

真空中的光速曾經大約是每小時 35 英里。後來 Jeff Dean 花了一個週末優化了物理學。

這太棒了。

Jeff Dean 的個人識別碼是圓周率的最後四位數。

只有 Google 的員工才會想出這些。
是的。
對 Jeff Dean 來說,「NP」代表「No Problemo」(沒問題)。
哦,是的。我以前見過這個,我想這是我最喜歡的。
是的。
哦,天啊,太棒了。他也是一個很棒的人,我們在研究中與他交談過,他非常樂於助人。謝謝你,Jeff。
謝謝你,Jeff。

Google X 與 Google Brain 的誕生

所以,語言模型確實有效,也確實為 Google 帶來了巨大的價值,而且它們也完美地契合了 Google 的使命:「組織全球資訊,使其普遍可用並從中受益。」如果你能理解全球的資訊並將其壓縮,然後再重新創造它,是的,我認為這符合使命。我認為這符合標準。
當然。

所以,Fill 變得如此龐大,據說到 2000 年代中期,Fill 佔用了 Google 整個資料中心基礎設施的 15%。我想其中很大一部分是 AdSense 的廣告投放,但也包括「您是不是要找」以及他們在 Google 內部開始使用的所有其他東西。
所以,早期的自然語言系統在計算上是昂貴的。
是的。

所以,好的,現在是 2000 年代中期。快轉到 2007 年,這是對我們故事來說非常非常重要的一年。

Google 剛在不久前推出了 Google 翻譯產品。這是所有偉大產品誕生的時代,我們之前談過,地圖、Gmail、文件,以及所有後來會出現的精彩事物,如 Chrome 和 Android。
他們有大約十年的輝煌時期,基本上推出了你所知道的 Google 的所有產品,除了搜尋。真的,在一個十年的輝煌期裡。然後,從 2013 年開始,大約有十年的時間,他們基本上沒有推出任何你聽說過的新產品,直到我們迎來了 Gemini。這是一個非常有趣的現象,但從 2003 年到 2013 年這段時期,簡直是碩果累累,一個接一個的成功。
神奇。

其中一個產品就是 Google 翻譯。它的用戶基礎或對世界的影響力可能不如 Gmail 或地圖,但仍然是一個神奇的產品。

Google 翻譯的首席架構師是另一位傑出的機器學習博士,名叫 Franz Och。Franz 在自然語言處理和機器學習方面有深厚的背景,他的博士學位也是在這個領域。他在德國獲得了博士學位。

當時,DARPA——國防高等研究計劃署——正在舉辦他們著名的機器翻譯挑戰賽。所以 Google 和 Franz 當然也參加了。Franz 建立了一個更大的語言模型,在當年的 DARPA 挑戰賽中,這個模型完全擊敗了競爭對手。這大概是 2006 或 2007 年。它獲得了一個當時極高的 BLUE 分數,這是一種評估翻譯品質的演算法基準。當時,這個分數比任何其他可能的東西都要高。

所以 Jeff Dean 聽說了這件事,以及 Franz 和翻譯團隊所做的工作,他說:「這太棒了,太神奇了。你們什麼時候要在產品中發布這個?」
哦,我聽過這個故事。
所以 Jeff 和 Noam 在 Dorktales podcast 上談論過這件事。那一集非常棒。
是的。

Franz 說:「不,不,不,Jeff,你不明白。這是研究,不是為了產品。我們不能發布我們建立的這個模型。這是一個 N-gram 語言模型。」N-gram 是指一個叢集中的詞語數量。「而且我們是用來自 Google 搜尋索引的 2 兆個詞語的語料庫來訓練它的。這個東西太大了,翻譯一個句子需要 12 個小時。」所以 DARPA 挑戰賽當時的運作方式是,你在週一拿到一組句子,然後你必須在週五之前提交你對那些句子的機器翻譯。

伺服器有足夠的時間來運行。
是的。他們就像:「好的,所以從週一到週五,我們有多少個小時,我們就用多少個小時。讓我們用盡可能多的運算能力來翻譯這幾個句子。」

嘿,了解遊戲規則,並善加利用。
完全正確。

所以,Jeff Dean,作為工程界的 Chuck Norris,他說:「嗯,讓我看看你的程式碼。」

所以,Jeff 進去和翻譯團隊一起工作了幾個月,他重新設計了演算法,使其能夠並行處理句子中的詞語,而不是順序處理。因為當你翻譯一組句子或句子中的一組詞語時,你不一定需要按順序來。你可以把問題分解成不同的部分,獨立處理。你可以將其並行化。

你不會得到完美的翻譯,但想像一下你只翻譯每一個單詞,你至少可以同時並行翻譯所有單詞,重新組合句子,然後大致理解原始的含義。
是的,而且正如 Jeff 非常清楚的,因為他和 Sanjay 基本上是用 Urs Hölzle 的架構建立的,Google 的基礎設施是極度可並行化的。它是分散式的,你可以把工作負載分解成小塊,把它們發送到 Google 擁有的各個資料中心,重新組合專案,然後將結果返回給用戶。

他們是世界上在跨越多個資料中心的 CPU 上並行化工作負載方面做得最好的公司。
CPU,我們還在談 CPU。
是的。

Jeff 和團隊的努力將平均句子翻譯時間從 12 小時縮短到 100 毫秒。然後他們就在 Google 翻譯中發布了這個功能,結果非常棒。
這聽起來像一個 Jeff Dean 的趣聞。「嗯,以前需要 12 小時,然後 Jeff Dean 花了幾個月的時間,現在只需要 100 毫秒。」
是的。

所以,這是在 Google 的一個產品中使用的第一個大型——我這裡用引號括起「大」——語言模型。他們看到這個效果這麼好,心想:「嗯,也許我們可以把它用在其他地方,比如在你輸入時預測搜尋查詢。」

這可能會很有趣。當然,Google 業務的皇冠上的明珠,也可能是這項技術的一個有趣的應用,就是 AdWords 的廣告品質分數。這實際上就是對特定廣告文案的預期點擊率的預測。你可以想像,一個能夠很好地吸收資訊、理解並根據這些資訊進行預測的 LLM,對於計算 Google 的廣告品質可能非常有用。
是的,這直接轉化為 Google 的利潤。
是的。
好的。

所以,這一切在語言模型方面顯然都非常棒。我說過 2007 年是重要的一年。同樣在 2007 年,幾位電腦科學教授在 Google 校園裡開始了一段重要的交集。

2007 年 4 月,Larry Page 聘請了來自史丹佛大學的 Sebastian Thrun。他來到 Google,先是兼職,後來全職,致力於機器學習的應用。Sebastian 曾是史丹佛大學 SAIL(史丹佛人工智慧實驗室)的負責人。這是一個傳奇的 AI 實驗室,在 60 年代、70 年代的第一波 AI 浪潮中非常活躍,當時 Larry 的父親也活躍在那個領域。後來它一度關閉,然後在 2000 年代初又重新啟動並充滿活力,而 Sebastian 正是 SAIL 的領導者。

關於 Sebastian 的一個有趣故事,他來到 Google 的方式——Sebastian 很友善地和我們聊了聊,為這一集做準備——我之前不知道,這基本上是一次人才收購。他和一些研究生正在創業,已經拿到了 Benchmark 和 Sequoia 的投資意向書。
是的。

Larry 走過來說:「不如我們在你們公司還沒成立之前,就用簽約獎金的形式收購你們吧。」
是的,這對他們來說可能是一個非常好的決定。

所以 SAIL 這個電腦科學系內的組織,不僅擁有世界上一些最傑出、最有成就的 AI 教授和博士研究員,他們還有一批史丹佛大學的本科生會來這裡作為研究員工作,同時攻讀他們的電腦科學學位或符號系統學位,或者他們在史丹佛大學攻讀的任何專業。

其中一個人是 Chris Cox,他是 Meta 的首席產品官。是的,那基本上是他事業的起點,在 AI 領域。你真的無法編造這些故事。

另一位在 Sebastian 在任期間經過 SAIL 的本科生,是一位年輕的大一、大二學生,他後來從史丹佛大學輟學,創辦了一家公司,這家公司參加了 Y Combinator 的第一屆孵化班,在 2005 年夏天。

我緊張得坐立不安,這人是誰?
有猜測嗎?
Dropbox、Reddit。我想想第一屆還有誰。
不,不,不,更切合本集主題。那家公司是一個失敗的本地行動社交網絡。
哦,Sam Altman 的 Loopt。
Sam Altman。

太神奇了。他當時也在 SAIL?
他在 SAIL,是的,作為一名本科生研究員。
哇。

很瘋狂,對吧?我們告訴過你,這是一個非常小的圈子。
我懷念那些日子。Sam 在 WWDC 上與 Steve Jobs 同台演講,穿著雙翻領的衣服。
是的,雙翻領。那是科技界的一個不同時代。
是的,雙翻領。那是一種氛圍,一個時刻。哦,天啊。

好的。所以,2017 年 4 月,Sebastian 從 SAIL 來到 Google。他做的第一件事之一,在接下來的幾個月裡,是一個名為 Ground Truth 的專案,用於 Google 地圖。
這基本上就是 Google 地圖。
它基本上就是 Google 地圖。所以在 Ground Truth 之前,Google 地圖作為一個產品已經存在了,但他們必須從一家叫做 Tele Atlas 的公司獲取所有的地圖數據。
我想有兩家,他們有點像雙頭壟斷,Navteq 是另一家。
是的,Navteq 和 Tele Atlas。
但那是一種有點糟糕的地圖數據來源,每個人都在用,你也做不出比別人更好的,因為大家都用同樣的數據。
是的。它不是很好,而且花了很多錢。Tele Atlas 和 Navteq 都是數十億美元的公司,我想其中一家或兩家在某個時候都上市了,後來被收購了,但錢很多,營收很高。
是的。

Sebastian 的第一個專案是街景,對吧?所以他已經有指揮一支車隊四處行駛拍照的經驗。
是的。所以,來到 Google 後,Ground Truth 是一個類似於登月計畫的專案,目標是重新創造所有 Tele Atlas 的數據。
主要是從他們自己拍攝的街道照片中提取。他們也整合了一些其他數據,比如人口普查數據,我記得總共有 40 多個數據來源。但 Ground Truth 是一個非常宏大的專案,目標是從零開始創造新的地圖。
是的,而且就像所有我們在這裡談論的 AI 和 AI 賦能的 Google 專案一樣,它運作得非常非常好,非常快。巨大的成功。
嗯,尤其是在你雇用了印度的一千人來幫助你篩選數據中的所有差異,並實際手繪所有地圖之後。
是的,我們還沒有進入一個充滿 AI 自動化的時代。

所以,在 Ground Truth 取得成功之後,Sebastian 開始遊說 Larry 和 Sergey:「嘿,我們應該多做這樣的事。我們應該把 AI 教授、學者引進來。我認識所有這些人,讓他們兼職來 Google,他們不需要成為全職員工,讓他們保留在學術界的職位,但來這裡和我們一起為我們的產品做專案。他們會喜歡的,他們能看到他們的工作被數百萬人使用,我們會付錢給他們,他們會賺很多錢,他們會拿到 Google 的股票,而且他們還能繼續在他們的學術機構擔任教授。」
雙贏。
雙贏。

所以,正如你所預料的,Larry 和 Sergey 說:「是的,是的,是的,這是個好主意。我們就這麼做吧,多做點。」

所以,在 2007 年 12 月,Sebastian 請來了一位當時相對不知名的多倫多大學機器學習教授,名叫 Jeff Hinton,來 Google 校園做一次技術演講。他還沒被雇用,只是來給 Google 的人做一次技術演講。他談到了他和他在多倫多大學的博士生和博士後學生正在做的一些新工作,關於利用神經網絡開闢新道路。

對於任何不認識 Jeff Hinton 這個名字的人來說,他現在被廣泛稱為神經網絡的教父,甚至是整個 AI 發展方向的教父。他當時算是一個邊緣的學者。
是的。
在那個歷史時刻。神經網絡並不是一個受人尊敬的 AI 分支。
不,完全不是。

部分原因是,三、四十年前,圍繞神經網絡有大量的炒作,但最終都沒能實現。所以它實際上被大家認為是被證偽的,而且肯定是一個冷門領域。
是的。

Ben,你還記得我們在 Nvidia 那集裡,關於 Jeff Hinton 的我最喜歡的一個小知識嗎?
哦,是的,他的祖父,還是曾祖父,是 George Boole。
是的。他是 George 和 Mary Boole 的曾曾孫,他們發明了布林代數和布林邏輯。

這太搞笑了,因為我現在對這個領域了解更多了,布林代數是符號邏輯的基本構件,是定義明確的、確定性的電腦科學邏輯。而神經網絡的有趣之處在於,它不是那樣的。它不是符號 AI,不是我給你具體的指令,然後你遵循一個龐大的 if-then 樹狀結構。它是不確定的,是那個領域的對立面。

這其實也再次突顯了這個機器學習和電腦科學的分支是多麼的異端。
是的。

所以,Ben,正如你之前所說的,神經網絡並不是一個新想法,理論上它有巨大的潛力,但在實踐中,做多層運算需要太多的計算能力。你真的只能有一層,或者最多是個位數層級的電腦神經網絡,直到那個時候。

但是,Jeff 和他的前博士後,一個叫 Yann LeCun 的人,開始在社群中宣傳:「嘿,如果我們能找到一種方法,擁有多層、深層的神經網絡,也就是我們所說的深度學習,我們就能真正實現這裡的潛力。」
問題不在於想法不好,而在於實現方式,這需要大量的運算能力來完成所有的數學運算,所有的乘法運算,才能在一層又一層的神經網絡中傳播,從而檢測、理解和儲存模式。如果我們真的能做到這一點,一個龐大的、多層的神經網絡將會非常有價值,而且可能真的能成功。
是的。

現在是 2007 年,2000 年代中期,摩爾定律已經發展到足夠的程度,你實際上可以開始測試其中一些理論。
是的。

所以,Jeff 來了,他在 Google 做了一場演講。你可以在 YouTube 上看到這場演講,我們會把它連結到節目說明裡。這簡直是歷史的見證,就那樣放在 YouTube 上。Google 的人,Sebastian、Jeff Dean 和其他所有人都非常興奮。因為他們已經在用翻譯和他們正在研究的語言模型做類似的事情了。那還沒有使用深度神經網絡,但 Jeff 正在研究這個。所以,這裡出現了一個全新的架構方法,如果他們能讓它成功,就能讓他們正在建立的這些模型運作得更好,識別更複雜的模式,更好地理解數據。非常有前景。

再次強調,這在當時很大程度上還處於理論階段。
是的。

所以,Sebastian Thrun 在這次技術演講後,把 Jeff Hinton 帶進了 Google 的圈子。我想,在接下來的幾年裡,他先是作為顧問,後來 Jeff Hinton 在技術上成了 Google 的實習生,這就是他們繞過全職兼職政策的方式。
是的。他是 2011、2012 年左右的暑期實習生,而且請注意,那時候他已經 60 歲了。
是的。

所以在 2007 年之後的幾年裡,Sebastian 的這個將電腦科學、機器學習學者引進 Google 作為承包商、兼職或實習生的概念——基本上是讓他們保留學術職位,同時為 Google 的產品做大型專案——取得了巨大的成功,以至於到 2009 年末,Sebastian、Larry 和 Sergey 決定,他們應該在 Google 內部成立一個全新的部門。於是,Google X,這個登月工廠,就誕生了。

Google X 的第一個專案,由 Sebastian 親自領導。
哦,David,別說。別說。
我不會說它的名字,我們稍後會再回來談。但就我們現在的目的而言,第二個專案將會至關重要,不僅對我們的故事,而且對 AI 領域的一切,對改變整個世界,都至關重要。而那個第二個專案,叫做 Google Brain。

好的,David,所以 Google Brain。

貓咪論文:無監督學習的重大突破

所以,當 Sebastian 全職離開史丹佛大學,加入 Google 後,當然需要有人接管 SAIL。接任的人是另一位電腦科學教授,一位傑出的學者,名叫 Andrew Ng。
這簡直是星光熠熠。
全是 AI 界的巨擘。
是的。

所以,Sebastian 做了什麼?他招募 Andrew 兼職來 Google,每週花一天時間在 Google 校園裡。這恰逢 X 的成立,Sebastian 將這個部門正式化。

所以有一天,在 2010、2011 年左右,Andrew 正在 Google 校園裡度過他的一週一天,他碰到了誰呢?當然是 Jeff Dean。Jeff Dean 告訴 Andrew 他和 Franz 在語言模型方面的成就,以及 Jeff Hinton 在深度學習方面的進展。當然 Andrew 也知道這些。Andrew 也談到他和 SAIL 在史丹佛大學做的事情。

他們決定:「你知道嗎,也許時機終於成熟了,可以在 Google 內部真正大展拳腳,建立一個巨大的、非常大的深度學習模型。」

在你說時機可能成熟的時候,Google 之前已經嘗試過兩次了,而且兩個專案都沒真正成功。他們嘗試過一個叫做 Brains on Borg 的東西——Borg 是他們用來運行所有基礎設施的內部系統——他們也嘗試過 Cortex 專案,但這兩個都沒有真正成功。所以 Google 內部,在研究團隊裡,對於大規模神經網絡是否真的能在 Google 的基礎設施上運作,是有點陰影的。

所以,他們兩人,Andrew Ng 和 Jeff Dean,找來了 Greg Corrado,他是一位神經科學博士和傑出的研究員,當時已經在 Google 工作。2011 年,他們三人在 X 內部啟動了第二個正式專案,恰如其分地命名為 Google Brain。

他們三人開始著手建立一個非常非常大的深度學習神經網絡模型。

如果他們要這麼做,他們需要一個系統來運行它。Google 一向擅長將這種前沿研究,然後進行架構和工程系統的設計,讓它真正能夠運行。
是的。

所以 Jeff Dean 正在開發這個系統,這個基礎設施,他決定將這個基礎設施命名為 DistBelief。這當然是一個雙關語,既指系統的分散式特性,也指「disbelief」(不相信),因為當時領域裡的大多數人,甚至 Google 內部的大多數人,都認為這行不通。

這裡稍微解釋一下原因,這有點技術性,但請跟著我一下。當時所有的研究都指向一個觀點,就是你需要同步。所以所有的運算都需要非常密集,發生在一台單一機器上,有非常高的並行性,有點像 GPU 做的事情。你希望所有的運算都發生在一個地方,這樣就很容易查詢系統中其他所有東西的計算值,然後再進行下一步。

Jeff Dean 用 DistBelief 寫的恰恰相反。它分散在大量的 CPU 核心上,可能遍布一個資料中心,甚至可能在不同的資料中心。所以理論上這很糟糕,因為這意味著你在任何一台機器上都需要不斷等待其他機器同步它們更新的參數,然後才能繼續。但相反,這個系統實際上是異步運作的,它不費事去獲取其他核心的最新參數。所以你基本上是在用過時的數據更新參數。你會認為這行不通,但神奇的是,它成功了。
是的。

好的,所以你有了 DistBelief。他們現在用它做什麼?他們想做些研究。所以他們嘗試了:「我們能做酷炫的神經網絡嗎?」他們做的是,在一篇他們在 2011 年底提交的論文中,我先告訴你論文的標題:《利用大規模無監督學習建立高階特徵》。但大家都叫它「貓咪論文」。
貓咪論文。
你和 Google 的任何人,或者 AI 領域的任何人聊,他們都會說:「哦,是的,貓咪論文。」

他們做的是,他們訓練了一個龐大的九層神經網絡,用 16,000 個 CPU 核心在一千台不同的機器上,從 YouTube 影片的未標記幀中識別貓。

聽眾們,為了強調這有多麼開創性,我們其實和 Sundar 聊過,為這一集做準備,他提到看到貓咪論文出現在他的辦公桌上,是他腦海中 Google 故事裡的關鍵時刻之一。
是的。後來他們在一次 TGIF(Thank God It's Friday,Google 的週五全員會議)上展示了貓咪論文的成果,你和 Google 的人聊,他們會說:「哦,天啊,那次 TGIF,那改變了一切。」
是的。它證明了大型神經網絡可以真正學習有意義的模式,而不需要監督和標記數據。不僅如此,它還可以在 Google 建立的分散式系統上運行,讓它真正在他們的基礎設施上運作。而這對整個事情來說是一個巨大的解鎖。Google 擁有這個龐大的基礎設施資產,我們能把這個研究員們想出的理論電腦科學想法,用 DistBelief 在我們的系統上運行嗎?
是的。
這就是驚人的技術成就。這幾乎是次要於貓咪論文的商業影響。我認為說貓咪論文導致了 Google、Facebook 和字節跳動在接下來的十年裡產生了數千億美元的營收,並不算太誇張。
當然,模式識別在數據中的應用。

所以,YouTube 當時有一個大問題,那就是人們上傳這些影片,有大量的影片被上傳到 YouTube,但人們在描述影片內容方面做得很差。YouTube 正試圖成為一個更有目的性的網站,試圖讓你看更多影片,試圖建立一個 feed,增加停留時間等等。問題是,推薦系統試圖找出要推薦什麼,但它只依賴人們自己寫的關於他們影片的標題和描述。
是的,無論你是搜尋影片,還是他們試圖找出下一個推薦什麼影片,他們都需要知道影片的內容。
是的。

所以,貓咪論文證明了你可以用這項技術,一個深度神經網絡,運行在 DistBelief 上,去深入 YouTube 庫中的影片,並理解它們的內容,然後用這些數據來找出要向人們推薦什麼影片。
如果你能回答「是貓還是不是貓」的問題,你就能回答更多其他的問題。
這是 Jeff Dean 關於這件事的引述:「我們建立了一個系統,讓我們能夠通過模型和數據並行的方式來訓練相當大的神經網絡。我們有一個在 1000 萬個隨機選擇的 YouTube 幀上進行無監督學習的系統。」正如你所說,Ben,「它會根據試圖從高階表示中重建幀的方式,建立起無監督的表示。我們讓它在 2000 台電腦上,使用 16,000 個核心運作並訓練。一段時間後,那個模型實際上能夠在最高的神經網絡層級建立一個表示,其中一個神經元會對貓的圖像感到興奮。它從未被告知貓是什麼,但它在訓練數據中看到了足夠多的正面貓臉圖像的例子,以至於那個神經元會對貓而不是其他東西產生反應。」
這太瘋狂了。這是關於未標記數據、無監督學習最瘋狂的事情,一個系統可以在從未被明確告知貓是什麼的情況下,學會貓是什麼。而且還有一個「貓神經元」。
是的,然後還有一個 iPhone 神經元和一個舊金山巨人隊神經元,以及所有 YouTube 推薦的東西。
更不用說色情過濾、露骨內容過濾。
更不用說版權識別和與版權持有者進行營收分成。是的,這導致了 YouTube 的一切。基本上讓 YouTube 走上了今天成為網路上最大資產、地球上最大媒體公司的道路。這開啟了從 2012 年,也就是這件事發生時,到 2022 年 11 月 30 日 ChatGPT 出現之前的十年,AI 已經在塑造我們所有人的生活,並帶來數千億美元的營收。它只是在 YouTube 的 feed 裡,然後 Facebook 借鑒了它,他們雇用了 Yann LeCun,開始了 Facebook AI 研究,然後他們把它帶進了 Instagram,然後 TikTok 和字節跳動也採用了它,然後它又回到了 Facebook 和 YouTube,變成了 Reels 和 Shorts。這是接下來十年裡,地球上的人們度過閒暇時間的主要方式。
這是我最喜歡的 David Rosenthal 式的觀點。大家都說 2022 年以後是 AI 時代,但我喜歡你的這個觀點,對於任何能善用推薦系統和分類系統的公司——基本上是任何有社交 feed 的公司——AI 時代是從 2012 年開始的。
是的,AI 時代從 2012 年開始,一部分是貓咪論文,另一部分是 Jensen 和 Nvidia 一直稱之為 AI 的「大爆炸時刻」,那就是 AlexNet。
是的。

AlexNet 時刻:GPU 與深度學習的轉捩點

我們談到了 Jeff Hinton。在多倫多大學,他有兩位他正在合作的研究生。Alex Krizhevsky 和 Ilya Sutskever。
當然,未來的 OpenAI 共同創辦人和首席科學家。
他們三人正在用 Jeff 的深度神經網絡想法和演算法,為著名的 ImageNet 電腦科學競賽準備一個參賽作品。
這是李飛飛在史丹佛大學的專案。
這是一年一度的機器視覺演算法競賽。它的內容是,李飛飛收集了一個包含 1400 萬張手動標記圖像的資料庫。她著名地使用了 Amazon 的 Mechanical Turk 來完成所有標記。
是的,沒錯。

所以競賽的內容是,哪個團隊能寫出一個演算法,在不看標籤的情況下,只看圖像,就能正確識別最大比例的圖像。最好的演算法,也就是那些年復一年贏得競賽的演算法,仍然有超過四分之一的圖像識別錯誤。所以大概是 75% 的準確率。
比人類差遠了。
在生產環境中沒什麼用,因為四分之一的時間都是錯的。

然後,2012 年的競賽,AlexNet 橫空出世。它的錯誤率是 15%。雖然還是有,但從之前最好的 25% 錯誤率,一年內驟降到 15%。這樣的大躍進以前從未發生過。
它比次好的要好 40%。
是的。
為什麼它好這麼多,David?他們想出了什麼,能在未來創造出一家四兆美元的公司?

所以,Jeff、Alex 和 Ilya 做的是,他們知道,就像我們整集都在談論的,深度神經網絡有巨大的潛力,摩爾定律已經發展到足夠的程度,你可以用 CPU 來建立幾層。

他們靈光一閃,想到:「如果我們重新設計這個東西,不是在 CPU 上運行,而是在一種完全不同的電腦晶片上運行呢?這種晶片本質上就是高度、高度、高度並行化的——電玩遊戲的顯示卡。」由當時該領域的領先公司 Nvidia 製造。
當時並不顯而易見,尤其是不顯而易見的是,這種先進的、前沿的、學術性的電腦科學研究,通常是在超級電腦上進行的,會用這些玩具般的電玩遊戲卡。
零售價一千美元。
是的,那時候還更便宜,幾百塊。

所以,多倫多的團隊去當地的 Best Buy 之類的地方,買了兩張 Nvidia GeForce GTX 580,這是當時 Nvidia 頂級的遊戲卡。多倫多團隊用 CUDA,也就是 Nvidia 的程式設計語言,重寫了他們的神經網絡演算法,用這兩張現成的 GTX 580 進行訓練,這就是他們實現深度神經網絡,並比 ImageNet 競賽中任何其他參賽者都好 40% 的方法。

所以當 Jensen 說這是人工智慧的大爆炸時刻時,他是對的。這向所有人展示了,天啊,如果你能用兩張現成的 GTX 580 做到這一點,想像一下你用更多張,或者用專門的晶片能做什麼。其次,這件事讓 Nvidia 從一家有些掙扎的 PC 遊戲配件製造商,走上了成為 AI 浪潮領導者和今日世界上市值最高公司的道路。

AI 研究通常是這樣運作的,會有某個突破,讓你得到這種巨大的、階梯式的函數提升,然後實際上會有一個多年的優化過程,你在突破上會得到這種遞減的收益曲線,其中一半的進展發生在一瞬間,然後另一半需要多年才能弄清楚。但當你有一個想法,你去做了,然後意識到:「天啊,我剛剛找到了這個領域的下一個巨大飛躍」,那種時刻是罕見的、驚人的,而且肯定非常酷。
就像我解鎖了下一個關卡一樣,用電玩遊戲的類比。
是的。
我升級了。

DNN Research 的收購戰

所以,在 AlexNet 之後,整個電腦科學界都為之沸騰。
人們開始停止懷疑神經網絡了。
是的。

所以,在 AlexNet 之後,多倫多的三位,Jeff Hinton、Alex Krizhevsky 和 Ilya Sutskever,做了自然而然的事:他們創辦了一家公司,叫做 DNN Research(深度神經網絡研究)。這家公司沒有產品,這家公司有 AI 研究員。
他們剛剛贏得了一場大賽。

可以預見的是,它幾乎立刻就被 Google 收購了。
哦,你是有意簡化這個故事嗎?
我以為故事就是這樣。
哦,並不是立刻。發生了一件非常瘋狂的事,第一筆報價其實是來自百度。

哦,好喔。
我不知道這個。

所以百度出價 1200 萬美元。Jeff Hinton 不太知道如何為公司估值,也不知道這個價格是否合理。所以他做了任何一個學者都會做的事,來最好地確定公司的市場價值:他說:「非常感謝,我現在要辦一場拍賣。」而且他要以一種高度結構化的方式進行,每一次有人出價,計時器就會重置,然後會有另外一個小時,讓其他人提交新的出價。

不會吧。

所以,他聯繫了所有他從研究社群中認識的,現在在一家他認為適合他們做研究的大公司工作的人。這包括百度,包括 Google,包括 Microsoft,還有另外一家。
Facebook,當然。

是一家成立兩年的新創公司。
哦,等等,所以不包括 Facebook?
不包括 Facebook。想想年份,這是 2012 年,所以 Facebook 還沒有真正進入 AI 領域。他們還在試圖建立自己的 AI 實驗室。
是的,是的,因為 Yann LeCun 和 FAIR 是在 2013 年開始的。
是 Instagram 嗎?
不是。

這是這一集結尾最重要的一部分。
等等,不會是 Tesla 吧,因為 Tesla 比那更早。
不是。
OpenAI 還要好幾年後才成立。
哇,你真的難倒我了。

哪家公司比 OpenAI 早一點點,做著基本上相同的使命?
哦,當然,當然,當然。就藏在眼前。
DeepMind。
哇。
DeepMind,寶貝。他們是這場四方競標中的第四位競標者。當然,在競標開始後不久,DeepMind 就必須退出了。他們還是一家小公司。

這家新創公司其實沒有現金能夠進行收購。這甚至沒有出現在我的腦海裡,因為我的第一個問題是:「他們到底從哪裡弄來錢?」因為他們根本沒有錢。但是 Jeff Hinton 已經認識並尊重 Demis,即使他當時只是在做這家名為 DeepMind 的新創公司。

這太驚人了。

一場改變 AI 歷史的競標

DeepMind 怎麼會出現在競標中,而 Facebook 卻沒有?這不是很瘋狂嗎?

這件事發生的時間點,恰好與當時稱為 NIPS(現在稱為 NeurIPS)的會議同時。所以,Jeff Hinton 實際上是在太浩湖 Harrah's 賭場的飯店房間裡進行這場競標。

太神奇了。

所以,所有的出價都進來了。我們得感謝 Cade Metz,他是《Genius Makers》一書的作者,這本關於 AI 完整歷史的偉大著作,我們在這一集中會大量引用。競標價格不斷攀升,到了某個時刻,Microsoft 退出了,然後又回來。我跟你說過,DeepMind 也退出了。所以最後剩下 Baidu 和 Google 在競爭。

最終,在某個時刻,研究人員們互相看了一眼,說:「我們真正想去的地方是哪裡?」他們想去 Google。於是他們在 4400 萬美元時停止了競標,然後直接說:「Google,這筆錢已經綽綽有餘,我們選擇跟你們走。」

哇。我知道金額大約是 4000 萬美元,但我不知道這個完整的故事。這幾乎就像 Google 本身,以及它的荷蘭式拍賣 IPO 過程。多麼貼切啊。

這真是一種完美的 DNA 結合。

他們三個人本來應該每人分 33%,但 Alex 和 Ilya 跑去找 Jeff 說:「我真的覺得你應該拿更大的一部分,你應該拿 40%,我們每人拿 30%。」這就是最終的分配方式。

哇,多麼棒的團隊。

Google Brain 的超級動力與下一個目標

這件事導致他們三個人直接加入了 Google Brain,為那裡的一切注入了強大的動力。劇透一下,幾年後,接替 Sebastian Thrun 掌管 Google X 的 Astro Teller,在《紐約時報》一篇關於 Google X 的專題報導中被引述。他表示,Google Brain 為 Google 核心業務——搜尋、廣告和 YouTube——帶來的收益,遠遠超過了他們在 Google X 內部以及整個公司多年來所有其他投資的總和。

這就是那種情況,如果你能讓一個碰巧能創造數百億甚至數千億美元營收的東西改善幾個百分點,你就能在那些沙發坐墊中找到不少零錢。

是的,確實是不少零錢。

但 Google 的 AI 故事並未就此結束。還有另一段非常重要的篇章,那是一次來自 Google 外部的收購,相當於 Google 在 AI 領域收購 YouTube。這就是我們剛才提到的 DeepMind。

當你在建立像我們這集一直在談論的 AI 模型時,小問題可能會迅速演變成大問題。假設你正在運行一個龐大的運算任務,比如訓練一個模型。如果一個節點故障,可能會產生巨大的連鎖影響,造成大量的時間和金錢損失。Sentry 幫助 Anthropic 及早發現有問題的硬體,讓他們能夠在造成連鎖問題之前就將其排除,將除錯時間從幾天縮短到幾小時。

DeepMind 的崛起:從遊戲開發到通用人工智慧

好了,David,DeepMind。我還滿喜歡你把它比喻為「Google 的 AI 版 YouTube」的說法。他們買下這家公司,雖然我們會談到收購價,但它今天的價值可能高達 5000 億美元。我的意思是,就史上最偉大的收購案而言,這筆交易堪比 Instagram 或 YouTube。

百分之百同意。

我還記得這筆交易發生的時候,就像我記得 Instagram 的交易一樣。因為當時的數字很大。很大。但我記得它的原因不同。當 Facebook 收購 Instagram 時,感覺就像,「天啊,這真是……哇,這是科技版圖上的一次結構性轉變。」

2014 年 1 月,我記得在 TechCrunch 上讀到一則隨機的新聞。對,你會想,Deep 什麼?Google 花大錢在倫敦買了一家我從未聽說過的公司。它在做……人工智慧?是嗎?

這真的說明了當時 AI 在主流科技圈外是多麼邊緣。

然後你再深入了解一下,你會發現,這家公司似乎沒有任何產品。而且它的網站上甚至沒有真正說明 DeepMind 是做什麼的。它只說它是一家「尖端的人工智慧公司」。

你是在 Wayback Machine 上查的嗎?對,我查了。哦,不錯。

它旨在「為模擬、電子商務和遊戲建立通用學習演算法」。這是 2014 年,這說法完全無法理解,無法讓人產生共鳴。

模擬、電子商務和遊戲。這真是一堆隨機的組合。

完全正確。

然而,事實證明,不僅那個描述對 DeepMind 的描述相當準確,這家公司以及 Google 對它的收購,正是那次蝴蝶效應的時刻,直接導致了 OpenAI、ChatGPT、Anthropic,以及基本上我們今天所知的一切,當然也包括 Gemini。對,直接導致了我們今天在 AI 世界中所知的一切,包括 Gemini。

可能還有 XAI,鑑於 Elon 的參與。對,當然還有 XAI。

從某個奇怪的角度看,它也間接導致了 Tesla 的自動駕駛。當然。是的,絕對是。

好吧,那這背後的故事到底是什麼?

DeepMind 於 2010 年創立,創辦人是一位名叫 Demis Hassabis 的神經科學博士,他之前創辦過一家電玩遊戲公司。哦耶。還有倫敦大學學院的一位名叫 Shane Leg 的博士後研究員,以及第三位共同創辦人,是 Demis 從小到大的朋友之一,Mustafa Suleyman。

這組合相當不尋常。至少可以這麼說。這組合後來產生了一位騎士和一位諾貝爾獎得主。

是的。

所以,執行長 Demis 曾是一位童年時期的西洋棋神童,後來成為了電玩遊戲開發者。他在 1994 年 17 歲時,被劍橋大學錄取,但因為年紀太小,大學要他休學一年再來。他決定在那一年去一家名為 Bullfrog Productions 的電玩遊戲工作室工作。在那裡,他創造了《Theme Park》這款遊戲,如果你還記得的話。它就像是《SimCity》的主題樂園版。這是一款很成功的遊戲,在商業上非常成功。《RollerCoaster Tycoon》可以說是它的模仿者,後來也推出了很多續作。哦,我玩了超多那個的。

它在 90 年代中期賣出了 1500 萬套。

哇。太瘋狂了。

之後,他去了劍橋大學讀電腦科學。畢業後,他又回到了遊戲產業,創辦了另一家名為 Elixir 的遊戲工作室,但最終失敗了。然後他決定去攻讀神經科學博士學位,這就是 Demis 最終來到倫敦大學學院的原因。

在那裡,他遇到了 Shane Leg,他當時是博士後研究員。Shane 自稱是當時 AI 領域「瘋狂邊緣派」的一員。他相信,AI 的力量每年都會變得越來越強大,最終會變得比人類更聰明。Shane 是最早推廣「通用人工智慧」(AGI)這個詞的人之一。

哦,有趣。

當然,現在很多人都在談論這個,但當時幾乎沒有人害怕這個。當然有一些像 Nick Bostrom 那樣的人,但很少有人在思考超級智慧或奇點之類的問題。

值得一提的是,Elon Musk 並不在此列。他當時還沒被納入這個名單,因為是 Demis 後來告訴 Elon 關於這件事的。

是的。我們稍後會談到。

所以,Demis 和 Shane 一拍即合。他們拉攏了 Demis 的兒時好友 Mustafa,他本人也非常聰明,曾就讀於牛津大學,但在 19 歲左右輟學去創業。於是,他們三個人決定創辦一家公司,名為 DeepMind。這個名字當然是向 Jeff Hinton 的深度學習研究以及多倫多大學的研究成果致敬,也反映了他們三人想要用深度學習真正創造一個「有智慧的心智」的目標。

當時 Jeff、Ilya 和 Alex 還沒真正思考到這個層面。正如我們所說,這在當時是「瘋狂邊緣派」的想法。

是的。AlexNet 和貓咪論文,整個領域當時都專注於更好地分類數據,如何更好地將數據歸類到模式中。從那裡跳到「我們要創造智慧」,是一個巨大的飛躍。

是的。我想可能有些人,幾乎可以肯定在 Google 內部,當時在想:「哦,我們可以創造出在特定任務上比人類更強的狹義智慧。」我的意思是,計算機在特定任務上就比人類強。

對。但我不認為當時有太多人想著「這會成為比人類更聰明的通用智慧」。

於是,他們為公司定下了口號:「解決智慧,並用它來解決其他一切問題。」

哦,我喜歡這個。我喜歡。對,對,這些傢伙也是很好的行銷專家。

但有一個問題。要實現他們的目標,需要錢。錢是個問題。有很多原因,但比 2010 年代任何其他新創公司都更需要錢。因為他們不能只是啟動一個 AWS 實例,開發一個應用程式,然後部署到 App Store。他們想建立真正、真正、非常非常巨大的深度學習神經網路,這需要 Google 等級的運算能力。

這很有趣,其實他們當時並不需要那麼多資金。當時的 AI 只需要幾張 GPU。我們還沒有在訓練巨大的大型語言模型。那最終是他們的抱負,但當時他們只需要籌集幾百萬美元。但問題是,當你沒有商業計畫,只是想「解決智慧」時,誰會給你幾百萬美元呢?你需要找到一些瘋子。

這對創投來說很難推銷。除非,正如你所說,他們需要找到一些瘋子。我用詞很謹慎。我們是以最親切的方式使用「瘋子」這個詞,因為他們基本上都是對的。

所以,在 2010 年 6 月,Demis 和 Shane 設法被邀請參加在加州舊金山舉行的「奇點峰會」(Singularity Summit)。因為他們在倫敦籌不到這筆錢。是的,絕對籌不到。我想他們試了幾個月,然後發現這條路行不通。

這次峰會是由 Ray Kurzweil(未來的 Google 員工,首席未來學家)、Eliezer Yudkowsky 和 Peter Thiel 組織的。

是的。

所以,Demis 和 Shane 對於能收到邀請感到非常興奮。他們覺得這可能是他們獲得資金的唯一機會。但他們可能不應該就這樣衝進去,大喊:「Peter,我們能向你提案嗎?」

於是,他們設法讓 Demis 在峰會的舞台上發表演講。這是個好方法。他們覺得這太棒了,這將是一個絕佳的機會。演講將是他們向 Peter 和 Founders Fund 提案的方式。Peter 當時剛創辦 Founders Fund,當然也是 PayPal 黑手黨的一員,非常有錢。我想他當時有一個很大的羅斯 IRA 帳戶,這大概是他財富的主要來源。他還投資了 Facebook,是 Facebook 的第一位投資者。他是完美的目標。

他們將這次演講設計成一個向 Peter 的提案,一個偽裝得很巧妙的提案。Shane 在 Parmy Olson 的著作《Supremacy》中有段引述,我們用這本書作為 DeepMind 故事的許多來源之一。Shane 說:「我們需要一個瘋狂到願意資助一家 AGI 公司的人。一個有足夠資源,不在乎幾百萬美元,並且喜歡超級有野心的事物的人。他們還必須非常有逆向思維,因為他去找的任何一位教授肯定都會告訴他,絕對不要考慮資助這種東西。」

這個描述聽起來非常像 Peter Thiel。

所以,他們到了會場,Demis 準備演講。他走上台,看向觀眾席,Peter 不在那裡。原來 Peter 並沒有真正深度參與這次會議。他很忙。他是共同創辦人和共同組織者,但他很忙。

他們想:「糟糕,我們錯過機會了。怎麼辦?」然後,幸運之神眷顧了他們。他們發現 Peter 當晚在舊金山的家裡要舉辦一場會後派對。他們進了派對,Demis 找到了 Peter。Demis 非常非常聰明,任何聽過他說話的人都會馬上知道。他心想,與其直接向 Peter 提案,不如拐彎抹角。他開始和 Peter 聊西洋棋,因為他知道,大家都知道,Peter Thiel 熱愛西洋棋。而 Demis 在青少年時期曾是世界排名第二的 14 歲以下棋手。

很好的策略。

絕佳的策略。這個人懂得如何下棋。所以 Peter 覺得:「嗯,我喜歡你。你看起來很聰明。你是做什麼的?」Demis 解釋說他有一家 AGI 新創公司,他們其實是來這裡的,他在台上發了言,大家對此都很興奮。Peter 說:「嗯,好吧。明天來 Founders Fund,給我你的提案。」

他們去了,提案很成功,Founders Fund 領投了 DeepMind 約 200 萬美元的種子輪融資。

天啊,AI 公司種子輪的時代變了。想像一下用不到 200 萬美元的支票領投 DeepMind 的種子輪。

收購大戰:Facebook、Tesla 與 Google 的角力

透過 Peter 和 Founders Fund,他們被介紹給了 PayPal 黑手黨的另一位成員——Elon Musk。

是的。

所以,這件事的安排相當低調。嘿 Elon,你應該見見這個人。所以 Elon 說:「太好了,來 SpaceX,我帶你參觀一下。」Demis 去吃午餐並參觀了工廠。當然,Demis 覺得這一切都很酷,但他真正想做的是把話題轉回到人工智慧上。

我來讀一段《衛報》一篇文章中的精彩節錄:

Musk 告訴 Hassabis,他的首要任務是到達火星,作為一個備用星球,以防地球出了什麼問題。「我當時覺得他對 AI 沒想太多。」Hassabis 指出了他計畫中的一個缺陷。「我說,『如果 AI 就是在這裡出錯的東西呢?那麼在火星上對你也沒有幫助,因為如果我們到了那裡,AI 顯然也很容易透過我們的通訊系統或其他方式到達那裡。』他沒想過這個問題。所以他坐在那裡沉默了一分鐘,只是在思考。嗯,這很可能是真的。不久之後,Musk 也成為了 DeepMind 的投資者。」

是的。

我很驚訝,Demis 竟然是那個點醒 Elon 這個想法的人,即我們在火星上也可能不安全,躲不過 AI。沒錯,沒錯。我沒考慮過這一點。

所以,這是 Elon 第一次被點醒,意識到我們真的需要為人類的利益,想出一個安全、可靠的 AI 方案。這個種子就在他腦中種下了。

是的。

當然,這也正是 DeepMind 的抱負。我們在這裡為人類的利益做研究,就像科學家在一個同行評審的環境中一樣。

是的。

我認為這一切都是真的。此外,在這次 Demis 和 Elon 會面後的幾個月到一年裡,Elon 也開始對 AI 的能力感到非常興奮和信服,尤其是在短期內的應用。特別是 AI 在 Tesla 上的應用能力。

是的。就像 Elon 世界裡的其他事情一樣,一旦他的觀念轉變,他對這個議題變得感興趣,他就會完全改變看待世界的方式,完全拋棄所有舊的方式和行為,一切都圍繞著如何最大程度地擁抱這個他新擁有的世界觀。

而且,其他人在這個時候已經研究了一段時間了,那就是 AI 駕駛汽車。

是的。這聽起來對 Tesla 來說是個很棒的主意。

是的。

所以,Elon 開始招募盡可能多的 AI 研究人員,以及機器視覺和機器學習專家到 Tesla。然後 AlexNet 出現了,哇,AlexNet 在識別和分類圖像方面真的非常非常厲害,比如 YouTube 上的貓咪影片和 YouTube 推薦系統。嗯,這和即時處理來自汽車的影片,理解周遭環境,真的有那麼不同嗎?我們能在即時處理它,並觀察幀與幀之間的差異嗎?或許還能控制汽車?其實沒有那麼大的不同。

所以,Elon 的興奮感,最初是透過 DeepMind 和 Demis 傳遞的,關於 AI 和 AI 對 Tesla 的應用,開始急劇升溫。

是的。

與此同時,在倫敦,DeepMind 正在努力工作,他們在招募研究人員,開發模型。他們對投資者含糊地提到了一些關於產品的想法,也許可以做一些購物相關的,也許是遊戲相關的,就像收購時網站上的描述一樣。但他們真正想做的,是建立這些模型並研究智慧。

然後,在 2013 年底的某一天,他們接到了一通電話,來自 Mark Zuckerberg。他想收購這家公司。

Mark 已經意識到在 AlexNet 事件後 Google 發生的所有事情,以及 AI 對於社群媒體動態推薦的影響,就像在 YouTube 上一樣。他也看到了 AI 在 Facebook 和 Instagram 上可能發揮的潛力。他已經招募了 Yann LeCun,他是 Jeff Hinton 的老博士後,和 Jeff 一起被譽為 AI 和深度學習的教父之一。

他真正推廣了卷積神經網路的概念,這是當時 AI 領域的下一個熱門話題。

於是,他和 Yann 一起創立了 FAIR(Facebook AI Research),這是 Facebook 內部與 Google Brain 競爭的機構。記住,誰是 Facebook 的第一位投資者,並且仍在董事會上?Peter Thiel。他也是 DeepMind 的領投者。你猜 Mark 是從哪裡聽說 DeepMind 的?Peter Thiel。

是不是?你確定是從 Peter 那裡聽說的嗎?不,我不確定,但除了他,Mark 還能從哪裡聽說這家在倫don的新創公司呢?

我有一個關於 Larry Page 如何發現這家公司的很棒的故事。哦,好的,我們稍後再談這個。

所以,Mark 打電話來,出價收購這家公司。關於 Mark 的出價有很多謠言,但根據 Parmy Olson 在她的書《Supremacy》中的說法,報導稱出價高達 8 億美元。對於一家沒有產品,距離 AGI 還很遙遠的公司來說。

這與 Cade Metz 在書中所寫的相符,即創辦人們如果接受 Facebook 的報價,賺的錢會是接受 Google 報價的兩倍左右。

是的。

所以,Demis 當然把這個消息告訴了投資人。這其實有點違背了公司創立的初衷。公司的整個目標,以及他對團隊的承諾,是 DeepMind 將保持獨立,進行研究,並在科學界發表成果。他們不會被資本主義機構的意志所左右。

是的。所以,如果這個提議要成功,肯定需要和 Mark 與 Facebook 進行一些交易條款的談判。

但是,Mark 在這個時候非常渴望,所以他對這些非常大的交易條款談判持開放態度,比如 Yann LeCun 可以留在紐約,可以繼續在紐約大學經營他的實驗室,Yann LeCun 是一位教授。他在某些事情上很靈活。但事實證明,Mark 在讓 Demis 保留 DeepMind 的控制權方面並不靈活,如果他收購了它。Demis 主張他們需要保持獨立和分立,需要這個獨立的監督委員會,如果 DeepMind 的使命不再被遵守,這個委員會有權介入。Mark 的回答是:「不,你將成為 Facebook 的一部分。」

你會賺很多錢。

所以,當這場談判進行時,DeepMind 的投資人當然也聽到了風聲。Elon 聽說了這件事,他立刻打電話給 Demis,說:「我現在就用 Tesla 的股票買下這家公司。」這是在 2013 年底或 2014 年初,當時 Tesla 的市值大約是 200 億美元。所以,從那時到現在,Tesla 的股票漲了大約 70 倍。

Demis、Shane 和 Mustafa 當時一定覺得,哇,情況有點複雜。但就像你說的,他們和 Elon 與 Tesla 有同樣的問題,就像他們和 Mark 一樣。Elon 希望他們加入,研究自動駕駛。他們不想研究自動駕駛。

對。或者至少不是專門研究這個。

至少不是專門。是的。

然後,Demis 接到了第三通電話,來自 Larry Page。

你想聽我說 Larry 是怎麼知道這家公司的故事嗎?我當然想聽你說 Larry 是怎麼知道的。

好的,這是在 DeepMind 還很早期的時候,我們還沒到收購的階段。據說,Elon Musk 和 Luke Nosek 在一架私人飛機上。Luke Nosek 是 PayPal 黑手黨的另一位成員,也是 DeepMind 的天使投資人。他們正在讀一封來自 Demis 的電子郵件,內容是關於 DeepMind AI 發現了一種巧妙的方法來贏得 Atari 遊戲《Breakout》的突破。他們發現的策略,在沒有任何人類訓練的情況下,是你可以將球彈到磚塊的邊緣上方,然後它就可以在頂部來回彈跳,更快地贏得遊戲,而不需要你在底部頻繁地操作擋板。

他們正在看這段影片,看它有多麼聰明。而和他們同在一架私人飛機上的,是 Larry Page。

當然,因為 Elon 和 Larry 曾經是非常好的朋友。

是的。

Larry 問:「等等,你們在看什麼?這是哪家公司?」就這樣,他知道了這件事。哇。

是的。

Elon 當時肯定氣炸了。有趣的是,我認為 Larry 和 Demis 之間的這種情誼,是這筆交易最終在 Google 達成的主要原因。

一旦他們兩人聚在一起,他們就像天生一對。Larry 一直將 Google 視為一家 AI 公司。Demis 當然也將 DeepMind 視為一家 AI 公司,以至於在實現 AGI 之前,他甚至不想開發任何產品。

事實上,Demis 告訴我們,當我們為這集做準備時,他覺得 Larry 完全理解他。Larry 完全支持 DeepMind 所做的一切使命。

而且,還有另一件對 Google 來說非常方便的事。他們已經有了 Brain。所以 Larry 不需要 Demis、Shane 和 Mustafa 以及 DeepMind 來 Google 開發產品。對。Brain 已經在 Google 內部開發產品了。Demis 完全可以相信 Larry 說的話:「不,待在倫敦,繼續研究智慧,做你們正在做的事。我不需要你們來開發產品。」Brain 正在積極地與產品團隊合作,試圖找出如何將神經網路部署到他們的產品中以使其變得更好。這就是他們存在的理由。所以他們很樂意同意這一點。

而且這很有效。Brain 和神經網路被整合到搜尋、廣告、Gmail 等等,所有的一切中。這是 DeepMind 最完美的家。一個遠離家鄉的家,可以這麼說。

是的。

還有第三個原因,為什麼 Google 是 DeepMind 的完美歸宿:基礎設施。Google 擁有你所能想要的一切運算基礎設施。隨時可用。

是的。至少有 CPU。是的。

所以,這筆交易是怎麼發生的?在收購 DNNresearch 之後,Alan Eustace,David 你和他談過,對吧?對。當時是 Google 的工程主管,他下定決心要招募所有最優秀的深度學習研究人才,而且他有一條明確的途徑。幾個月前,Larry Page 在南太平洋的一個島嶼上召開了一次策略會議,在 Cade Metz 的書中,那是一個未公開的島嶼。當然是他會做的事。Larry 認為深度學習將徹底改變整個行業,所以他告訴他的團隊,這是一句引言:「讓我們真正做大它。」

這實際上給了 Alan 一張空白支票,去網羅所有他能找到的最優秀的研究人員。所以在 2013 年,他決定在 12 月假期前坐飛機去見 DeepMind。

關於這件事有個瘋狂的故事:Jeff Hinton,當時在 Google,他的背有問題,不能坐下,只能站著或躺著。所以長途跨洋飛行對他來說是行不通的。但他必須作為盡職調查的一部分去那裡。既然你有 Jeff Hinton,你就得利用他來判斷是否應該收購一家深度學習公司。

於是,Alan Eustace 決定包下一架私人飛機,並且他要打造一個瘋狂的客製化安全帶裝置,這樣 Jeff Hinton 在起飛和降落時躺在地板上時,就不會滑來滑去。哦我的天。我想說,這部分,我確定 Google 有自己的飛機,他們可以直接用 Google 的飛機。但不管什麼原因,這是一次單獨的包機。但光有私人飛機是解決不了問題的,還需要一個安全帶裝置。對。

而 Alan 就是那個創下從世界最高處跳傘紀錄的人。他跳下的氣球,我其實不知道,是史上最高的自由落體跳傘,甚至比幾年前那個 Red Bull 的特技還要高。所以他非常習慣設計這種客製化的飛機裝置。他說:「哦,沒問題。你只需要一張床和一些帶子。我穿著潛水服從大氣層跳下來過,我覺得我們能搞定。」

這太神奇了。

所以他們飛到倫敦,做了盡職調查,達成了交易。Demis 和 Larry 有著真正的志同道合,於是就成交了。5.5 億美元,還有一個獨立的監督委員會成立,以確保 DeepMind 的使命和目標得到遵守。這就是 Google 今天擁有的一項資產,我認為它的價值高達半兆美元,如果它是獨立的話。

你知道嗎,PayPal 黑手黨的另一位成員,在收購後被任命為道德委員會的成員?Reid Hoffman?Reid Hoffman。肯定是。考慮到後來 OpenAI 的關係。我們稍後會再談到 Reid。

是的。

收購之後:AlphaGo 的勝利與 OpenAI 的誕生

收購後,事情進展得非常迅速且順利。最著名的就是資料中心冷卻的案例。DeepMind 分出了一部分團隊,去 Google 內部尋找使用 DeepMind 技術的方法。其中之一就是資料中心的冷卻。很快,在 2016 年 7 月,Google 宣布將資料中心冷卻所需的能源減少了 40%。我的意思是,Google 有很多資料中心,減少 40% 的能源消耗。我跟 Jim Gao 聊過,他是這個節目的朋友,也曾領導這個專案很大一部分。這簡直是神經網路在 Google 內部最直接的應用,而且立刻就回本了。是的,想像一下那筆錢很快就付清了收購的費用。

是的。

David,我們這一集要談 AlphaGo 嗎?要,當然要。

我看了 Google 製作的關於它的整部紀錄片。非常棒。即使你不是在為 podcast 節目做研究,只是想找點東西看一個小時,我也強烈推薦,在 YouTube 上有。這部紀錄片講述了 DeepMind 在被 Google 收購後,如何訓練一個模型來擊敗世界圍棋冠軍的故事。

當時,整個圍棋界都認為這是不可能的。那位名叫李世乭的棋手太強了,AI 不可能贏。這是一個五局三勝的比賽,結果 AI 連贏了前三局,完全橫掃。而且,它還用了一些前所未見的創新、有創意的下法,是沒有人類下過的。這才是最瘋狂的重點。

有一局比賽中,它下了一步棋,大家都在想:「這是失誤嗎?」第 37 手。對,第 37 手。是的,是的。然後一百步之後,棋局展開,結果證明那一步棋是天才之舉。現在人類正在從 DeepMind 的下棋策略中學習,發現新的策略。

對於 Acquired 的聽眾來說,一個有趣的問題是,為什麼是圍棋?圍棋非常複雜。相比之下,西洋棋開局大約有 20 種可能的下法,中局大約有 30 到 40 種。而圍棋,任何一個回合都有大約 200 種下法。所以從組合學的角度來看,棋盤上可能的配置數量,比宇宙中的原子數量還要多。

這是 Demis 的一句很棒的名言。是的。

他說,即使你把全世界所有的電腦都拿來,讓它們運行一百萬年,截至 2017 年,這也不足以計算出所有可能的變化。

所以這很酷,因為這是一個你無法用暴力破解來解決的問題。你必須用像神經網路這樣的方法,這裡有很大的空間可以發揮創意和探索。所以它成為了一個絕佳的試驗場,讓我們看到一個神經網路如何對抗人類,並展現出創造力。

是的。當然,這也完全符合 Demis 的背景和公司的 DNA,玩遊戲。Demis 是西洋棋冠軍。然後在圍棋之後,他們又去玩《星海爭霸》,對吧?

哦,真的嗎?我其實不知道。對,那是他們下一個挑戰的遊戲,《星海爭霸》,一個即時戰略遊戲,對抗對手。

這稍後會和另一個對手 OpenAI 有關。

當然。

好了,David,所以 Google 收購 DeepMind 的第二層效應是什麼?

嗯,有一個人對此非常非常不滿,可能還有兩個人,如果算上 Mark Zuckerberg,但 Mark 傾向於不那麼表露。當然,Elon Musk 非常非常不滿這次收購。

當 Google 從他手裡買走 DeepMind 時,Elon 簡直氣瘋了。就像我們說的,Elon 和 Larry 一直以來都非常親近。而現在,Google,這個 Elon 已經開始有點不滿的公司,因為他現在也在試圖招募 AI 研究人員,而 Alan Eustace 正坐著飛機在全世界挖走所有 AI 研究人員到 Google。而 Elon 投資了 DeepMind,本想把它納入他自己的 Tesla AI 團隊,結果就這樣被搶走了。

所以,這導致了矽谷歷史上最具決定性的一次晚宴之一。這次晚宴於 2015 年夏天,在 Sand Hill Road 的 Rosewood 酒店舉行,當然,除了 Rosewood,你還能在矽谷哪裡辦晚宴呢?

這次晚宴是由當時矽谷兩位最重要的人物組織的:Elon Musk 和 Sam Altman。Sam Altman 當時是 Y Combinator 的總裁。

所以,這次晚宴的目的是什麼?他們在那裡是為了向所有那些被 Google,以及在某種程度上被 Facebook 挖走,基本上形成雙頭壟斷的 AI 研究人員們進行一次遊說。

再次強調,Google 的商業模式和 Facebook 的商業模式,這些推薦系統或分類器,被證明具有難以置信的價值,所以他們可以……回想起來這麼說很有趣,付給這些人大量的錢。大量的錢,像是數百萬美元。把他們從學術界挖走,讓他們在公司內部的骯髒資本主義研究實驗室工作。

賣廣告。是的。還能有多骯髒。

Elon 和 Sam 對於聚集在這場晚宴上的研究人員們的問題和遊說是:「要怎樣才能讓你們離開 Google?要怎樣你們才會離開?」

幾乎所有人的回答都是:「沒什麼。你辦不到。我們為什麼要離開?我們拿的薪水比我們想像的要多得多。我們很多人還可以保留我們的學術職位和關係。而且我們還可以在 Google 和彼此一起工作。」和彼此一起。教學相長,這些是世界上最頂尖的人才,可以在擁有大量資源和硬體的環境下進行尖端研究。

這太棒了。是世界上最好的基礎設施,我們還有 Jeff Dean。你說什麼都沒用,我們不會離開 Google。

但有一個人對這個提議很感興趣。引述當時 Cade Metz 在《Wired》上的一篇很棒的文章,他後來寫了《Genius Makers》,對吧?對,完全正確。

引文是:「問題是,最有資格解決這些問題的許多人,都已經在為 Google 工作。晚宴上沒有人確定這些思想家能被吸引到一家新創公司,即使背後是 Musk 和 Altman。但一位關鍵人物至少對跳槽的想法持開放態度。」然後是這位關鍵人物的引言:「我覺得這其中有風險,但我也覺得這會是一件非常有趣的事情。」

這是史上最 Ilya 的引言。最 Ilya 的引言,因為那個人就是 Ilya Sutskever。當然,他是 AlexNet 和 DNNresearch 的成員,也是 Google 的一員,即將成為 OpenAI 的創始首席科學家。

Elon 和 Sam 向這些研究人員提出的建議是:「讓我們創辦一個新的非營利 AI 研究實驗室,我們可以公開地進行所有這些工作。你們可以發表論文。」擺脫 Facebook 和 Google 的影響,獨立於他們的控制之外。

是的,你們不必開發產品,你們可以只專注於研究。你們可以發表你們的研究成果,它將是開放的,為了全人類的利益。所有這些令人難以置信的進步,我們相信即將到來的智慧,將是為了所有人的利益,而不僅僅是為了 Google 和 Facebook。

對於其中一位研究人員來說,這聽起來好得不像真的,所以他們基本上沒有參與,因為他們不認為其他人會參與。這有點像一個啟動能量的問題。一旦 Ilya 說:「好吧,我加入。」順帶一提,在他說他要加入之後,Google 提出了一個更高的報價,大概是 OpenAI 報價的兩倍,而且是由 Jeff Dean 親自提出的,但 Ilya 說:「不,我決定了。」這對於吸引其他頂尖研究人員跟他一起走,起到了巨大的作用。

但這並不是所有頂尖研究人員都離開 Google 去做這件事。但已經足夠了。大約有七位研究人員離開 Google,加入了 Elon 和 Sam,以及來自 Stripe 的 Greg Brockman,創辦了 OpenAI。

因為他們的提案是,我們將公開地做這一切。而這也確實是他們的初衷。完全是。

OpenAI 的既定使命是「以最有利於全人類的方式,推進數位智慧,不受創造財務回報需求的限制」。

這很好,只要你實現使命所需要的東西,不需要花費數百億美元。

是的。

所以他們最初是這樣籌資的:他們承諾了 10 億美元。是的。這筆錢來自著名的 Elon Musk、Sam Altman、Reid Hoffman、Jessica Livingston,我想大多數人不知道她也是最初的投資者之一,還有 Peter Thiel。

是的。Founders Fund 後來當然也向 OpenAI 投入了大量的資金。

有趣的是,後來有報導稱,這 10 億美元並未完全到位,只有大約 1.3 億美元被實際募集,用於資助這個非營利組織。在最初的幾年裡,對於他們正在進行的研究類型,這筆錢已經綽綽有餘。他們需要的運算能力。大部分錢都用來支付研究人員的薪水了。雖然不如他們在 Google 和 Facebook 賺得多,但對於這些人來說,仍然是百萬到兩百萬美元的年薪。

對。

是的,所以這在初期確實有效,直到後來行不通。

那麼 David,他們在早期是做什麼的?

嗯,在最初的日子裡,他們全力以赴地招募研究人員。最初有一批人過來了,然後很快,在 2016 年初,他們迎來了一次重大的勝利,Dario Amodei 離開 Google,加入 Ilya 的團隊,加入了 OpenAI。夢之隊正在集結。

他之前是在 Google Brain 嗎?他之前在 Google Brain。是的。他和 Ilya 一起,將在接下來的幾年裡,掌管 OpenAI 的大部分業務,直到後來離開創辦 Anthropic。

但我們離 Anthropic、Claude、ChatGPT、Gemini 等等還有幾年的時間。在最初的一兩年裡,OpenAI 的計畫基本上是:「看看 DeepMind 在做什麼,然後向研究社群展示,我們作為一個新的實驗室,也能做到他們那些令人難以置信的事情,甚至可能做得更好。」

這就是為什麼它看起來那麼像遊戲,專注於遊戲的原因嗎?是的,是的。所以他們開始建立模型來玩遊戲。最著名的就是《Dota 2》。他們想:「DeepMind 在玩《星海爭霸》,那我們就去玩《Dota 2》。那更複雜,更即時。」

和圍棋的突現特性類似,這個遊戲會設計出你在人類身上看不到的獨特策略。所以很明顯,這不是人類將他們最喜歡的策略和規則寫入程式碼,而是自然浮現的。

是的。他們還做了其他事情,比如一個名為 Universe 的專案,是關於訓練電腦玩數千種遊戲,從 Atari 遊戲到像《俠盜獵車手》這樣的開放世界遊戲。他們還有一個專案,是教一個模型如何解魔術方塊。所以,這是一系列多元的專案,但似乎沒有一個會凝聚成一個大的東西。

是的。這是研究。這就是 DeepMind 在做的事。是的。就像一個大學的研究。

這就像 DeepMind。

如果你回想一下,Elon 曾是 DeepMind 的投資者,對於 Google 收購它感到非常不滿,這就說得通了。我認為 Elon 值得很多讚揚,因為他在 OpenAI 創立初期,將自己的名字和時間投入其中。很多重要的招募工作,都是因為 Elon 在背後支持,表示願意承擔風險。

絕對是。

Google 的秘密武器:TPU 的誕生

好的,那是在 OpenAI 發生的事。做了很多類似 DeepMind 的事情,很多專案,但沒有一個明確的大方向。還不是 ChatGPT 的時代。這麼說吧。

讓我們回到 Google。因為我們上次提到他們時,是的,他們收購了 DeepMind,但他們的人才被挖走了。我不想讓你對 Google 的處境有錯誤的印象,僅僅因為一些人離開去了 OpenAI。

所以在 2013 年,當 Alex Krizhevsky 和 Jeff Hinton 與 Ilya Sutskever 一起到達 Google 時,他驚訝地發現他們現有的所有機器學習模型都在 CPU 上運行。過去有人要求過使用 GPU,因為機器學習工作負載非常適合並行運行,但 Google 的基礎設施團隊拒絕了,他們說增加機群的多樣性和複雜性會帶來問題,讓我們保持簡單。這對我們來說似乎不重要。

我們是 CPU 的公司。

是的。引述《Genius Makers》中的話,在他到公司的最初幾天裡,他出去買了一台 GPU 機器,這是 Alex,從一家當地的電子產品商店買的,把它塞進他辦公室走廊盡頭的一個壁櫥裡,插上網路,然後開始在這台孤零零的硬體上訓練他的神經網路。就像他在學術界做的一樣,只不過這次是 Google 付電費。

顯然,一台 GPU 是不夠的,尤其是有更多的 Google 員工也想開始使用它。Jeff Dean 和 Alan Eustace 也得出結論,儘管 DistBelief 很棒,但它需要重新架構,才能在 GPU 上運行,而不是 CPU。

所以,在 2014 年春天,Jeff Dean 和 John Giannandrea,我們這一集還沒談到他。JG。是的。你可能會問,那不是 Apple 的人嗎?是的,他後來去了 Apple 擔任 AI 主管,但在這個時候,他在 Google 負責 Google Brain。他們坐下來制定了一個計畫,如何正式地將 GPU 納入 Google 的機群。這是一個重大的決定,一個重大的改變。

但他們已經看到了足夠多神經網路的反應,知道他們需要這麼做。是的,在 AlexNet 之後,這只是時間問題。

是的。

所以他們決定訂購 4 萬張 GPU,來自 Nvidia。是的,當然,你還能向誰訂購呢?總價 1.3 億美元。這是一個足夠大的價格標籤,以至於這個請求被提升到了 Larry Page 那裡,他親自批准了,儘管財務部門想否決它,因為他說:「看,Google 的未來是深度學習。」

順帶一提,讓我們看看當時的 Nvidia。這是一個巨大、巨大的訂單。他們當時的總營收是 40 億美元,而這只是一個 1.3 億美元的訂單。我的意思是,Nvidia 當時主要是一家消費級顯卡公司。

是的,他們的市值是 100 億美元。

這幾乎就像 Google 給了 Nvidia 一個秘密,告訴他們:「嘿,這不僅僅在像 ImageNet 競賽這樣的研究中有效,神經網路對我們作為一家企業來說,價值大到足以讓我們現在就投入超過 1 億美元,沒有任何問題。」

我們得找個時間問問 Jensen 這件事。這肯定是一個暗示。這肯定給了 Nvidia 信心,讓他們相信這將是未來的一個巨大商機,應該大力投入。

所以,整個 Google 都意識到了這個想法。他們開始真正地把它投入到他們的產品中。Google Photos 出現了,Gmail 開始提供打字建議。David,正如你之前指出的,Google 巨大的 AdWords 業務開始找到更多用深度學習賺錢的方法。特別是,當他們整合它之後,他們可以開始預測人們未來會點擊哪些廣告。所以 Google 開始在 GPU 上投入數億美元,在最初的 1.3 億美元基礎上,但很快就從他們的廣告系統中回本了。所以,購買盡可能多的 GPU 變得越來越理所當然。

但是,一旦神經網路開始發揮作用,任何使用它們的人,尤其是在 Google 的規模上,都會遇到一個問題。現在我們需要做大量的矩陣乘法,每當有人想用一次,就需要做。矩陣乘法實際上就是你如何通過神經網路的層進行傳播。

所以你有一個問題。是的,當然,這裡有效率問題,但也有商業問題:「等等,看起來我們每年都要把數億,很快就會變成數十億美元,送給 Nvidia。」

對。

所以在 Google 推出語音辨識功能後,有一個很棒的時刻,這是他們最新的神經網路應用,當時只在 Nexus 手機上推出。因為,同樣,他們沒有基礎設施來支持所有的 Android 手機。這項功能變得非常受歡迎,Jeff Dean 算了一下,如果人們每天用這個功能三分鐘,然後我們把它推廣到所有十億台 Android 手機,我們將需要兩倍於我們目前在整個 Google 擁有的資料中心數量,才能應付這個需求。

只是為了這個功能。是的。

Jeff Dean 去找 Urs Hölzle,跟他說:「我們需要另一個 Google。」

或者,David,正如你暗示的,另一個選擇是,我們打造一種新的晶片,專為我們特定的應用場景客製化。

是的。矩陣乘法,張量乘法,一個你可能會說的「張量處理單元」。啊,是的。那豈不是很棒。

所以,很方便的是,Jonathan Ross,Google 的一位工程師,一直在利用他的 20% 時間,研究一個涉及 FPGA 的專案。這些基本上是昂貴但可編程的晶片,能產生非常棒的結果。所以他們決定創建一個正式的專案,將那項工作與其他一些現有的工作結合起來,打造一個客製化的 ASIC,或稱應用特定積體電路。

於是,就有了 David 你提到的,張量處理單元(TPU),專為神經網路打造,比當時的 GPU 效率高得多,但代價是你幾乎不能用它做其他任何事。它不適合圖形處理,也不適合很多其他的 GPU 工作負載,只適合矩陣乘法,只適合神經網路。

但這讓 Google 能夠擴展他們的資料中心,而不需要將整個 footprint 翻倍。TPU 背後的大想法,如果你想知道核心洞見是什麼,是他們使用了降低的計算精度。所以它會把像 4586.8272 這樣的數字,四捨五入到 4586.8,甚至可能只是 4586,小數點後什麼都沒有。

這乍聽之下有點反直覺,你為什麼會想要用更不精確的四捨五入的數字,來做這麼複雜的數學運算呢?答案是效率。如果你能在你的軟體架構中做繁重的工作,或者所謂的「量化」來彌補,你就可以用更不精確的數字來儲存信息,那麼你就可以用同樣的電力、同樣的記憶體和同樣的電晶體,在每秒內做更多的計算。所以你可以更快地得到答案,或者使用更大的模型。整個想法非常巧妙。

TPU 的另一件事是,它必須現在就做出來。因為很明顯,語音轉文字是一個趨勢,很明顯 Google 的一些其他應用場景也是。是的,對所有這些來自 Google Brain 的東西的需求,是立即的,而且非常大。

對。而且我們還沒到大型語言模型的時代,只是每個人都期望有這些東西,無論是照片中的電腦視覺,還是語音辨識,它正在成為我們期望的東西,而且這會顛覆 Google 的經濟模式,如果他們沒有的話。

所以,TPU 在 15 個月內,被設計、驗證、製造並部署到資料中心。

哇。

這不像一個可以持續幾年的研究專案,這是一個迫在眉睫的問題,他們立即啟動了。他們做了一件非常聰明的事,A,他們用 FPGA 作為一個權宜之計。所以即使它們在單位基礎上太貴了,他們也可以把它們作為一個測試機群,確保所有的數學運算都正確,在他們真正讓 ASIC 在台積電或其他地方製造之前。他們做的另一件事是,他們把 TPU 設計成硬碟的尺寸。所以它可以直接插入現有的伺服器機架,你只要拔出一個硬碟,然後插入一個 TPU,不需要做任何物理上的重新架構。

哇。這太神奇了。這是最有 Google 風格的基礎設施故事了,自從軟木板以來。

完全正確。

還有,所有這些都不是在 Mountain View 做的,而是在威斯康辛州麥迪遜的一個 Google 衛星辦公室。哇。

是的。為什麼是威斯康辛州麥迪遜?那裡有一位來自大學的特定教授,還有很多他們可以招募的學生。哇。

是的。我的意思是,要嘛是他們,要嘛是 Epic。你還能去哪裡工作?

他們還把這件事保密了。對,你為什麼要告訴任何人這件事?因為他們當時還沒有在 Google Cloud 中提供這些服務,至少初期沒有。那你為什麼要告訴全世界你在做什麼?所以整件事至少保密了一年,才在 Google I/O 上宣布。

所以,真的很瘋狂。關於 TPU 的另一件事是,它們在 AlphaGo 比賽前就及時完成了。所以那場比賽是在一台裝有四個 TPU 的單一機器上,在 Google Cloud 中運行的。一旦那成功了,顯然給了 Google 一點額外的信心,去真正大規模地投入生產。所以,這就是 TPU。V1,據大家說,並不是很好。他們現在已經出到 V7 或 V8 了,進步了很多。TPU 和 GPU 現在看起來比以前相似得多,它們互相借鑒了特點。

但今天,據估計,Google 擁有兩百到三百萬個 TPU。作為參考,Nvidia 去年出貨了,大家不確定具體數字,但大約是 400 萬張 GPU。所以,大家談論 AI 晶片時,好像這只是 Nvidia 的一場獨角戲,但 Google 擁有一個幾乎與 Nvidia 規模相當的內部部門,為他們自己和 Google Cloud 的客戶製造自己的晶片。TPU 在 AI 領域是一個巨大的交易,我認為很多人沒有意識到。

是的。這是一個巨大的諷刺,也是讓 OpenAI 和 Elon Musk 感到抓狂的事情之一,那就是 OpenAI 在 2015 年創立,目標是:「嘿,讓我們把這些人才從 Google 挖出來,讓競爭環境公平一些。」結果 Google 只是加速了。

對。他們還建立了 TensorFlow,這是 Google Brain 建立的框架,讓研究人員能夠建立、訓練和部署機器學習模型。他們建立它的方式是,它不僅僅只能在 TPU 上運行,它還非常便攜,不需要任何重寫就可以在 GPU 甚至 CPU 上運行。所以這取代了舊的 DistBelief 系統,成為他們內部和外部,為 ML 研究人員提供支持的框架。

所以,有點矛盾的是,在 OpenAI 創立後的這幾年裡,是的,一些很棒的研究人員被從 Google 和 Google Brain 挖走了,但 Google Brain 同時也在全速前進。為 Google 的商業目標,左右開弓地做出貢獻。

是的。並在許多領域推動了技術的發展。

然後,在 2017 年,一篇論文發表了,來自 Google Brain 團隊的八位研究人員。有點悄無聲息。這八個人,對於這篇論文和它的描述,以及它的影響,當然是非常興奮的。他們認為這將會非常重要。Google 自己呢,嗯,酷,這是我們語言模型工作的下一次迭代。很棒。

這對我們很重要。但我們確定這是下一個 Google 嗎?不。不。我們還有很多其他的事情在做,看起來更有可能成為下一個 Google。

但是,這篇論文和它的發表,實際上給了 OpenAI 一個機會。去建立下一個 Google。去抓住球,然後跑,建立下一個 Google。因為這就是 Transformer 論文。

好的,那麼 Transformer 是從哪裡來的?語言模型在 Google 之前最新的進展是什麼?

在 Franz Och 在 Google Translate 上的工作取得成功之後,以及那裡發生的改進,大約是在 2000 年代末期?2007 年。對,2000 年代中後期。他們不斷地改進 Translate,然後,一旦 Jeff Hinton 加入,AlexNet 出現了,他們就轉而使用基於神經網路的語言模型來做 Translate。

這是一個巨大的進步,也是一個很大的文化衝擊。因為你有這些研究人員空降進來,同樣由 Jeff Dean 領導,說:「我很確定我們的神經網路能比我們過去十年一直使用的經典方法做得好得多。如果我們花接下來幾個月的時間,做一個概念驗證呢?」他們最終拋棄了整個舊的程式碼庫,完全轉向了這個神經網路。當時有一篇很棒的《紐約時報》雜誌的報導,在 2016 年刊登了關於這件事的文章。我還記得當時讀完整篇文章,下巴都快掉下來了。哇,神經網路真是個大事。而這是在 Transformer 論文發表的前一年。

在 Transformer 之前。是的。

所以,他們重寫了 Google Translate,讓它基於循環神經網路,這在當時是最先進的技術,而且效果有了很大的提升。

但是,隨著 Google Brain 和 Google Translate 團隊的不斷努力,他們發現了一些局限性。特別是一個大問題是,它們會太快地「忘記」事情。我不知道這是不是最恰當的比喻,但在今天的 Transformer 世界裡,你可能會說早期語言模型的上下文視窗相當短。當這些語言模型在處理文本時,它們需要記住所有讀過的內容,這樣當它們需要更改後面的單詞或想出下一個單詞時,才能擁有一整個文本的記憶庫來執行操作。

為了解決這個問題,Google 嘗試的方法之一是使用一種稱為長短期記憶網絡(Long Short-Term Memory Networks),或簡稱 LSTM 的技術。基本上,LSTM 所做的是創造一個持久的、或說「長」的「短期記憶」。這讓模型在經過一連串步驟時,能夠持續保有上下文。

起初,人們對 LSTM 感到非常興奮。當時大家認為 LSTM 將能帶領語言模型和大型語言模型走向主流。

確實,在 2016 年,Google 將 LSTM 整合到 Google 翻譯中,這項技術將錯誤率降低了 60%,是一次巨大的躍進。

LSTM 的瓶頸與 Transformer 的誕生

然而,LSTM 雖然有效,但它們的計算成本非常高,而且並不太適合平行處理。當時所有源於 AlexNet 和 TPU 計畫的努力都指向平行化,認為這才是未來,是讓 AI 真正發揮作用的方式。在這一點上,LSTM 構成了一個阻礙。

因此,Google Brain 內部的一個團隊開始尋找一種更好的架構。他們希望新架構既能擁有 LSTM 的優點——不會太快忘記上下文,又能更好地進行平行化和擴展,以利用所有這些新的硬體架構。

一位名叫 Jakob Oskoreit 的研究員一直在思考一個想法,那就是擴大語言處理中「注意力(attention)」的範圍。如果模型不只是專注於眼前的幾個詞,而是被告知去關注整個文本語料庫呢?根據完整的上下文,並將注意力分配到整個文本,然後對下一個翻譯的詞做出預測。

順帶一提,這實際上就是專業的人類譯者翻譯文本的方式。你不會逐字翻譯,而是會先閱讀原文的全部內容,理解其上下文,然後才回過頭來,在掌握整篇文章脈絡的情況下開始翻譯。

這個方法需要大量的計算能力,但它非常適合平行化處理。Jakob 開始與 Brain 團隊的其他幾位成員合作,他們對此感到興奮。他們決定將這項新技術命名為「Transformer」。

這個命名有兩個原因:第一,這確實是它在做的事——接收大量資訊,進行處理和理解,然後轉換它。第二,因為他們小時候都喜歡變形金剛(Transformers)。它接收龐大的文本語料庫,並以壓縮格式儲存。

我之所以提到這一點,是因為這與 Noam Shazeer 在 2000 年或 2001 年,也就是 17 年前,在微型廚房對話中提出的想法完全一樣,而他正是這篇論文的共同作者之一。

Noam Shazeer 的關鍵貢獻

談到 Noam Shazeer,他得知了這個專案。他想,他對此有些經驗,這聽起來很酷。LSTM 確實存在問題,這個新方向可能很有前景,所以他決定加入並與這些人一起研究。

他加入是件好事,因為在 Noam 加入專案之前,他們雖然有一個可行的 Transformer 實作版本,但其產生的結果並沒有比 LSTM 好。Noam 加入團隊後,基本上就像 Jeff Dean 一樣,從頭重寫了整個程式碼庫。當他完成後,Transformer 的表現徹底輾壓了基於 LSTM 的 Google 翻譯解決方案。

結果發現,他們把模型做得越大,效果就越好。它似乎能夠非常好地擴展。Steven Levy 在《Wired》雜誌上寫了一篇關於這段歷史的文章,裡面充滿了團隊其他成員的引述,例如:「Noam 是個魔術師」、「Noam 是個巫師」、「Noam 接手了這個想法,回來後說,『現在它能用了』」。

你會好奇為什麼 Noam 和 Jeff Dean 現在會一起開發下一代的 Gemini。他們絕對是天作之合。

Transformer 的簡潔之美

我們與 Google Brain 的創始人之一 Greg Corrado 進行了交談。那是一次非常有趣的對話,因為他強調了 Transformer 是多麼的簡潔。他說它 настолько簡潔,以至於人們最初的反應常常是:「這不可能行得通,太簡單了。」

Transformer 幾乎算不上是一個神經網絡架構。這是與 AlexNet 和 Jeff Hinton 一脈相承的神經網絡的又一次重大變革。

這實際上改變了我看待世界的方式。Greg 指出,在自然界中,事物的運作方式通常是能量效率最高的方式。從演化的角度來看,最簡單、最優雅的解決方案之所以能夠存活下來,正是因為它們對資源的利用效率最高。

你可以將這個想法應用到計算機科學中。他說他自己在研究實驗室裡已經發展出一種模式識別能力,意識到當你找到一個非常簡單且高效的解決方案時,你可能就走對了路,而不是選擇一個複雜的想法。Transformer 就具有這種簡潔之美。

苦澀的教訓:規模化的力量

另一點值得一提的是,這正是現代 AI 的開端:只要餵給它更多資料。Rich Sutton 的著名文章《苦澀的教訓》(The Bitter Lesson)要到 2019 年才會發表。對於沒讀過的人來說,它的主旨是:我們作為 AI 研究者,總以為自己很聰明,工作是想出下一個偉大的演算法。但實際上,從語言到計算機視覺再到西洋棋,在每個領域,只要你找到一個可擴展的架構,然後投入更多資料和更多算力,就能獲得更好的結果。這些無限擴展的模型,最終是資料量取勝。

這確實是這個觀點開始成為主流的起點,大家意識到:「哦,我們已經找到了那個可擴展的架構」,這個架構在接下來的近十年裡,只要投入更多資料、更多能源、更多算力,就能帶來更好的結果。

Google 的遲疑與論文的發表

團隊和 Noam 意識到這項技術潛力巨大,遠不止是改進翻譯那麼簡單。他們認為這項技術可以被廣泛應用。

然而,Google 的其他部門對其潛力的覺醒速度要慢得多。他們確實也開發了一些東西。在一年內,他們打造了大型語言模型 BERT。認為 Google 在 Transformer 論文發表後什麼也沒做的說法是錯誤的。他們其實做了很多事。事實上,BERT 是最早的大型語言模型之一。他們利用基於 Transformer 的大型語言模型做了很多工作。

但他們沒有做的是,將其視為一次全面的技術平台變革。他們做的是像 BERT 和另一個模型 MUM 這樣的事情,可以將其應用於改善搜索結果品質。這確實有意義地推動了進步,儘管 Google 沒有大肆宣揚。他們在查詢理解方面做得更好,將其融入核心業務中,就像 Google Brain 每次推出偉大成果時一樣。

因此,在一個或許對人類價值而言最偉大的決定之一,同時也可能是 Google 史上最糟糕的企業決策之一中,Google 允許這組八位研究員發表了這篇論文。論文的標題是《Attention Is All You Need》,顯然是向 The Beatles 關於愛的經典歌曲致敬。

截至 2025 年的今天,這篇論文在其他學術論文中已被引用超過 173,000 次,使其成為目前 21 世紀被引用次數第七多的論文,而且我認為榜單上排在它前面的其他論文發表時間都更早。

當然,在幾年內,這篇 Transformer 論文的所有八位作者都離開了 Google,去創辦或加入了 AI 新創公司,包括 OpenAI。

這是一次殘酷的損失。Noam 創辦了 Character.AI,後來 Google 透過一項涉及授權、IP 和招聘協議的奇特安排,以數十億美元的代價讓他回歸。可以說,2017 年開啟了 Google 未能充分抓住自己創造的機會的五年。

OpenAI 的內部動盪與微軟的進場

那麼,在 OpenAI 這段時間發生了什麼?有人認為 Transformer 是件大事嗎?

是的,他們確實這麼認為。但歷史在這裡變得非常瘋狂。

就在 Google 發表 Transformer 論文後,2017 年 9 月,Elon Musk 對 OpenAI 的現狀感到非常厭煩。當時有七種不同的策略,大家在爭論是該做電玩遊戲,還是參加競賽。他認為 OpenAI 只是在模仿 DeepMind,而與此同時,他正在打造 SpaceX 和 Tesla。自動駕駛對 Tesla 的未來越來越重要,他需要 AI 研究人員,需要偉大的 AI 進展來幫助 Tesla 的業務。

OpenAI 沒有達到他的期望。因此,他向 Sam Altman 和 OpenAI 的其他董事會成員發出了最後通牒。

他說:「我很樂意完全接管 OpenAI,我們可以將其併入 Tesla。」我甚至不知道這在操作上是否可能,將一個非營利組織併入 Tesla。但在 Elon 的世界裡,如果他接任 OpenAI 的 CEO,這幾乎不成問題,大家會把它們當作同一家公司,就像他對待其他公司一樣。

另一個選擇是,他完全退出,並帶走他所有的資金。Sam 和董事會的其他成員拒絕了。當時他們只收到了承諾的十億美元中的約 1.3 億美元。他們沒有達成解決方案,到了 2018 年初,Elon 離開了,OpenAI 的主要資金來源也隨之中斷。

這要麼是 Elon 的一次非常糟糕的誤判,要麼是這種恐慌成為了催化劑,讓 OpenAI 轉向 Transformer,並意識到:「好吧,我們必須想辦法,需求是發明之母,讓我們放手一搏。」

我不確定在這段 Elon 和 Sam 之間的個人緊張關係期間,他們是否已經決定全力投入 Transformer。因為一旦你決定走 Transformer 和語言模型的路,你很快就會意識到你需要大量的資料、大量的算力、大量的能源和大量的資本。所以,如果你最大的支持者正在離開,那麼明智之舉是留住他,因為公司即將轉型,而這次重大的轉型需要他的資金。

更深層次的策略是,如果他離開,或許我可以將其轉變為一個營利性公司,然後為其募資,並最終產生足夠的利潤來支持這個極其昂貴的新方向。我不確定當時是哪種情況,但這兩種情況同時發生,真是瘋狂。

GPT 時代的來臨

2018 年 6 月,OpenAI 發表了一篇論文,描述了他們如何採用 Transformer,並開發出一種新的方法:在網路上大量的通用文本上進行「預訓練」,然後針對特定用例對其進行「微調」。他們也宣布已經訓練並運行了這種方法的第一個概念驗證模型,他們稱之為 GPT-1,即「生成式預訓練 Transformer」第一版。

這與 BERT 的時間差不多,也與西雅圖 Allen Institute 推出的另一個基於 Transformer 的大型語言模型時間相近。所以,這並不是什麼秘密,其他 AI 實驗室,包括 Google 自己,也在做同樣的事情。但從一開始,OpenAI 似乎就更認真地對待這件事,因為他們知道,如果繼續走這條路,其成本之高將需要他們以整個公司作為賭注。

Elon 剛走,他們要去哪裡找錢呢?Sam Altman 轉向了 OpenAI 的另一位董事會成員,Reid Hoffman。Reid 在大約一年前剛把 LinkedIn 賣給了 Microsoft,現在是 Microsoft 的董事會成員。Reid 說:「嘿,你為什麼不去找 Satya Nadella 談談呢?」

2018 年 7 月,他們安排了一次會議,讓 Sam Altman 和 Satya Nadella 在 Allen & Company 的 Sun Valley 會議上坐下來談。在那裡,他們敲定了一項協議,由 Microsoft 向 OpenAI 投資 10 億美元,形式包括現金和 Azure 雲端點數。作為回報,Microsoft 將獲得 OpenAI 技術的獨家授權,用於 Microsoft 的產品。

他們實現這一點的方式是,非營利組織 OpenAI 將創建一個受其控制的營利實體,名為 OpenAI LP,而 Microsoft 將投資這個營利實體。Reid Hoffman 加入了這個新結構的董事會,其他成員還有 Sam、Ilya、Greg Brockman、Adam D'Angelo 和 Tasha McCauley。於是,現代的營利性/非營利性模糊不清的 OpenAI 就這樣誕生了。

Microsoft 回來了。Microsoft 是 Google 的宿敵。在我們第一集關於 Google 創立和搜索的節目中,以及第二集關於 Alphabet 和所有產品的節目中,Google 的整個策略始終是圍繞著 Microsoft。他們最終在各個方面都擊敗了 Microsoft,而現在,他們又回來了。Satya 的那句話是:「我們想讓他們跳舞。」我想幾年後出現的說法是:「我們想讓全世界知道,我們讓 Google 跳舞了。」

從 GPT-2 到 ChatGPT 的誕生

這仍然是在 ChatGPT 出現之前。這只是 Sam 為一個看起來非常昂貴的擴展計劃籌集他所需要的資金。

GPT-2,這是我第一次聽說它。西雅圖周圍的資料科學家們都在談論這個很酷的東西。在 Microsoft 的第一筆投資之後,2019 年,OpenAI 發布了 GPT-2。雖然還處於早期階段,但非常有前景。它可以做很多事情,但需要使用者有相當大的創造力。你基本上需要是個開發者才能使用它。如果你是個普通消費者,使用它的門檻很高。你必須先寫幾段文字,然後將它們貼到語言模型中,它會根據你提供的源段落,建議一種完成寫作的方式。但它不是互動式的,它是一個 API。

但它可以做一些事情,比如翻譯文本,當然 Google 早就做到了。但用 GPT-2,你可以編造一個假新聞標題,交給它,它就會寫出一整篇文章。你讀了之後可能會覺得這像是機器人寫的,但它沒有一個普通人可以使用的前端介面。你需要願意深入其中才能使用它。

然後,在 2020 年 6 月,GPT-3 問世了。仍然沒有面向普通用戶的介面,但它非常出色。GPT-2 展示了可能性,而 GPT-3 則開始進入「它能否通過圖靈測試」的討論範圍。你很難區分 GPT 寫的文章和人類寫的文章。它非常出色,圍繞它的討論也越來越多。

所以,儘管消費者還沒有真正使用它,但更廣泛的認知是,一些有趣的事情即將發生。創投公司收到的 AI 商業計劃書數量在這個時期開始上升,Nvidia 的股價也是如此。

然後在 2021 年夏天,Microsoft 發布了使用 GPT-3 的 GitHub Copilot。這不僅是第一個整合了 GPT 的 Microsoft 產品,也是第一個將 OpenAI 技術產品化的應用。這是一件大事,它開始大規模地改變軟體編寫的方式。起初只有少數軟體工程師在使用,但現在,大約 75% 的公司程式碼都是由 AI 編寫的。

在那之後,Microsoft 又向 OpenAI 投資了 20 億美元,這在當時看來是一大筆錢。

ChatGPT 的意外成功與 Google 的紅色警報

這就帶我們來到了 2021 年底。這時出現了一個有趣的背景轉變。科技股市場崩盤,加密貨幣市場崩盤,更廣泛的市場也陷入困境。大家突然從風險偏好轉向風險規避。部分原因是烏克蘭戰爭,但很大一部分原因是利率上升。

Google 受到了非常沉重的打擊。其股價高點是在 2021 年 11 月 19 日,當時 Google 的市值接近 2 兆美元。在那次下跌開始大約一年後,它的市值只剩下 1 兆美元,跌幅接近 50%。

在 2022 年底,也就是 ChatGPT 發布之前,人們開始覺得 Google 變慢了,對變化的反應遲鈍。感覺它像是一家老舊僵化的公司,就像 2000 年代的 Microsoft。他們已經有一段時間沒有推出突破性產品了。大家對 Google 的未來並不看好。

然後,ChatGPT 出現了。

OpenAI 已經有了 GPT-3.5,它變得非常有用,但仍然存在如何實際使用它的問題,如何將它產品化。Sam 只是說:「我們應該做一個聊天機器人,這似乎是一個自然的介面。」在一個星期內,他們內部就有人把對 GPT-3.5 API 的調用變成了一個你可以與之聊天的產品。每次你發送一條聊天消息,它就調用一次 API。結果,這成了一個神奇的產品。

我不認為他們預料到了這一點。伺服器不斷崩潰,他們與 Microsoft 合作,試圖獲得更多的算力,他們實時與 Microsoft 達成協議,以獲得更多的投資、更多的 Azure 點數,或者提前使用他們的 Azure 點數,以應對 2022 年 11 月人們想要使用這個東西的巨大流量。

他們還隨意地設置了一個付費牆,因為他們原以為商業模式會是 API 業務。他們認為營收預測都將來自 B2B 授權協議。然後他們意識到有這麼多消費者想用它,於是就設立了一個付費牆,至少可以抑制一些最昂貴的使用,以抵消成本或減緩推出速度。

結果,僅僅因為他們在一個週末為了應對需求而 hastily 設立的 Stripe 付費牆,他們的營收就實現了驚人的快速增長。所以,說 OpenAI 知道接下來會發生什麼,也是完全錯誤的。他們並不知道這將成為下一個偉大的消費產品。Ben Thompson 喜歡稱 OpenAI 為「意外的消費科技公司」,這絕對是個意外。

還有另一個稍微不同的版本,關於推出聊天介面的動機。Anthropic 正在開發後來成為 Claude 的產品,而 OpenAI 內部有傳言說 Anthropic 和 Dario 正在開發一個聊天介面。他們覺得自己也應該做一個,而且如果要麼做,就應該在 Anthropic 之前推出。所以我認為這也與推出的時機有關。但同樣,我不認為有任何人,包括 OpenAI,意識到接下來會發生什麼。

2022 年 11 月 30 日,OpenAI 發布了一個名為 ChatGPT 的新 GPT-3.5 介面的「研究預覽版」。那天早上,Sam Altman 發推文說:「今天我們推出了 ChatGPT。在這裡與它交談。」並附上了連結。

在不到一週的時間裡,它就獲得了 100 萬用戶。到那年年底,也就是一個月後,它擁有了 3000 萬用戶。到下個月底,也就是推出兩個月後,它突破了 1 億註冊用戶,成為歷史上最快達到這一里程碑的產品。這完全是瘋狂的。

Google 的回應:Bard 與 Gemini

在我們談論這在 Google 內部引發了什麼——也就是著名的「紅色警報」之前,讓我們回顧一下 Noam 和 Google 內部的聊天機器人。

Google 確實有一個聊天機器人。Noam 在 Transformer 論文發表後,立即開始向 Google 領導層倡導,他認為 Transformer 的潛力巨大,甚至應該考慮拋棄搜索索引和十個藍色連結的模式,全力將整個 Google 轉變為一個巨大的 Transformer 模型。

Noam 實際上繼續前進,並建立了一個名為 Meena 的聊天機器人介面,連接到一個大型 Transformer 模型。在 2010 年代末到 2020 年的時間框架內,Noam 在 Google 內部建立的這個聊天機器人,可以說與 ChatGPT 非常接近。當然,它沒有任何後訓練的安全性措施,所以它會失控。有人告訴我們,你甚至可以直接問它誰該死,它會給你列出名字。它不是一個可以發布的產品。

它是一個非常原始、不安全、未經後訓練的聊天機器人模型。但它確實存在於 Google 內部,而他們沒有發布它。

從技術上講,它不僅沒有經過後訓練,也沒有 RLHF(帶有人類反饋的強化學習),這是當今模型的一個非常核心的組成部分。ChatGPT 在 3.0 版本中可能沒有,但在 3.5 版本和發布時肯定有。所以,即使它是在 OpenAI,它也太糟糕了,無法發布。但對於 Google 這樣規模的公司,他們當然不能冒險。所以從戰略上講,他們面臨著這種困境。

但除了戰略問題,這裡還有兩個商業模式的問題。第一,如果你提議放棄十個藍色連結,把 google.com 變成一個巨大的 AI 聊天機器人,當你提供直接答案而不是展示廣告讓用戶點擊時,收入就會下降。這顛覆了整個商業模式。雖然他們現在正在考慮這個問題,但在 2021 年之前,提出這樣的建議是絕對不可能的。

第二,在出版商和用戶之間存在法律風險。Google 當時已經花了數十年時間來應對公眾認為他們在出版商和讀者之間進行去中介化的看法以及法庭裁決。所以,如果你要做這樣的事情,內部文化上要跨越的障礙非常高。即使是那些後來出現的資訊框,也花了很長時間才實現,而且主要是在非商業化的查詢上。

而且,還有一個品牌承諾和信任的問題。消費者非常信任 Google。即使是今天,當我為 Acquired 做研究時,如果我想確保某件事是正確的,我會去 Google 查證。如果你提議用一個聊天機器人取代十個藍色連結,你需要非常確定它的答案是準確的。

而且,當時也沒有一個令人信服的理由去做這件事,因為沒有人真正要求這樣的產品。Noam 知道,Google 內部的人也知道,你可以為一個基於 Transformer 的大型語言模型製作一個聊天介面,而且這是一個非常有吸引力的產品。但普通大眾並不知道。連 OpenAI 自己也沒完全意識到。

存亡之秋:Google 的重組

ChatGPT 的出現,讓 Google 內部立即意識到這是一個關乎存亡的威脅。對於 Sundar、Larry、Sergey 以及所有 Google 人來說,ChatGPT 提供了一個更好的用戶體驗來完成 Google 搜索同樣的工作。

更重要的是,在 2023 年 2 月,我們的好朋友 Microsoft 宣布推出由 OpenAI 驅動的新版 Bing。Satya 說:「這是搜索的新一天,競賽從今天開始。」他表示他們想要重新思考搜索的初衷。這對 Google 來說可能是最糟糕的事情,因為現在 Microsoft 可以在 Google 的主場上,以一個合法地不同、更好、差異化的產品向量來挑戰他們。

這就是 Satya 說出那句關於想讓 Google 跳舞的名言的時刻。

因此,在 2022 年 12 月,Sundar 在公司內部發布了「紅色警報」。這意味著什麼?直到這一刻,Google、Sundar、Larry 和所有人一直將 AI 視為一種「持續性創新」。這對 Google 和我們的產品來說是好事,看看我們正在做的所有這些驚人的事情。它進一步鞏固了 incumbent 的地位,我們可以用可預測的方式部署更多資本,以降低成本或使我們的產品體驗比任何新創公司都好得多。

一旦 ChatGPT 出現,一夜之間,AI 從持續性創新變成了「破壞性創新」。它現在是一個存亡威脅。Google 過去 10 到 15 年的許多優勢,比如所有在公司內部進行的 AI 工作,現在都變成了負債。他們有太多現有的城堡需要保護。

Sundar 向公司發布的這個紅色警報是一個巨大的時刻,因為他說的是:「我們需要盡快開發並發布真正的原生 AI 產品。」這實際上是作為 incumbent 面對破壞性創新時,教科書式的正確反應。你不能把頭埋在沙子裡,你需要說:「好吧,我們需要去開發和發布能與這些破壞性創新者相媲美的產品。」

為了進一步說明這一點,當 Alphabet 成為 Alphabet 時,他們有所有這些獨立的公司,但像 YouTube 這樣對 Google 來說非常核心的業務實際上仍然是 Google 的一部分。DeepMind 則是它自己的公司,這就是它有多麼獨立。他們正在開發自己的模型,而且這些模型是基於強化學習的,這是 DeepMind 一直以來都在研究的大事。

所以,從字裡行間可以讀出,是 Sundar 看了看他的兩個 AI 實驗室,然後說:「我知道你們兩個相處得不是很好,但我不在乎你們以前有不同的章程。我將把 Google Brain 的責任交給 DeepMind,DeepMind 將吸收 Google Brain 團隊。」

因此,Sundar 做出了兩個非常重大的決定。第一,他說我們不能再有兩個 AI 團隊了。我們將把 Brain 和 DeepMind 合併成一個名為 Google DeepMind 的實體。這是一個巨大的決定,完全違反了最初收購 DeepMind 時的協議條款。他實現這一點的方式是,他說:「Demis,你現在是 Google AI 部門的 CEO。」這是全員動員的時刻,你和 DeepMind 將領導這項工作,與 Google Brain 整合,我們需要改變過去十年來關於開發和發布 AI 產品的所有文化。

同樣重要的是,第二個決定,他說:「我希望你們去開發一個新模型,我們只會有一個模型。這將是整個 Google 的模型,無論是內部使用還是所有外部 AI 產品,都將使用這個模型。它將被稱為 Gemini,不再有不同的模型,不再有不同的團隊,所有東西都只用一個模型。」這也是一個巨大的決定,它既是推動也是拉動。它在說:「嘿,如果任何人需要一個 AI 模型,你必須開始使用 Gemini。」同時,它也像 Google+ 那樣,他們去到每個團隊說:「Gemini 是我們的未來,你們需要開始尋找將 Gemini 整合到你們產品中的方法。」

陣痛與前行

情況在好轉之前變得更糟。紅色警報在 2022 年 12 月發出。2023 年 2 月,他們匆忙發布了 Bard。他們採用了 Lambda 模型和聊天介面,將其重新命名為 Bard,並立即向公眾發布。這是一個糟糕的產品。

在 Bard 發布的宣傳影片中,Bard 對其中一個查詢給出了一個不準確的事實性回答。這是一次精心策劃的預錄影片。在 Bard 發布和這次主題演講之後,Google 的股價當天下跌了 8%。而且當實際產品出來後,很明顯它就是不好。很快就清楚了,不僅僅是聊天機器人不好,而是模型本身不行。

因此,在 5 月,他們用 Brain 團隊的一個名為 PaLM 的新模型取代了 Lambda。它好了一點,但仍然明顯落後於不僅僅是 GPT-3.5,還有 2023 年 3 月 OpenAI 推出的 GPT-4。

這就是 Google 正在進行的芭蕾舞:從 2022 年開始,保護搜索業務的增長,同時創造出他們能做出的最好的 AI 體驗。他們非常聰明地為某些查詢(但不是所有查詢)提供 AI 概覽,為某些用戶(但不是所有用戶)提供 AI 模式,然後他們有 Gemini 這個完整的 AI 應用,但他們沒有把 google.com 重定向到 Gemini。這是一場非常微妙的舞蹈,既要保護現有的特許經營權,又要建立一個希望能盡可能不蠶食現有業務的新特許經營權。

同時,他們也在非搜索蠶食領域大力投入,並我認為正在打造領先的產品,比如在影片領域。像 VLOGGER 或 NanoBase 這樣的東西,它們不會以任何方式蠶食現有的特許經營權,反而利用了 Google 的一些優勢,比如所有的 YouTube 訓練資料等等。

模型整合與品牌策略

就能獲得更好的輸出結果。而且,根據規模化法則,模型需要盡可能地大,才能獲得最佳的性能。如果一家公司試圖維護多個模型,就等於在重複承擔維護大型模型的多重巨大成本。這絕對是應該避免的。公司需要集中資源,只專注於一個模型。

這其中還有一些值得解讀的地方。最初,是在 Bard 產品底下使用 Gemini 模型,Bard 仍然是面向消費者的名稱。但在某個時間點,他們決定全部都稱作 Gemini,於是 Gemini 也成了面向用戶的名稱。

這讓我想起我們在 Alphabet 那集節目中的精華觀點。Google 決定將消費者服務直接以 AI 模型的名稱命名,這等於是向自己承認:這個產品純粹就是技術。它上面沒有太多需要額外打造的「產品性」。這就像 Gmail 一樣。Gmail 本身就是技術,代表著快速搜尋、巨大的儲存空間,以及在網頁上使用。它的「產品性」並不像 Instagram 那樣,完全圍繞產品本身。Gemini 模型和 Gemini 聊天機器人似乎在說:「我們只是將我們驚人的突破性技術直接展示給你們,讓你們能直接與之互動。」從人類學的角度遠觀,這感覺就像是那個原則在起作用。

我完全同意。我認為這實際上是一個非常重要的品牌定位點,也是對 Google 和 Google 文化的凝聚點。

Alphabet 的 AI 亮點:Waymo

大約在 2023 年,這些就是 Google 內部在 AI 領域發生的所有事情。在我們跟上現在的進度之前,Alphabet 還有另一個分支,一直是 AI 領域的一大亮點。

我可以談談那個嗎?我可以走這條岔路嗎?

請告訴我們 Waymo 的故事。

Waymo 的起源:DARPA 挑戰賽

太好了。我們需要將時間倒回至 2004 年的 DARPA Grand Challenge。這項挑戰賽的創立是為了刺激軍用自主地面機器人的研究。而對我們今天討論的主題來說,它實際上為 20 年後的整個自動駕駛汽車革命播下了人才的種子。

這場比賽本身非常酷。賽道全長 132 英里,位於 Mojave 沙漠中。這是一條土路,不允許任何人類在車內或與車輛互動。車輛全程由遠端監控,獲勝者可獲得 100 萬美元獎金。

這項政策有所突破,通常這些是補助金,而不是獎金,所以這需要國會法案的授權。後來 100 萬美元的獎金顯得有些微不足道,所以第二年他們將獎金提高到 200 萬美元。想到這些研究人員今日的身價,當時整個比賽的獎金是那樣的金額,真是瘋狂。

第一年,也就是 2004 年,比賽進行得還算順利。在極其緊張的預算下,出現了一些令人驚嘆的技術展示,但最終 100 支註冊隊伍中沒有一支完成比賽。

但第二年,2005 年,才是真正特別的一年。整個產業在最初的 12 個月裡從所學到的經驗中取得的進展是完全瘋狂的。在 23 支決賽隊伍中,有 22 支超越了前一年走得最遠的隊伍的紀錄。整個領域在那一年裡的進步幅度是驚人的。

不僅如此,其中五支隊伍實際上完成了全部 132 英里的賽程。其中兩支來自 Carnegie Mellon,一支來自 Stanford,由一個大家現在都認識的名字領導:Sebastian Thrun。

這是 Sebastian 在加入 Google 之前的起源故事。

Sebastian 非常友善地幫助我們準備了這集節目,但我實際上是從一部 20 年前的 Nova 紀錄片中學到了大部分內容,這部紀錄片可以在 Amazon Prime Video 上觀看,感謝 Brett Taylor 告訴我們在哪裡可以找到這部紀錄片。這是個熱門的研究線索。

技術突破與 Stanford 的勝利

那麼 Stanford 團隊有何特別之處?首先,一個巨大的問題是雜訊數據,這些數據來自所有這些感測器。你要知道,這是在沙漠中的一輛汽車,被顛簸得搖搖晃晃,處於高溫和陽光下。當時普遍的作法,也是 Carnegie Mellon 的作法,是盡可能在硬體上下功夫來減輕這個問題。像是客製化的支架、穩定器和巨大的彈簧來穩定感測器。Carnegie Mellon 基本上是買一輛 Hummer,然後將它拆解,從輪子開始重新打造。我們談論的是焊接和對汽車進行真正的結構改造。

而 Stanford 團隊的做法正好相反。他們將任何新的硬體都視為可能出故障的東西,因此為了降低比賽日的風險,他們使用了各種市售的攝影機和感測器,直接安裝在一輛幾乎未經改裝的 Volkswagen 汽車上。因此,他們的創新完全集中在軟體上,他們認為可以想出聰明的演算法來幫助他們稍後清理混亂的數據。非常 Google 的風格。

他們做的第二件事是早期應用機器學習來結合多個感測器的數據。他們在車頂安裝了雷射硬體,就像其他團隊所做的一樣,這是測量正前方物體的紋理和深度的方法。數據非常精確,但你不能開得太快,因為你不太清楚遠處的情況,因為這是一個固定的視野,非常狹窄。基本上,你無法回答「我能開多快?」或「前面有彎道嗎?」這樣的問題。

因此,在此之上,他們解決問題的方法是,他們也安裝了一台普通的攝影機。那台攝影機可以看到相當寬的視野,就像人眼一樣,並且可以看到地平線。最關鍵的是,它能看到顏色。它的做法是這樣的,這真的非常聰明。他們會即時運行一個機器學習演算法——在 2005 年,這台電腦就放在車子中間。他們會將來自雷射的數據疊加到攝影機的影像上。從雷射中,你可以知道車前的區域是否可以安全行駛。然後演算法會查看來自攝影機的影像幀,疊加後判斷那個安全區域是什麼顏色,然後透過觀察影片幀中更遠處的部分,來推斷安全區域延伸到何處。這樣你就能找出穿越沙漠的安全路徑。

這太棒了。我能想像一台 Dell 個人電腦就坐在這輛 2005 年的車子中間。這離現實不遠。在我們寄出的郵件中,我們會分享一些照片。這樣它就能更有信心地開得更快,並且知道何時會有彎道。再說一次,這是即時處理,在 2005 年的車載攝影機上完成的,那項技術真是瘋狂。

從 Google X 到 Waymo

最終,這兩種策略都奏效了,Stanford 團隊以非常戲劇性的方式獲勝。他們在沙漠中自動超越了 Carnegie Mellon 的一支隊伍,這在紀錄片中是一個非常戲劇性的時刻。

所以你可能會想,那麼 Sebastian 接著就去了 Google 創立 Waymo?不是的。

正如我們之前談到的,他確實加入了 Google,因為那段瘋狂的「請不要從 Benchmark 和 Sequoia 募資,我們直接雇用你」的故事。但他先是從事 Street View 和 Project Ground Truth 的工作,並共同創辦了 Google X。

David,正如你稍早提到的,這個後來成為 Waymo 的 Project Chauffeur,正是 Google X 內部的第一個專案。我想故事是這樣的,Larry Page 找上 Sebastian Thrun 說:「那個自動駕駛汽車的東西,去做吧。」Sebastian 回應說:「不行,那不安全。城市裡到處都是人,我不能就這樣把幾噸重的殺人機器人放到路上,然後可能傷害到人。」

最後 Larry 問他:「為什麼?有什麼技術上的原因讓這件事不可能實現?」Sebastian 回家思考後,第二天早上回來告訴 Larry:「我明白了,我只是害怕而已。」

於是他們開始了。他說:「只要我們採取所有正確的預防措施,並在安全上保持非常高的標準,就沒有技術上的理由。」

Larry 於是說:「太好了,我給你一個基準,這樣你才知道你是否成功。」他提出了 10 條他認為在加州最難駕駛的路段,全長約 1000 英里,團隊稱之為「Larry 1000」挑戰。其中包括開車到 Tahoe、舊金山的 Lombard Street、沿著一號公路到洛杉磯,以及 Bay Bridge。這就是目標。

如果你能自動駕駛這些路段,這就很好地表明你可能什麼都能做。

他們在 2009 年啟動了這個專案。在 18 個月內,這個小團隊——我想他們雇了大概十幾個人——就以自動駕駛模式行駛了數千英里,並成功完成了整個「Larry 1000」挑戰。這真是完全不可思議的速度。

然後,將其產品化並創造出我們今天所知的 Waymo,又花了多長的時間,也同樣令人難以置信。這就像是第一個 99% 和第二個 99%,而後者花了十年。

自動駕駛是那種非常棘手的問題之一,入門令人驚訝地容易,即使它看起來像是一件不可能的事。但接下來到處都是邊際案例:天氣、路況、其他駕駛、新穎的道路佈局、夜間駕駛。所以,一個生產系統要真正實現,需要投入大量的努力。

接下來的問題是要建立什麼樣的業務?這裡的產品是什麼?Sebastian 想要的是高速公路輔助駕駛,這是風險最低、最現實的,基本上就是做一個更好的巡航控制系統。

Eric Schmidt 想要的是,哦,我們直接去收購 Tesla 吧。那將是我們的起點,然後我們就把我們所有的自動駕駛設備裝到所有車上。David,你知道當時收購 Tesla 的成本是多少嗎?

我想在 Elon Musk、Larry Page 和 Google 之間進行談判的時候,正是 Model S 生產規模化困境最深的時候。我想 Google 本可以用 50 億美元買下這家公司。

是 30 億美元。顯然,這件事沒有發生,但那可能是一個多麼瘋狂的平行歷史。

我認為如果那樣發生了,DeepMind 不會以同樣的方式發展,而且 OpenAI 很可能也不會被創立。這當然是無法證明的。這似乎比不可能更有可能。至少,OpenAI 應該不會存在。

然後還有 Larry Page 想要做的,選項三:打造自動駕駛計程車(Robo-Taxis)。最終,至少目前看來,他們選擇了這個方向。

我們可以花一整集的時間來談論這段旅程,但為了節省時間,我們只會提到幾個要點。這裡要記住的重要一點是,無論是 Google 還是公眾,都不知道自動駕駛是在未來兩年內就能實現,還是需要再花十年。舉例來說,在 Project Chauffeur 的前五年,它根本沒有使用深度學習。他們在沒有任何深度學習的情況下完成了「Larry 1000」挑戰,然後又過了三年半。

這太瘋狂了。這完全說明了你永遠不知道終點目標有多遠。

這是一個只有透過一系列突破才能取得進展的領域,而你不知道下一個突破有多遠。因為在任何時候,領域中都有很多有前景的東西,但大多數都行不通。然後,當有突破時,它實際上能比現有方法帶來多大的提升。所以任何時候人們預測 AI 在 X 年內能做到 YZ,這完全是白費力氣。即使是專家也不知道。

Waymo 的商業化之路

時間點

里程碑/事件

金額/細節

2020年3月

外部融資

籌集 32 億美元,投資方包括 Silver Lake、CPP Investments 等

2020年10月

商業化

在 Phoenix 推出首個完全無人駕駛的商業服務

Series B

B 輪融資

籌集 25 億美元

Series C

C 輪融資

籌集 56 億美元

2024年1月

市場表現

據報導,在舊金山的總預訂額超過 Lyft

至今

營運規模

在 5 個城市營運,擁有數千輛車,每週完成數十萬次付費行程

現在,他們也將服務擴展到舊金山,對我和許多舊金山人來說,這已經成為城市生活的重要組成部分。這太神奇了。

是的,每次我下去都喜歡搭乘。他們很快就要在西雅圖推出,我非常興奮。有趣的是,他們不製造硬體,他們使用 Jaguar 的車輛。據我所知,這款車只有在 Waymo 看到,我不知道其他人是否也開這款 Jaguar,或者你是否能買到。但他們正在開發下一代的廂型車。

對於任何還沒搭過的人來說,它就像一個沒有司機的 Uber。這個服務在 2024 年 6 月推出。

他們在舊金山推出後,據報導,今年一月份的總預訂額已經超過了 Lyft。我完全相信。這已經是舊金山叫車服務的第一選擇。先試著叫 Waymo,如果沒有可用的,再考慮其他選項。我們生活在未來,卻如此快地忘記珍惜它。

Waymo 的獨特體驗與安全性

這不僅僅是一個沒有司機在駕駛座上的酷炫體驗。它實際上是一種不同的體驗。如果我需要帶我年幼的女兒去某個地方,我不介意叫一輛 Waymo,把兒童座椅裝進去,然後和我女兒一起坐車,她非常喜歡,我們稱之為「機器人車」。但我絕不會對 Uber 做同樣的事。帶我的狗也是一樣。用 Waymo 就不是什麼大問題。而且當你在城裡時,我們可以在車裡進行敏感的對話。這真的是一種不同的體驗。

安全問題是非常真實的。如果你看數據,每年有超過一百萬起車禍導致死亡。僅在美國,每年就有超過四萬人因此喪生,相當於每天 120 人。

Waymo 上個月發布的研究顯示,他們的車輛與普通人類駕駛相比,導致嚴重傷害或更糟情況的事故減少了 91%,即使在控制了 Waymo 目前只在城市地面街道行駛的因素後也是如此。這是一個巨大的安全進步。我們為什麼不每天都在討論這個呢?這將徹底改變世界,並解決一個巨大的死因。

Waymo 的商業潛力分析

這項業務的潛在市場機會有多大?一種估算方式是加總目前所有汽車製造商的市值,大約是 2.5 兆美元。另一種方式是看所有共享乘車公司的市值,大約是 3000 億美元,其中大部分是 Uber。

Waymo 的雄心遠不止於此,他們希望進入你擁有的汽車,也希望進入長途貨運領域。他們相信可以擴大交通運輸的市場份額,因為盲人也可以擁有一輛車,老年人也可以獨自到達他們想去的地方。

但最有趣的角度是從減少交通事故所創造的價值來看。美國疾病管制與預防中心(CDC)的一份報告指出,2022 年美國因車禍死亡造成的總成本高達 4700 億美元,包括醫療費用和生命損失的成本估算。

如果像 Waymo 的數據所顯示的那樣,能將事故率降低 10 倍,那麼僅在美國,每年就能省下超過 4200 億美元的社會成本。雖然這不是完全的同類比較,但這筆節省的成本比 Google 目前整個業務的年收入還要多。你可以看到,只要 Waymo 能夠找到降低成本的方法,讓其作為一個大規模且盈利的業務運營,它有潛力成為一個與 Google 規模相當的機會。

到目前為止的投資其實並不算太大。他們大約燒掉了 100 到 150 億美元。這只是 Uber 一年的利潤。這看起來是一個非常好的賭注。我曾經認為這是一個異想天開的追逐,但現在看來,這非常、非常明智。另外,那 100 到 150 億美元的成本,是 Google 上個月的利潤。

重返 Gemini:Google AI 的現況

Sundar Pichai 在 2023 年中發布了兩項命令:第一,將 Brain 和 DeepMind 合併為一個團隊;第二,公司將標準化於一個模型,也就是未來的 Gemini。Sergey Brin 據說也作為一名員工回來參與 Gemini 的開發。

於是,Jeff Dean 和來自 Brain 的 Oriol Vinyals 加入了 DeepMind 團隊,開始開發 Gemini。當他們透過與 character.ai 的交易讓 Noam Shazeer 回來後,Noam 也加入了 Gemini 團隊,與 Jeff 共同擔任技術領導。

他們在 2023 年 5 月的 Google I/O 大會上非常迅速地宣布了這件事。他們宣布了 Gemini,宣布了計劃,同時也推出了搜尋中的 AI Overviews。這真是 Google 立即決定以 AI 速度運作的體現。要知道,ChatGPT 是在 2022 年 11 月 30 日推出的,而現在是 2023 年 5 月,所有這些決策都已做出,所有這些變革都已發生,他們在 I/O 大會上宣布了這些事情。

而且他們真的在展示他們所擁有的基礎設施。他們能夠在每一次查詢中運行推論,這說明了 Google 的處理能力。

這個新的 Gemini 模型的一個關鍵部分是它將是多模態的。一個模型處理所有事情:文本、圖像、影片、音訊。他們在 2023 年 12 月向早期公眾開放,僅僅六個月的時間,他們就把它打造出來、訓練好並發布了。

2024 年 2 月,他們推出了具有一百萬 token 上下文視窗的 Gemini 1.5,這個視窗比市場上任何其他模型都要大得多,這也開啟了各種新的應用場景。2025 年 3 月,他們推出了 Gemini 2.5 Pro。

接著,他們推出了 AI 模式,你現在可以在 google.com 上切換到聊天機器人模式。他們甚至在進行分割測試,自動將一些人選擇加入 AI 模式,以觀察反應。這就是金雞母。

現在,Gemini 每月有 4.5 億活躍用戶。即使最近在 App Store 中排名第一,這個數字仍然讓人難以置信。我只是好奇他們是如何計算 Gemini App 的使用案例的。無論如何,從零開始,在這麼短的時間內取得這樣的成績,令人印象深刻。特別是考慮到公司營收創下歷史新高。他們似乎到目前為止,至少在這個混亂的早期階段,能夠在保持核心業務增長的同時,作為一個 AI 前沿的競爭者表現出色。

Google Cloud 的策略轉變

我們故意沒有在 Alphabet 的那一集裡包含雲端業務,因為它雖然是在同一時期開始的,但對 AI 來說具有極高的戰略意義。

Google Cloud 最初是 Google App Engine,一個平台即服務(PaaS)。這與 AWS 的基礎設施即服務(IaaS)模式截然不同,後者最終被證明是正確的。

對 Google 的批評是,他們從未真正搞清楚如何與企業打交道。他們的產品很棒,但都是為自助服務設計的,而雲端業務是一場肉搏戰,關乎企業關係和解決方案。

2018 年,他們推出了 Kubernetes,這是一個非常聰明的戰略決策。其核心洞察是,如果我們讓開發者更容易地將應用程式遷移到其他雲端,世界將會傾向於多雲。作為第三名的玩家,我們沒有什麼可失去的。

2018 年底,前 Oracle 總裁 Thomas Kurian 被聘用,一切都改變了。到 2020 年,該業務營收突破 130 億美元,三年內增長了近三倍。他們為市場推廣組織雇用了上萬人。

如今,其年化營收已超過 500 億美元,年增長率達 30%,是主要雲端提供商中增長最快的。這主要歸功於三件事:真正理解如何服務企業、引領多雲戰略,以及 AI 帶來的巨大順風。AI 工作負載都需要在雲端運行,而 Google Cloud 的獨特優勢在於,用戶可以使用他們大量生產的 TPU,而其他人則在苦苦哀求 Nvidia 分配 GPU。

這就是我們為這一集保留雲端業務的原因。Google Cloud 的兩個方面,我認為他們在創業時並未預見到,但對今日的 Google 來說具有極其重要的戰略意義。首先,雲端是 AI 的分發機制。如果你想在 AI 領域有所作為,你需要一個偉大的應用程式、一個偉大的模型、一個偉大的晶片,或一個偉大的雲端。Google 正在努力擁有這四者。

其次是晶片方面。如果 Google 沒有雲端,它就不會有晶片業務。外部開發者使用 TPU 的唯一途徑是透過 Google Cloud,因為 Amazon 或 Microsoft 絕不會將 Google 的 TPU 放入他們的雲端。

有傳言說,一些新興雲端服務商在未來幾個月內將提供 TPU。這很有趣,為什麼 Google 會這麼做?我認為這更多是為了圍繞他們的晶片建立一個生態系統,就像 CUDA 所做的那樣。而要可信地做到這一點,你的晶片必須在任何運行現有工作負載的地方都可用。

當你思考 Google 正在做的事情的經濟學時,你會發現它對於你付給晶片供應商多少利潤這件事,其實是非常敏感的,因為這是整個項目中最大的成本驅動因素。

為了準備這集節目,我與 Atreides Management 的合夥人 Gavin Baker 一起進行了事實查核。他是一位傑出的公開募股投資者,長期研究這個領域。我們其實在 NVIDIA GTC 的展前活動中採訪過他。

他指出,在過去的科技時代,成為低成本生產者並不是那麼重要。Google 並不是因為他們是成本最低的搜尋引擎而獲勝。Apple 也不是因為他們是成本最低的公司而獲勝。這並不是讓人們獲勝的原因。

但這個時代可能真的不同。因為這些 AI 公司的利潤率不像我們在科技業,或至少在軟體業所習慣的 80%。充其量,這些 AI 公司的毛利率看起來像 50%。

因此,Google 成為代幣的最低成本供應商,因為他們營運著自己所有的基礎設施,也因為他們能以低加價的方式取得硬體,這實際上造成了巨大的差異,並且可能意味著他們將成為為世界生產代幣的贏家。

Google 的投資論點

這是一個非常有說服力的看漲理由。這是一個曲折的分析性看漲理由,但如果你真的想深入探討,核心就是他們生產代幣。

我還有一個看漲的論點要補充。我們在 Alphabet 那集節目中討論過的所有東西,所有 Google 內部的其他產品,Gmail、Maps、Docs、Chrome、Android,這些全都是 Google 擁有的關於你的個人化數據,他們可以用這些數據來為你創造個人化的 AI 產品。這是其他人沒有的。

另一個很棒的觀點。

所以,真正要結束看漲論點的問題是:與搜尋相比,AI 是一個值得投入的好生意嗎?搜尋是一個非常棒的生意。到目前為止,AI 還不是。但在抽象層面上,它應該是。

對於傳統的網頁搜尋,你輸入兩到三個詞,這是平均的查詢長度。我曾與 Bill Gross 談過,他指出,在 AI 聊天中,你常常會輸入超過 20 個詞。所以應該會出現一種廣告模式,而且廣告費率實際上應該會大幅提高,因為你有完美的精準度。你有更多的意圖。

是的,你非常清楚那個使用者想要什麼。所以你可以真正決定是否用廣告來鎖定他們。而 AI 應該非常擅長利用廣告進行鎖定。所以這完全取決於使用者介面、付費與免費的組合,以及這個廣告模式究竟是什麼。但理論上,即使我們現在還不太清楚產品的樣貌,它也應該非常適合貨幣化。

而且,由於 AI 是一種如此驚人且具變革性的體驗,所有這些過去在現實世界中發生或根本沒發生的互動,像是問題的答案和時間的利用,現在都在這些 AI 聊天中發生。所以,數位互動的市場似乎比搜尋時代更大。因此,貨幣化也應該會因為市場的擴大而增加。

然後還有看漲的理由,像是 Waymo 可能會成為一個 Google 規模的業務。

這將所有範疇都歸結為搜尋市場的替代品。Waymo 以及 AI 在傳統搜尋市場之外的其他應用,都可能為此增添價值。

然後還有更高層次的看漲理由,就是如果 Google 真的創造出通用人工智慧(AGI),那麼這一切都無關緊要了。當然,那將是最有價值的事情。

Google 的風險分析

到目前為止,這一切談起來都很有趣,但 AI 產品的形態還沒有很好地與廣告結合。所以,儘管創造了更多的價值,但價值捕獲卻少得多。

根據一些粗略的計算,Google 在美國每年從每位使用者身上賺取大約 400 美元。這是一項每個人都在使用的免費服務,他們每年能賺取大約 400 美元。

誰會願意每年支付 400 美元來使用 AI?這只是人口中非常小的一部分。有些人當然願意,但不是美國的每一個人。有些人甚至願意支付 1000 萬美元,但情況就是如此。

所以,如果你只看眼前的局勢,我看不到立即實現價值捕獲的途徑。想想看,當 Google 在 1998 年推出時,僅僅兩年後他們就有了 AdWords。他們立即找到了一個驚人的價值捕獲機制。

另一個看跌的理由是,回想 1998 年 Google 推出時,它立刻就明顯是更優越的產品。今天的情況絕非如此。

現在有四、五種很棒的產品。Google 的專用 AI 產品和聊天機器人最初是明顯較差的產品。而現在,它可以說與其他幾家不相上下。

他們佔有 90% 的搜尋市場。我不知道他們在 AI 市場佔有多少,但肯定不是 90%。是 25% 嗎?我不知道,但在穩定狀態下,可能也只會是 25% 左右,最多可能到 50%。但這將是一個有多個主要參與者的市場。所以,即使他們能像在搜尋領域一樣出色地從每個用戶身上獲利,他們所擁有的用戶數量也會少得多。

或者至少現在看來是這樣。

AI 可能會取代搜尋的大部分使用情境,即使沒有,我敢打賭它也會取代許多最高價值的查詢。

如果我正在計畫一趟旅行,我會在 AI 中進行規劃。我不再在 Google 上搜尋那些會讓 Expedia 廣告出現在我眼前的東西了。或者健康,這是另一個巨大的垂直領域。

嘿,我想我可能得了間皮瘤。是這樣嗎?你打算在哪裡放律師的廣告?也許你會放在那裡,也許這只是一個廣告產品的問題,但這些都是非常有價值的查詢。過去的搜尋,感覺上是第一批被轉移到 AI 的東西。

還有其他的看跌理由嗎?我認為唯一要補充的看跌理由是,他們現在面臨著身為市場領導者的額外挑戰。人們和整個生態系統不一定會為他們加油,不像當年 Google 還是新創公司時那樣。甚至在行動轉型時期,人們仍然在為 Google 加油。

我認為現在的初創公司更能贏得人心。所以我不認為這可以量化,但這只會讓這次的路途更加艱難。

你說得對,他們第一次創業時,有著令人難以置信的公關和公眾喜愛的順風。

這部分也是系統性的,整個科技業和所有大型科技公司現在普遍比十年或十五年前更不受國家和世界的歡迎。它們更重要了,它們是巨大的基礎設施,不再是弱者。

這也影響了像 OpenAI、Anthropic 和其他新創公司,但我認為程度較輕。他們在很早期就必須開始像大型科技公司一樣行事,相較於 Google。Google 在其 IPO 的緘默期還接受了《花花公子》的採訪。時代已經變了。

嗯,考慮到 OpenAI 的所有戲劇性事件,我不會說他們表現得像一家成熟的公司。

七大權力分析

好的,讓我們來做權力分析。Hamilton Helmer 的七大權力分析,應用在 AI 時代的 Google。這七大權力是:規模經濟、網絡效應、反向定位、轉換成本、品牌、獨佔資源和流程能力。

問題是,這些因素中哪些能讓一家企業實現持續的差異化回報?什麼賦予了他們持續比最接近的競爭對手賺取更多利潤的權利?

通常我們會對整個業務進行分析,但我認為對於這一集,我們應該將範圍縮小到 AI 產品。也就是 Gemini AI 模式和 AI 總覽的使用,相對於 Anthropic、OpenAI、Perplexity、Grok、Meta AI 等競爭對手。

權力

分析

規模經濟

絕對有。在 AI 領域甚至比傳統網路科技更為顯著。他們正在將模型訓練的成本分攤到每一次 Google 搜尋中。雖然實際運作的可能是經過高度精簡的模型,但相較於其他模型公司,Gemini 產生的推論 token 數量極為龐大,這讓他們能將固定的訓練成本分攤到巨大的價值創造上。

網絡效應

我不認為有。其他人是否使用 Gemini 對我來說並沒有讓它變得更好,因為他們無論如何都會抓取整個網路的資料。

轉換成本

我覺得轉換成本相對較低。我用 Gemini 做一些事,然後很容易就可以換掉。當它變成個人化 AI,整合你的日曆和郵件時,情況可能會改變,但目前還沒到那一步。

品牌

他們確實有品牌。這有點有趣,品牌是一把雙面刃。但我想這整體上是正面效益。大多數人信任 Google,可能不太信任那些不知名的 AI 公司。只要他們願意持續在尖端領域推出產品,這種信任感可能比任何負面影響都更強烈。

獨佔資源

Google 搜尋作為一個分銷管道是他們現在擁有而別人沒有的。儘管 ChatGPT 有著像 Kleenex 一樣的品牌知名度,Google 的分銷能力仍然令人難以置信。

反向定位

他們肯定沒有反向定位,反而是被別人反向定位。

流程能力

我不認為他們有流程能力,除非他們能持續可靠地提出下一個 Transformer 架構,但我們還沒看到這種情況。

總結來說,主要是規模經濟,其次是品牌和獨佔資源。未來可能有轉換成本的潛力。但值得注意的是,並非所有權力都具備。在搜尋時代,他們很明顯地擁有多數甚至全部的權力。

核心觀點

經過幾個月對這家公司的深入研究,我的核心觀點是,這是有史以來最引人入勝的「創新者的兩難」案例。Larry 和 Sergey 控制著公司,他們曾多次公開表示,寧願破產也不願在 AI 上失敗。

他們真的會這麼做嗎?

如果 AI 不像搜尋那樣是個好生意,而他們必須在兩個結果之間做出選擇:一個是實現他們的使命——組織全世界的資訊,使其普遍可用且有用;另一個是擁有世界上最賺錢的科技公司。哪一個會勝出?

因為如果只是為了使命,他們在 AI 模式上的態度應該比現在更積極,應該全面轉向 Gemini。這是一個非常難以權衡的抉擇。我對他們目前能夠保護核心業務的方式印象深刻,但這可能是一種基礎被侵蝕的情況,只是還沒有在財務報表上顯現出來。

我完全同意。事實上,可能受你影響,我認為我的核心觀點也是這個版本。我認為如果你看看所有的大型科技公司,Google,儘管聽起來不太可能,但考慮到事情的開端,他們可能是在 AI 領域中做得最好的一家,試圖在各種困難中找到平衡。

他們正在做出艱難的決定,比如合併 DeepMind 和 Brain,整合並標準化一個模型,並且快速推出產品,同時又沒有做出魯莽的決定。快速但不魯莽。這很難。

顯然,我們還處於早期階段,十年後我們才會知道結果如何。

同時肩負著使命的管理者和上市公司的管理者,這是一個艱難的雙重任務,而 Sundar 和他的團隊處理得非常出色,尤其是考慮到他們五年前的處境。

💡 對我們的 AI 研究助手感興趣嗎?

使用 AI 技術革新您的研究流程、提升分析效率並發掘更深層次的洞見。

了解更多