Mark Zuckerberg & Priscilla Chan:AI 將如何治癒所有疾病

Podcast連結


Roger’s Takeaway

雖然知道 Zuckerberg一直是投入AI基礎建設的大玩家,例如幾年前紅極一時的PyTorch深度學習,沒想到他還在2015年成立了Chan Zuckerberg Initiative,專注於建立生物的數據庫,漿細胞資料標準化。

雖然我不是本科專業,在我看來,這和李飛飛標準化圖片數據,打造imagenet有類似的感覺。

Zuckerberg很厲害,他看到「在科學史中,大多數重大突破都是在新工具發明之後才出現的,這些新工具使我們能以新的方式觀察現象。」

我自己看到的也是類似,當有一個突破性的思想,會創造一個新的觀察工具或方式,人們在用這些工具去發現更新的思想。

AI也是如此,先有數據標準化,才有AI訓練的可能,也才會導致AI方法論的突破。

摘要

Mark Zuckerberg 和 Priscilla Chan 討論他們的 Chan Zuckerberg Initiative (CZI) 如何利用 AI 和基礎科學工具,致力於在本世紀末治癒、預防及管理所有疾病。他們的核心策略是透過 Biohub 建立如「虛擬細胞」等開創性工具,整合頂尖 AI 與生物學研究,以加速科學發現,並為精準醫療開創新的可能性。

Highlight

1.

那你為什麼會認為可以治癒所有疾病?這是一個非常有野心的目標。

嗯,要澄清一點,我們並不是要親自治癒所有疾病。我們的策略是幫助科學家和科學界治癒所有疾病。

我們的策略是加速基礎科學的發展步伐。我們的理論是,回顧科學史,大多數重大突破都是在新工具發明之後才出現的,這些新工具使我們能以新的方式觀察現象

想想看顯微鏡,它讓我們能夠觀察細菌;或者在其他領域,像是望遠鏡。舉個工程學的例子,沒有這些工具,就像是寫程式卻無法逐步執行和偵錯一樣。所以我們的整體方法基本上是:讓我們協助打造能加速整個領域發展的工具。我認為這是一個很適合我們的定位,因為如果你看看科學領域的資金運作方式,絕大部分資金來自政府和 NIH 的補助。這些資金被分成相對較小的部分,讓個別研究人員通常只能研究相當近期的項目。

而開發這些新型工具,無論是成像技術,還是現在許多 AI 項目,如虛擬細胞模型,都需要更長期的投入,開發成本也更高。

想想看,大約在 10 到 15 年的時間裡,投入約 1 億到 10 億美元的規模,然後你試圖解鎖這些工具,並將它們提供給科學界以加速發展。這就是我們的理論。而且似乎在工具開發這方面,你很難獲得應有的肯定

2.

事實上,當我們創立 CZI 時,我們關注了好幾個領域,但我們發現科學研究的回報是最大的。

所以我們不斷地加倍投入,直到現在,十年過去了,Biohub 真正成為我們慈善事業的主要焦點。但基本上,這就是我們的重點。

當我們看待 10 到 15 年時間跨度的重大挑戰時,它必須是你看著它時會覺得「我看得到一條路徑」。並不是所有問題都需要解決了我們才去承擔,事實上,如果所有問題都解決了,那感覺就應該直接去做,不夠有挑戰性。我們有一定的風險偏好,所以我們想要那些我們覺得有可信路徑、有能幹的領導者,並且有足夠的模糊空間,讓我們覺得可以承擔風險,如果成功了,回報可能比預期的還要高。我們在 Biohubs 中就是這樣建模的。

我們有三個 Biohubs。一個在舊金山,一個在芝加哥,一個在紐約。紐約的 Biohub 專注於細胞工程,研究我們是否可以設計細胞進入體內偵測信號、讀取資訊或採取特定行動。在芝加哥,我們正在建立組織並研究組織內的細胞通訊。在舊金山,我們專注於深度成像和轉錄體學。

這些地點的選擇並非偶然。我們也考慮了合作的大學,因為我們有來自這些學術機構的人來到 Biohubs 進行合作、跨學科且不受傳統實驗室限制的工作。但我們也建立在這些支持工作的學術機構的實驗室基礎之上。

這就是我們選擇重大挑戰和地點的方式。然後,大型語言模型和 AI 的加入變得非常有趣,因為我們已經在建立工具來測量有趣的數據、建立數據集,但我們還不太清楚該如何處理它們。

當大型語言模型出現時,我們覺得:「哇,我們現在可以理解所有這些數據了。」

3.

我們現在是 2025 年,但生物學領域還沒有像化學元素週期表那樣的基礎架構。所以這就是它最初的靈感來源,好吧,我們如何透過 Biohub 的工作和其他補助金,將所有這些數據匯集起來並標準化格式。當我們剛開始時,我們甚至不一定想到要用它來建立虛擬細胞模型。

我認為隨著 AI 工作的進展,這一點才逐漸清晰起來,但這是一件非常令人興奮的事情。我們絕對應該花些時間討論虛擬細胞模型,但我不確定你想談細胞圖譜的哪個部分。

單細胞研究是我們十年前最早的徵求計畫書之一,當時我們覺得,好的,我們認為這是可能的。我們實際上資助了它的方法學,以標準化其執行方式。那是十年前的事了。然後我們資助了幾個實驗室開始建立該數據集。但我們當時想,有數百萬甚至數十億種不同的細胞類型和不同的排列組合,我們要怎麼做?尤其是在一項新興技術的背景下。

所以我們最終資助了幾個團隊,他們開始工作,然後他們告訴我們他們遇到了一個問題。他們的工作流程中出現了瓶頸,因為他們無法足夠快地註釋數據。所以我們建立了 cell by gene 作為一個註釋工具。這就是它的最初來源。我們建立這個註釋工具,是為了讓從事單細胞科學的人能夠輕鬆地註釋數據。

然後我們將收集到的數據公開,以便人們分享。但因為每個人都開始使用相同的註釋工具,所以大家都在相同的數據格式上進行了標準化,然後圍繞這個工具開始形成一個社群,他們想要回饋並建立圖譜。

所以現在,十年後,已有數百萬個細胞被納入這個為整個科學界共享的資源中。我們只資助了其中的約 25%。75% 來自更廣泛的社群,他們認為這很有用,而且有一種簡單的方法可以讓我們標準化並建立相同的元數據。

這就像一種有趣的網路效應。

4.

這也是一個很有趣的問題,因為其中一個新模型,我認為還處於非常早期的階段,但它基本上是第一個關於生物學的推理模型。

這個想法是,你有一些模型,它們以不同的方式模擬世界模型,然後你希望它不僅僅是能夠吐出它發現的相關性,而是能夠真正地推理事物會如何演變以及為什麼會發生。

我認為這個還很早期,但從概念上來說,這是一個很有趣的方向,我認為這顯然是這些模型演變的一個重要方向。

當然。我的意思是,對於這個問題的語言模型類比是,你需要更好的世界模型或更好的預訓練模型,才能讓推理變得更好。但你只是在其中建立更多的能力。我認為可能也有一個順序。Alex 和 Evolutionary Scale 的團隊所做的工作很多是關於蛋白質的,這很有趣,因為它的解析度顯然比細胞圖譜的細胞數據要小。但部分的假設是,你可以觀察所有這些不同的細胞,並且可以模擬它們可能的行為,但除非你真正對細胞的次級組件如何相互作用有這種層級的理解,否則你的理解會比較膚淺。

5.

使用者介面其實非常重要。你提到你們有一位創辦人正在使用 Cell by Gene。那個使用者介面是特意設計成不需要有計算背景或非常深厚的生物學背景就能使用的,因為你希望來自不同領域的人都能來看待這個問題。就像是:「看這裡,幫助我們解決這裡的問題。」所以,以一種進入門檻不高的方式建立那個使用者介面,讓人們能夠四處探索、學習新知,並將知識帶回他們的工作中,這是刻意的。

逐字稿

Mark Zuckerberg & Priscilla Chan:AI 將如何治癒所有疾病

AI 在這個領域將會產生巨大的影響力。但在建立工具方面,似乎仍有許多努力空間。令人難以置信的是,到了 2025 年,生物學領域還沒有像化學元素週期表那樣的基礎架構。我們認為這可能是需要建立的最重要的工具之一。當我們最初設定在本世紀末治癒和預防疾病的目標時,老實說,大多數科學家都無法正眼看待我們。這很瘋狂。但這也是事實,因為如果你只是決定花錢資助全國每個實驗室下一個最好的研究計畫,那根本不可能實現這個目標。我認為,生物學家們覺得這目標瘋狂得不切實際。而 AI 專家們則覺得,這有點無聊,反正遲早會自動發生。我知道,這兩者之間需要一座橋樑來連結。Mark、Priscilla,歡迎來到 Asz podcast。

謝謝你們的邀請。是的,很高興來到這裡。

很高興邀請到你們。你們正在做一些令人興奮的事情。為此,近十年前,你們創立了 Chan Zuckerberg Initiative,其使命和目標是在本世紀末治癒、預防和管理所有疾病。你們本可以將時間和資源投入到許多其他任務中。為什麼你們選擇了這個?讓我們來談談背後的決策過程。Priscilla,或許我們可以從你這邊開始,聽聽你的故事。

當我談論我們在基礎科學研究方面的工作時,人們總是感到驚訝。我接受過兒科醫生的訓練,人們總以為這一定和醫學有關。對我來說,我進入醫學領域是因為我想改善人們的生活,我想帶來改變,我想幫助他人。

在 UCSF 擔任兒科醫生期間,我遇到了很多病人,坦白說,是一些小孩和家庭,我們完全不知道問題出在哪裡。如果幸運的話,他們或許能說出一個特定的基因名稱,或者他們可能被歸入某類疾病,然後會有一份通用的 PDF 文件印出來,上面寫著「這就是我們所知道的」。

然後,作為實習醫生或住院醫生,我的工作就是試圖將那幾行資訊轉化為我們應該如何照顧病人的方法。就在那時,我才真正意識到基礎科學的力量,以及我們需要致力於基礎科學來推進可能性的前沿。沒有它,我認為希望的管道就會中斷。

那你為什麼會認為可以治癒所有疾病?這是一個非常有野心的目標。

嗯,要澄清一點,我們並不是要親自治癒所有疾病。我們的策略是幫助科學家和科學界治癒所有疾病。

我們的策略是加速基礎科學的發展步伐。我們的理論是,回顧科學史,大多數重大突破都是在新工具發明之後才出現的,這些新工具使我們能以新的方式觀察現象。

想想看顯微鏡,它讓我們能夠觀察細菌;或者在其他領域,像是望遠鏡。舉個工程學的例子,沒有這些工具,就像是寫程式卻無法逐步執行和偵錯一樣。所以我們的整體方法基本上是:讓我們協助打造能加速整個領域發展的工具。我認為這是一個很適合我們的定位,因為如果你看看科學領域的資金運作方式,絕大部分資金來自政府和 NIH 的補助。這些資金被分成相對較小的部分,讓個別研究人員通常只能研究相當近期的項目。

而開發這些新型工具,無論是成像技術,還是現在許多 AI 項目,如虛擬細胞模型,都需要更長期的投入,開發成本也更高。

想想看,大約在 10 到 15 年的時間裡,投入約 1 億到 10 億美元的規模,然後你試圖解鎖這些工具,並將它們提供給科學界以加速發展。這就是我們的理論。而且似乎在工具開發這方面,你很難獲得應有的肯定。

我們注意到有公司在使用你們的工具,並且非常滿意。但我甚至不知道那是你們做的。

這就是為什麼這是慈善事業。

是這樣沒錯,但大多數人做慈善也是為了獲得肯定。這也是其中一部分。所以,你們是怎麼想的?或者你們只是覺得,不,這會成功,只要成功了,就夠了?

我們非常專注於實際讓每一位科學家變得更好,不僅是科學家,還有新創公司的創辦人,因為重點是我們無法獨自完成這件事。當我們最初設定在本世紀末治癒和預防疾病的目標時,老實說,大多數科學家都無法正眼看待我們。

這很瘋狂。是的。

而且這是事實,因為如果你只是決定花錢資助全國每個實驗室下一個最好的研究計畫,那根本不可能實現這個目標。但如果你迫使人們真正思考這個問題,思考什麼是實現這個目標最可信的途徑,以及這條路上有哪些障礙,那麼我們就有所進展了。他們會說,我們沒有共享的工具,或者我們沒有進行大型專案,也沒有建立正確的數據集。

然後我們會說,好吧,那我們可以開始做些什麼。這就是建立共享工具的想法的來源,因為目前在科學領域,沒有人。

這很有趣。所以你們說:「我們要治癒所有疾病。」他們說:「不可能。」「為什麼不可能?」「因為我們沒有工具。」

這是一個很酷的過程。

是的,還有一個有趣的情況是,生物學家們認為這個目標過於雄心勃勃。而 AI 專家們則覺得這有點無聊,反正遲早會自動發生。我知道,這兩者之間需要一座橋樑來連結。

如果你能利用現代 AI 工具來打造生物學家需要的工具,這就是我們思考工作的一個重要部分。AI 可能是史上最被高估也最被低估的技術,同時發生,這很奇怪。

是的,可能就像早期的網際網路一樣。但我們將自己和在 Biohub 所做的工作視為前沿生物學與前沿 AI 的結合。有些實驗室專注於前沿 AI,基本上是建立最先進的模型。然後有很多生物研究機構進行非常前沿的研究,以發現新的數據集或應對某些挑戰。但到目前為止,還沒有人嘗試將這兩者同時進行。

看看像 AlphaFold 這樣的成果,它非常了不起,但它是建立在一個幾十年前就已經產生的公開數據集之上。我認為,如果你將兩者結合,就有機會為特定目的產生特定的數據集,用來訓練 AI 模型,以建立能夠執行特定功能的虛擬細胞。所以我認為這是一個非常有趣的領域,在我們所有參與的項目中,

事實上,當我們創立 CZI 時,我們關注了好幾個領域,但我們發現科學研究的回報是最大的。

所以我們不斷地加倍投入,直到現在,十年過去了,Biohub 真正成為我們慈善事業的主要焦點。但基本上,這就是我們的重點。

也許你們對自己的評價不夠高,因為你們說:「有小規模的科學,我們不想做那個。有世紀規模的科學,那似乎時間跨度很長,但可以實現,很有野心。」但你們實際上已經確定了介於兩者之間的重大科學挑戰,這非常棒。它們的時間跨度是 10 到 15 年,至少從你們的溝通方式和激勵科學界的方式來看是這樣。

10 到 15 年是一個有趣的時間跨度,類似於一家風險投資支持的公司的時間跨度,也類似於一個團隊可以合作那麼長的時間。你們是怎麼得出這個數字的?然後你們如何思考在每個 10 到 15 年的浪潮中要應對的挑戰?因為這是具體的、可實現的,你們圍繞它建立了很大的信譽。

當我們看待 10 到 15 年時間跨度的重大挑戰時,它必須是你看著它時會覺得「我看得到一條路徑」。並不是所有問題都需要解決了我們才去承擔,事實上,如果所有問題都解決了,那感覺就應該直接去做,不夠有挑戰性。我們有一定的風險偏好,所以我們想要那些我們覺得有可信路徑、有能幹的領導者,並且有足夠的模糊空間,讓我們覺得可以承擔風險,如果成功了,回報可能比預期的還要高。我們在 Biohubs 中就是這樣建模的。

我們有三個 Biohubs。一個在舊金山,一個在芝加哥,一個在紐約。紐約的 Biohub 專注於細胞工程,研究我們是否可以設計細胞進入體內偵測信號、讀取資訊或採取特定行動。在芝加哥,我們正在建立組織並研究組織內的細胞通訊。在舊金山,我們專注於深度成像和轉錄體學。

這些地點的選擇並非偶然。我們也考慮了合作的大學,因為我們有來自這些學術機構的人來到 Biohubs 進行合作、跨學科且不受傳統實驗室限制的工作。但我們也建立在這些支持工作的學術機構的實驗室基礎之上。

這就是我們選擇重大挑戰和地點的方式。然後,大型語言模型和 AI 的加入變得非常有趣,因為我們已經在建立工具來測量有趣的數據、建立數據集,但我們還不太清楚該如何處理它們。

當大型語言模型出現時,我們覺得:「哇,我們現在可以理解所有這些數據了。」

我很好奇你們如何看待治療領域的成功。我們經常思考如何理解生物學,有時我們會投資那些想要解開全新生物學領域、我們不知道出了什麼問題的疾病的新創公司。

還有另一群人會說:「嘿,既然我們知道出了什麼問題,那就來解決它吧。」他們會帶著藥物、新的化學物質或新型抗體介入。你認為 CZ Biohub 在 10、20、50 年後,在你們所促成的新藥物方面,成功會是什麼樣子?

我們希望看到一個社群的爆炸性增長,他們正在建立新一代的精準醫療。

對於罕見疾病和常見疾病,我們談論的其實是我們通常歸為一類的個體生物學。我們常常不知道它是如何發生的。我們知道你有這個突變,或者最糟糕的是,你有一個意義不明的變異。這到底是什麼意思?太可怕了。

你告訴別人你大概知道一些事,但你不知道那是什麼意思。但如果你看看我們觀察變異和單細胞轉錄體學的方式,我們開始能夠說,好的,這個變異實際上影響了這組下游細胞,然後我們開始觀察表達的蛋白質,以及它與健康細胞的相似或不同之處。然後你就可以開始鎖定目標了。

好吧,讓我們把那個當作目標。你們都知道要建立的目標的特異性,這基於將突變與蛋白質表達聯繫起來的能力,以及預測脫靶效應的能力。副作用是什麼?因為你也知道藥物還會與身體的其他部位相互作用。

所以這些是罕見的,但我真的認為大多數疾病都應該被視為罕見疾病,因為我們每個人的生物學都是不同的。現在我們只是被歸類,根據年齡、人口統計學、祖源(如果我們幸運的話能有這種程度的了解)。但實際上,我們每個人的生物學都是不同的。比如高血壓或憂鬱症,我們只是透過試誤法,說:「試試那種藥,看看會發生什麼。」但真正應該做的是能夠透過觀察個體的生物學來精準、準確、快速地治療人們。我們希望推動基礎科學,如果有人能利用我們建立的模型來開發所需的診斷和治療方法,我們會非常高興。

你們建立了非常棒的數據集。我必須說,你們可能沒有聽到來自新創社群、製藥社群和研發社群的回饋,但它們是存在的,因為你們致力於開源。所以人們可能不都在寫論文,但他們確實在使用這些工具。我們投資組合中有一家新創公司正在研究特發性肺纖維化。這個名字就說明了這種疾病有多麼令人困擾。它是特發性的,我們不知道為什麼會發生。

IPF 之所以這麼命名,是因為它的病因不明。所以,他告訴我他使用了你們的 cell by gene 圖譜來觀察數百萬個來自患病和未患病患者的單細胞,試圖找出纖維母細胞,然後深入研究纖維母細胞及其基因表達。

他試圖利用這些資訊來尋找這種根本上由一團奇怪的特發性原因引起的疾病的新藥物靶點。所以我認為有一大群創新者非常喜歡你們建立的工具、視覺化、查詢系統,以及你們讓數據變得極易獲取的軟體方法。

cell by gene 的出現幾乎是個意外。

多跟我們說說。

你想分享一些關於 cell by gene 的事,還是要我先開始?

我不知道你想談哪個部分,但整個細胞圖譜的工作,這有點瘋狂,我們現在是 2025 年,但生物學領域還沒有像化學元素週期表那樣的基礎架構。所以這就是它最初的靈感來源,好吧,我們如何透過 Biohub 的工作和其他補助金,將所有這些數據匯集起來並標準化格式。當我們剛開始時,我們甚至不一定想到要用它來建立虛擬細胞模型。

我認為隨著 AI 工作的進展,這一點才逐漸清晰起來,但這是一件非常令人興奮的事情。我們絕對應該花些時間討論虛擬細胞模型,但我不確定你想談細胞圖譜的哪個部分。

單細胞研究是我們十年前最早的徵求計畫書之一,當時我們覺得,好的,我們認為這是可能的。我們實際上資助了它的方法學,以標準化其執行方式。那是十年前的事了。然後我們資助了幾個實驗室開始建立該數據集。但我們當時想,有數百萬甚至數十億種不同的細胞類型和不同的排列組合,我們要怎麼做?尤其是在一項新興技術的背景下。

所以我們最終資助了幾個團隊,他們開始工作,然後他們告訴我們他們遇到了一個問題。他們的工作流程中出現了瓶頸,因為他們無法足夠快地註釋數據。所以我們建立了 cell by gene 作為一個註釋工具。這就是它的最初來源。我們建立這個註釋工具,是為了讓從事單細胞科學的人能夠輕鬆地註釋數據。

然後我們將收集到的數據公開,以便人們分享。但因為每個人都開始使用相同的註釋工具,所以大家都在相同的數據格式上進行了標準化,然後圍繞這個工具開始形成一個社群,他們想要回饋並建立圖譜。

所以現在,十年後,已有數百萬個細胞被納入這個為整個科學界共享的資源中。我們只資助了其中的約 25%。75% 來自更廣泛的社群,他們認為這很有用,而且有一種簡單的方法可以讓我們標準化並建立相同的元數據。

這就像一種有趣的網路效應。

是的。聽起來像網際網路。

為了註釋而來,為了虛擬細胞模型而留下。

當我們開始這項工作時,讓每個參與者都使用一致的格式非常重要。這樣它才能被使用和移植。一旦這種方式普及開來,其他人就發現它很有價值了。

是的,即使與之前的數據庫如 GIO 等相比,它們的標準化或品質控制也遠遠不夠。

讓我們來談談虛擬細胞。這是你們專注的重大挑戰之一。也許可以談談它的前景或希望,以及可能面臨的一些挑戰或我們目前的進展。

是的,我們認為這將是最重要的工具之一。基本上是從蛋白質開始,建立到細胞內不同結構,再到整個虛擬免疫系統等不同層級的體系。

我們認為這將成為一套非常重要的工具,能有效地幫助人們為不同的科學工作產生假設。甚至在你真正開始在其中運行完整實驗之前,你就可以對實驗可能如何進行有一些估計。這對於 Priscilla 幾分鐘前談到的精準醫療類型的一些例子會很有用。但我們認為這可能是你需要建立的最重要的工具之一,而且它不是單一的東西。所以有不同的角度可以切入。細胞圖譜數據有助於在細胞層面上理解事物。

我們目前正在做的最重要的事情之一是,有一家很棒的公司 Evolutionary Scale,他們有一些之前在 Meta 從事蛋白質折疊模型研究的研究人員,他們將加入一個 Biohub,而其領導者 Alex Reeves 將擔任整個科學計畫的負責人,這其實很有趣。當你想到 AI 和生物學的結合,實際上是一個懂生物學的 AI 專家在主導,而不是一個對 AI 有些了解的生物學家。我認為這多少說明了我們認為這些事物的相對重要性。但我們基本上認為,就像 Priscilla 提到的不同 Biohubs 一樣。

紐約的細胞工程將使細胞能夠記錄身體周圍發生的不同事情並分享這些數據,然後你可以將這些數據建構成模型。芝加哥 Biohub 能夠記錄發炎反應,並基本上研究它以幫助理解。那是一個不同的數據集。我們有成像研究所,我們剛訓練了第一批模型,這些是首批圍繞理解細胞在不同狀態下的外觀的空間模型。最終,就像你在業界看到的語言模型那樣,你有不同的能力,然後隨著時間的推移,你將它們訓練成模型,模型變得越來越通用。這裡的想法也是一樣。

我們將圍繞重大的生物學挑戰建立 Biohubs。這些 Biohubs 將開發工具以產生新的數據集。我們將基於這些數據集建立模型,並最終將這些模型組合成一個日益通用的虛擬細胞視圖,這對科學家以及希望從事藥物開發的新創公司和企業都將非常有用,這不是我們負責的部分,但我認為這顯然是整個過程中非常重要的一環。

你們在進行投資時總是在考慮風險,我認為使用虛擬細胞模型進行虛擬生物學實驗的前景在於,你實際上可以承擔風險更高的想法。現在,獲得補助資金可能很困難,濕實驗室的工作既昂貴又緩慢,這不僅僅是錢的問題,也是時間的問題。所以你必須選擇一些你認為有一定成功可能性的東西,以維持你的實驗室生涯。這自然會讓人們承擔一些風險,但不會太多,因為他們需要確保達到一定的成功率才能獲得終身教職、發表論文或完成他們需要做的事情。但如果你有一個可以模擬高品質生物學的虛擬細胞模型,你就可以在計算方面開始測試和修補,提出風險更高的問題,那些在實驗室中會耗費大量時間和資源的昂貴實驗,你可以在電腦上先進行模擬實驗,看看是否有前景,然後再投入時間和金錢進行濕實驗。

你認為它有點像一種模式生物嗎?

是的,就像新的果蠅。

考慮到細胞的複雜性,你認為模型能達到多高的準確度?我的意思是,假設你最終能得到一個完美準確的細胞模型,但虛擬細胞要多準確才有用?

我認為它顯然會不斷迭代並變得越來越好,因為現在我們還只是在談論轉錄體學。我們正在擴展到觀察細胞的不同方式,你會獲得越來越高的準確性,但我認為它不需要 100% 準確才有用,因為你只是想在前端稍微降低想法的風險。

你降低的風險越多,效率自然就越高,但即使只是得到方向性的信號也會很有用。是的,我們確實把它看作一種模式生物,但它是一種對人體有高保真度的方式。

所有模型都是錯的,但有些是有用的。

是的。希望這個在某些方面有其用處。

就像語言模型一樣,你在其中建立特定的能力。所以它不是,例如,我們正在發表的一個模型是 variant former,它基本上是這樣運作的:它在大量成對的數據上進行訓練,你拿一個細胞,用 CRISPR 在某個地方進行編輯,然後看另一端會出現什麼。所以它基本上能夠做出那樣的預測:好吧,如果你對一個細胞進行這樣的編輯,可能會發生什麼。另一個模型是擴散模型,基本上你可以描述一種你希望它模擬的細胞類型,它就會產生一個該細胞的合成模型。這也很有趣,因為回到 Priscilla 之前提到的每個人都不同,不同的細胞有不同的配置,你希望能夠模擬這些罕見的配置。

至少有一個合成版本來呈現那可能的情況是很有趣的,然後你可以對其進行測試。我認為 cryo 模型很有趣,因為它是空間的。所以它讓你知道有各種不同的模型,可以讓你觀察不同種類的事物,然後你只是將它們訓練得越來越通用。

建模技術基本上是 LLMs 嗎?或者說,有沒有一個推理模型?

這也是一個很有趣的問題,因為其中一個新模型,我認為還處於非常早期的階段,但它基本上是第一個關於生物學的推理模型。

這個想法是,你有一些模型,它們以不同的方式模擬世界模型,然後你希望它不僅僅是能夠吐出它發現的相關性,而是能夠真正地推理事物會如何演變以及為什麼會發生。

我認為這個還很早期,但從概念上來說,這是一個很有趣的方向,我認為這顯然是這些模型演變的一個重要方向。

因為我當時就在想,如果它不成功,下一個問題就是為什麼?

你發現在推理中,你總是固執於自己的假設。

當然。我的意思是,對於這個問題的語言模型類比是,你需要更好的世界模型或更好的預訓練模型,才能讓推理變得更好。但你只是在其中建立更多的能力。我認為可能也有一個順序。Alex 和 Evolutionary Scale 的團隊所做的工作很多是關於蛋白質的,這很有趣,因為它的解析度顯然比細胞圖譜的細胞數據要小。但部分的假設是,你可以觀察所有這些不同的細胞,並且可以模擬它們可能的行為,但除非你真正對細胞的次級組件如何相互作用有這種層級的理解,否則你的理解會比較膚淺。

我們的觀點是,你基本上想要建立一個最先進的蛋白質模型,然後讓它成為最先進的細胞模型的一部分,一旦你有了這個,你就可以建立像虛擬免疫系統這樣的東西,這讓你可以模擬更複雜的系統。

但這有點像一種層級化的方法來建立這些虛擬模型。

這非常有道理,因為當你進入個人化領域時,你有常見的蛋白質組合成獨特的細胞。所以從系統的角度來看,這讓事情變得更容易管理。這很有道理。很有趣。

是的,這確實是非常引人入勝的東西。

你們這週要宣布一些大新聞。想給我們一個搶先看嗎?

大新聞是關於我們如何整合成一個團隊。過去,我們營運 Biohubs,開發軟體,做了一些 AI 研究,但所有這些都有點分散。但現在,在 Alex 的領導下,我們將作為一個 Biohub 整合起來,一個營運性的慈善機構,我們將為了同一個目標共同進行科學研究,以及我們如何真正在 AI 和生物學的交匯點上推進生物學和研究的發展。

Alex 很棒。

是的,他很棒。然後另一件事是我之前提到的,就是 CZI 之前專注於許多不同的事情。隨著時間的推移,我們真的發現我們在科學領域能夠產生最大的影響。所以我們不斷地加倍投入。我們將繼續在教育領域進行工作,我們將繼續支持當地社區和那些不同的部分。

但展望未來,Biohub 將真正成為我們慈善事業的主要推動力,我們對此感到非常興奮,因為我認為,當我們開始這項使命,看我們是否能幫助科學界在本世紀末治癒和預防疾病時,我確實認為,隨著 AI 的進步,這應該可以顯著提早實現。這是一個非常有價值、重要且令人興奮的目標,我們認為我們在生態系統中有一個獨特的位置,可以幫助他人在此方面取得快速進展。

去中心化在管理、溝通開銷等方面顯然有很多優勢。那麼,你們試圖透過增加這個新的層級/統一化來增加什麼?產出會是什麼?然後,這其中的複雜性又是什麼?

當然,有許多優秀的團隊在做前沿 AI,也有很多團隊在做很棒的前沿生物學。我們認為我們能獨特做到的,是將這兩者真正地連結起來。我們資助了數據集,我們建立了數據集,我們現在正在打造儀器,以便能夠觀察細胞,無論是在組織細胞通訊層面,還是我們的 cryoEM,我們可以在近乎原子的層級上觀察細胞。所以我們有能力不僅建立數據集,而且還能根據我們認為需要補充現有知識體系的方式來塑造和形成它們。我們有優秀的團隊在做這項工作,並且我們正在建立這些 AI 模型。所以,將它們結合起來的原因是,這樣我們就可以真正完成這個飛輪效應,比如,模型在某個領域看起來有一些差距和盲點。

好的,我們該和誰談?我們如何建立下一個數據集?我們在實驗室中看到,元數據將會非常豐富,我們可以將其反饋到我們建模的方式中。我認為這將會非常強大。這不僅僅是寫下一個規格,然後說「請交付這個」那麼簡單。這些人需要肩並肩地工作,互相塑造彼此的工作,這樣才能真正成為一個越來越準確的人類細胞運作模型。

這很有趣,因為這正是我們在 AI 領域最大的驚喜,暫且不論生物學,就是特定領域的模型變得非常有趣。最初的論點是,某些 AI 會變得非常聰明,在所有事情上都比所有人都聰明。但像在影片模型上,每個影片模型都只在某些方面是最好的,而不是全部。所以,知道你在解決什麼問題,諷刺的是,在 AI 中變得非常重要,因為如果你把兩者結合起來,你實際上可以得到更好的結果。是的,我們一次又一次地看到這種情況,這種方式與最初的整體敘事非常不同。

在生物學中,過去至少有一種假設是,數據集不在網際網路上。所以你需要一個特定領域模型的部分原因是因為數據集不是公開的。你們也在挑戰這個趨勢,透過提供大量對數據的開源訪問。即便如此,聽起來你們仍在押注我們在其他行業看到的趨勢,但你們註釋、整理這些數據的方式仍然會有細微差別。

以及你如何與科學家交談。因為你不僅需要了解數據和模型等等,我們不斷發現,對話本身最終變得非常重要,非常豐富且重要。你實際上如何…一個科學家不會像我跟 ChatGPT 聊天那樣跟它說話。

使用者介面其實非常重要。你提到你們有一位創辦人正在使用 Cell by Gene。那個使用者介面是特意設計成不需要有計算背景或非常深厚的生物學背景就能使用的,因為你希望來自不同領域的人都能來看待這個問題。就像是:「看這裡,幫助我們解決這裡的問題。」所以,以一種進入門檻不高的方式建立那個使用者介面,讓人們能夠四處探索、學習新知,並將知識帶回他們的工作中,這是刻意的。

我們真的希望,當我們建立這些虛擬模型時,我們能夠達到一個讓進入門檻越來越低的地方,讓人們可以說:「我對這個有一些了解,也許我可以貢獻。」一個非常貼切的例子是,事實證明,我認為免疫學與神經退化性疾病有很大關係。看起來免疫學是這一切背後的推手。所以你必須能夠讓免疫學家進來,理解神經退化,並理解他們的領域如何融入其中。所以你越是降低進入門檻,就越能讓人們以一種真正協作和跨學科的方式思考。

那麼 Biohub 團隊會擴大嗎?你們會在 Biohub 本身僱用更多人,還是會朝著一個擁有更多站點、更多實驗室、更多社群驅動數據集的網路模型發展?哪一個是重點?或者兩者兼具。

可能兩者都有一點。我們一直在增加新的 Biohubs。然後我們也正在建立更多像這樣的中央 AI 團隊。

我認為這些關於如何設置的組織問題非常有趣,我們的方法很大程度上是基於該領域其他人的做法。你可以把科學看作一個投資組合,社會有一個它試圖做的事情的投資組合,作為慈善事業,你想透過找出其他被低估的部分來盡可能地增加價值。科學預設是高度去中心化的,這是補助金的運作方式,也是我認為科學家預設想要的工作方式。所以我認為我們發現,找出方法以一些看似簡單但以前沒有發生過的方式鼓勵合作,可以釋放出很多價值。

第一個 Biohub,我們做了兩件有趣的事。一是它是由 UCSF、Stanford 和 Berkeley 合作的。這些地方有很多非常聰明的人,以前理論上他們可以想辦法合作,但沒有一個正式的架構讓他們這樣做,而這 просто 讓合作變得更多了。另一個是跨學科。

基本上讓生物學家和工程師坐在一起,認為這兩個學科是需要…我不知道,我相信你們在很多公司都看過這種情況,但公司裡他們總是把他們分開。這很有趣。

組織上的許多問題,只要讓兩個團隊坐在一起就能解決。組織結構圖是什麼或者其他什麼都不重要,重點是你們需要坐在一起,直到把事情搞定。這是我非常相信的一點。

而且你們有 10 到 15 年的時間。

溝通在任何事情的建立或解決過程中,都是一個被低估的問題。所以這真的很棒。這是一些非常簡單的事情,但我認為作為一種模式,它很新穎。

其中一件很棒的事是,我們現在已經將第一個 Biohub 的模式複製到 Biohub 網路,並將其擴展到其他模式,但看到該領域的其他工作者也採用類似的模式也很有趣,因為這是一件很直觀的事情。但在某個時候,你會達到一個點,實際上,去中心化的工作也非常好。所以我們不是說這是所有科學都應該運作的方式。我們只是說這是有空間的。它可以釋放很多價值,因為無論出於什麼原因,它都不是預設的模式。

是的。我們仍然依賴…是的。MIT 實驗室裡有著名的故事,說他們就是這樣發明雷射的,他們把不同部門的一群人放在同一個實驗室裡。

實際上,物理學是我們很多靈感的來源。物理學在歷史上就是實驗室圍繞著大型專案和大型共享資源而集結。我們相對集中,但我們仍然依賴許多在特定前沿領域或互補領域工作的實驗室共同支持。

關於你的擴張問題,還有一個想法,也許這就像現代的 AI 實驗室。我們並不是在擴大很多實體空間,而是在擴展我們的計算能力。研究人員不想要為他們工作的員工,他們不想要空間。他們只想要 GPUs、代理人。

所以,在某種意義上,那是新的實驗室空間。它比濕實驗室空間昂貴得多。

你們在這方面一直很有創意。即使在過去幾年裡,你們也創造了分享計算資源的方式。你們讓學術實驗室能夠…我忘了你們那個計畫的名字,有點像駐點科學家之類的,租賃式的。核心是叢集。

如果你看個別實驗室,一個大型實驗室可能會有幾十個 GPU。而我們是第一個真正建立大規模計算叢集的,從一千個,現在我們計畫擴展到一萬個的規模。這需要不同類型的專案,顯然你可以提出不同類型的問題。這是一個我們自己使用的資源,但我們也邀請科學家申請,說:「你有什麼問題需要這麼多資源來解答?」並以此來孕育合作。所以如果有科學家在聽,

沒有受僱於 Biohub 或在 Biohub 工作,但想與 Biohub 合作,你們將會創造有趣的機會來利用這些資源,這太棒了。

是的,GPU 在某種程度上是零和的。但數據不是。

是的。有道理。

你們即將慶祝從事這項工作 10 週年。展望未來,你們還能告訴我們一些關於未來的想法,或者指導你們成長和演變的原則或北極星嗎?

過去十年真的很有趣,因為我最初幾年完全羨慕那些在營利公司工作的人,因為那裡有非常清晰的目標。市場會告訴你,無論是私有還是公開市場,都會告訴你你是否做得好,他們是否認為你做得好。他們不總是對的。但當時我仍然很羨慕,因為我渴望那種回饋:我做得好嗎?十年過去了,我們之所以加倍投入生物學,不僅是因為我們實現了當初設定的目標,而且當我們開始這些專案時,它帶來的成果超出了我們的預期。我當時想,好的,這是一個我可以抓住的信號,一個我們可以繼續加倍投入、做得更多的信號。所以我認為是繼續容忍早期的模糊性,當你說:「好吧,我要做更多這個。」

並且要有耐心,願意有長遠的眼光,但同時也要保持急迫感。因為是一路上的所有迭代讓我們得以到達這個地方,能夠幸運地建立好數據集,以利用 AI 和大型語言模型。這都是因為我們一直在做的工作。所以,能夠在這種模糊和有時缺乏信號的情況下,朝著一個宏大的目標繼續前進,我認為我們已經為此奠定了 DNA。

很棒。沒有雙關的意思。

是的。但我們可以看到有多少人使用這些工具以及他們的回饋。你們有客戶,這很酷。對於慈善事業來說。這太棒了。

是的,打造工具的樂趣之一就是你可以看到人們覺得這些工具有多大價值?人們是否使用這些工具來發表重要的研究成果?

我們的回饋是,它們太棒了。而且順便說一下,是完全獨一無二的。所以另一件事是,如果你沒有這個,你會用什麼?答案是沒有東西可用。是的。這是一個真正的空白。

從加速基礎科學,到資助許多人使用它,再到生物技術公司開始開發新的療法,然後是大型製藥公司大規模生產,這整個流程都需要存在。

然後在公共衛生領域的另一端,慈善事業也有空間,就是將這些療法帶給世界上的每個人。但這是一個 AI 將會產生巨大影響力的領域,它仍然需要更多在工具開發方面的努力,以更好地加速整個過程。

我確實認為這是你們完全獨特的地方。其他事情有其他人可以做,但沒有人做你們正在做的事。

創辦人與市場的契合度很好。

是的。創辦人市場契合。如果我們不存在,會是個問題嗎?是的。這些問題確實觸動人心。作為一個風險投資家,我們中的一個是工程師,另一個是科學家兼醫生。非常高興看到這個方向。

我們非常感謝你們,不僅僅是為了我們的公司,也是為了我們作為人類,感謝你們從事這項工作。這是了不起的工作。謝謝你們。謝謝大家。

💡 對我們的 AI 研究助手感興趣嗎?

使用 AI 技術革新您的研究流程、提升分析效率並發掘更深層次的洞見。

了解更多