HBM 之後是 HBF 時代?記憶體將取代 GPU 成為 AI 晶片核心

Youtube連結

Roger’s Takeaway

很有趣,因為AI,讓我也有能看到韓國記憶體最新的技術趨勢。

他談到目前GPU 60%~70%是閒置的,因為記憶體的瓶頸。所以未來也將牽動記憶體廠商的議價能力,我無法判斷他的看法,歡迎大家去看原始訪談。

摘要

KAIST 金正浩(Kim Jeong-ho)教授深入剖析 AI 時代下記憶體的重要性。他提出繼 HBM 之後,下一代高頻寬記憶體 HBF (High Bandwidth Flash) 將成為 AI 運算的核心,特別是在推論 (Inference) 階段,HBF 能夠儲存更大的「暗號書」(KV Cache/Prior),從根本上決定 AI 模型的性能與規模。此技術將改變未來的 AI 晶片架構,預計在數年內對 Samsung Electronics 和 SK Hynix 等記憶體公司的股價產生巨大影響。

Highlight

1.

首先,為什麼記憶體會變得更有前景?當我們向生成式人工智慧提問時,它會不斷地拋出單字。這些單字輸出的速度,在理論上和實際上,都是由記憶體決定的。這不只是在學習時,在推論 (Inference) 時更是如此,也就是在「生成」內容時。

此外,我預測,模型的尺寸將會越來越大,使用者會增加,如果想要主導這個市場,性能就必須要好。其中一個關鍵是:輸出的速度由記憶體決定。其次,為了輸出數據,需要進行訓練或各種數據,這導致所需的容量會變得更大。我的主張是,相較於 GPU,記憶體需要投入更多的資金,而且實際上趨勢也是如此。

2.

接下來,我會用講座的方式解釋為什麼記憶體很重要。

當我們向生成式 AI 提問,例如「請畫一個超現實主義畫家 Salvador Dali 臉型的機器人臉」,它會在幾秒鐘內畫出來。如果換作人類來畫,可能要去美術補習班上三到五年課,光繪畫時間就需要一個小時以上。

這就是生產力。在幾秒鐘內完成繪畫,生產力是驚人的提升。這意味著如果我們能善用 AI,就等於手中擁有 Shakespeare、Picasso、Beethoven,甚至下棋能達到李世乭的水平。這在生產力和競爭力上造成了巨大的差異。這適用於企業,也適用於個人。

如果導入 AI 能夠提高生產力,從好的方面看,人類可以少受苦,但從壞的方面看,這會減少勞動機會。最近有新聞說 Amazon 即將裁員三萬人,約佔總人力的百分之九。但無論如何,無論是寫電子郵件、文件、畫畫,人類的生產力都將提高一百倍。

我們來看這個畫面。這個畫面不是人拍攝的,而是 AI Sora 生成的影片。如果我們輸入指令,例如「繪製一輛 SUV 在土路上奔馳、揚起塵土的場景」,它可以在一分鐘內生成。要拍攝這樣的場景,可能需要攝影師、導演、製作人,如果去沙漠之類的地方,可能要花一千萬韓元。如果坐在桌前一分鐘就能做到,這會帶來巨大的生產力差異。

現在海外的外景拍攝都減少了。因為這個看起來與真實影片幾乎沒有差別。

如果我是 Jensen Huang,我會夢想著有一天,只需要一個簡單的腳本或想法,就能在幾分鐘內創作出一小時的電影。這就是他們現在投資數千億、數兆甚至未來可能數京的 AI 資料中心的原因。

我認為,未來我們透過 YouTube 獲得大量資訊、觀看娛樂節目,但現在的畫面大多是人類製作的。未來,我認為將由 AI 完成。人類的知識、理念、觀念、甚至是宗教,都將受到 AI 的影響。

然而,正如我所說,AI 可以一分鐘內製作電影,或者同時有數百萬、甚至數億人在使用它。全世界同時使用網路的人口可能有數十億。AI 的使用規模必然會變得巨大。

其中一個原因是 COT (Chain of Thought),它不只是給出答案,還會像我們考申論題一樣,提供解釋。以前只給答案,現在會解釋,這就是 COT。MOE (Mixture of Experts) 則是將 AI 專業化,例如國文 AI、數學 AI、物理 AI 等,這樣 AI 的數量也會增加。

再來是 RAG (Retrieval-Augmented Generation)。過去,AI 是經過預先訓練的,也就是 GPT 名稱中的 P (Pre-training)。這樣它就不知道最新的資訊,對吧?所以現在,當你問它最新資訊時,它會檢索最新的網路資料並回答。這就是 RAG。這就像是開卷考試,而非閉卷考試。它將資料放在旁邊,根據問題類型,邊看資料邊回答。

多模態(Multi-modal)不僅限於文本,它還可以作曲、拍電影,總之是全方位的工作。還有 Agentic AI,就像我們的秘書一樣;以及 Physical AI,將 AI 放入機器人中。我之後會解釋,但這需要巨大的訓練數據。訓練機器人,必須觀察和模仿所有的動作。這一切都需要攝影機拍攝並進行訓練,數據量遠超文本。這也是自動駕駛困難的原因之一,必須拍攝並學習所有情況的影片。

最後是 X,這是指應用領域(Application)。應用領域廣泛,用戶數量增加,這必然會演變成一場規模的戰爭。

現在我們輸入「I am a boy」,讓它翻譯,這只是幾百 Bytes 的文本。但如果我們輸入「製作一個關於這個男孩的影片」,圖像包含的資訊量遠超文本。文本是幾百 Bytes,圖像卻是數百 Mega Bytes。螢幕上的資訊量就是更多。如果現在的生成轉向影片,數據量會暴增。

而且,一旦開始用影片來訓練 AI,所需的數據量就會比僅用圖像多得多。

因此,我提出的「Scaling Law」涉及幾個方面:一是模型尺寸(我們稱之為模型參數),現在是數兆個,未來會達到一千兆;二是批次 (Batch) 大小,即使用者數量,會增加到數億人,因為這樣才能賺錢;三是 GPU 數量、HBM 數量、HBM 的頻寬、堆疊的 HBM 層數。

總而言之,核心是記憶體容量、電力消耗。需要蓋很多核電廠,費用非常高。這也是最近出現 AI 泡沫論的原因之一:誰能負擔這筆錢?甚至有人在玩弄資金,例如「Vendor Financing」,NVIDIA 給錢讓你去發展 AI 業務,條件是你要買他們的產品。

資金從哪裡來?如果未來像繳醫保一樣,每個月繳費 (例如每月 30 萬到 50 萬韓元) 來維持你的職業,就像你需要汽車才能從事外送一樣,那麼資金問題就可以解決。但無論如何,從需求端來看,這個「Scaling Law」會持續。

3.

但現在的生成式 AI 使用的是 Transformer 模型,這種結構看來不會改變,它採用 Encoder 和 Decoder 結構。Encoder 將人類的語言編碼,生成一個「Prior」(可以視為加密的暗號書)。然後 Decoder 再解讀這個暗號,畫出圖畫。這非常有趣。我常常思考為什麼會這樣?我發現,只要對這個「Prior」暗號稍作改變,就會出現新的圖畫。

所以,這個暗號可能是只有電腦才懂的語言,或說是神的語言,甚至是外星人的語言。它就像一個黑盒子。但如果你想解釋它,就必須加上一個 Decoder。這個 Decoder 是一個 AI 網路,擁有數兆個參數。

換個比喻,如果這個「Prior」是神的聲音,那麼 GPU 和 HBM 就像是為了聆聽這個聲音而努力工作。從宗教角度來看,這個「Prior」可能是一本聖經;從我的專業角度來看,它是一本巨大的「暗號書」。Decoder 就像是神學家、牧師或僧侶,將它翻譯成我們的語言。

當我們輸入「I am a boy」時,它會先吐出「I」這個單字,然後再看「暗號書」,找到線索,再吐出「am」這個單字,然後再吐出「a boy」。

為了製作這本「暗號書」,需要巨大的計算和記憶體。今天我要說的是,HBM 需要快速地計算和讀寫,但它的容量並不大,它是堆疊起來的 DRAM,主要用於 Encoder 和 Decoder 的需求。但是「暗號書」(Prior)不需要經常被寫入,一旦寫入(就像寫好一本聖經),就不會經常修改,主要用於讀取。而且它需要巨大的容量。

我預測,未來用於記憶這個 Prior 的儲存裝置,將會是 HBF。這是我的開場白。

那個寫著 Prior 的部分,就是 AI 實際上「心智」的部分,不同的 Prior 會導致不同的結果。沒錯。學習的結果就儲存在這裡。它就像 AI 的大腦。如果這個 Prior 記憶體大,AI 就會更聰明,知識更多;如果小,就只能做簡單的回答。就像家裡有一本百科全書,但也有全套幾百冊的。現在網路也扮演了這個角色。

容量越大,資訊越多。正如我所說,要製作電影和圖像,如果想要一本製作文本的「教科書」或「暗號書」,只需要文字;但如果要一本製作電影的書,就需要記錄全世界所有的電影。

因此,模型越大,記憶體的壓力就越大。這不只影響 Encoder 和 Decoder,更影響到 Prior。我的主張是 Prior 會變得更大,而且它需要快速提供數據,例如快速吐出單字。用於這個目的的記憶體就是 HBF。這就是我今天要向大家解釋的。

所以它會在 DRAM 之外,堆疊更多的 Flash Memory。DRAM 也會用到,但會額外堆疊 NAND Flash。

那現在是如何運作的呢?現在也有儲存裝置。現在是儲存在 DRAM 裡,但 DRAM 斷電就會忘記。在 DRAM 的後面,會透過高速通訊網路連接 SSD(NAND Flash)。目前容量還不大,因為它們沒有堆疊起來。

4.

最近 Samsung Electronics 和 SK Hynix 對 NAND Flash 的需求也在增加,因為資料中心也需要這種儲存裝置。

但是現在,要使用那裡的 NAND Flash,並將數據帶到 GPU,必須經過通訊網路,這需要很多時間,速度慢。需要更高的頻寬。

這就像是,AI 需要儲存知識來應用,這些知識必須在它身邊。如果它必須跑到圖書館,就會花費時間。現在的資料中心不是直接儲存知識的實體,而是在資料中心的後端,有 NAND Flash 儲存裝置。從那裡取用資料太耗時了。

我們說頻寬太慢。所以每台伺服器都需要內建這種裝置。不是一點點,而是就在 GPU 旁邊。現在 NVIDIA 的 GPU 旁邊不是都貼著 HBM 嗎?我的主張是,HBF 也必須貼在旁邊。

現在 HBM 貼在旁邊,它也承擔了一部分 Prior 的作用。但容量小,因為它是 DRAM。未來如果需要處理影片等大量數據,HBM 就不夠了,容量不足。

5.

即使在今天,AI 仍然需要大量的記憶體來進行學習,所以它肯定儲存了很多東西。

沒錯。所以 NAND Flash 的需求一直在增加。以前是用硬碟 (HDD) 儲存,但現在資料中心都換成 NAND Flash 了,因為既需要容量,也需要速度。

但現在需要的是容量更大、存取速度更快。

HBM 的記憶體容量稍嫌不足。有人可能會問,為什麼不直接增加 HBM 的數量,而非要換成 HBF?因為 GPU 旁邊的空間不是無限的。如果 GPU 是 5cm x 5cm,HBM 是 1cm x 1cm,可能只能放八個。空間不是無限的,所以僅靠 HBM 是不夠的。

先說結論,如果我們有 GPU,現在 HBM 貼在旁邊,大概 100GB 左右。在它的正後方,HBF 堆疊起來,假設同樣堆疊 16 層,容量大約是 HBM 的十倍。

所以,這本「聖經」或「暗號書」就安裝在這裡。然後它將內容傳給 GPU 或 HBM,隨時準備著。這形成了一個層級結構。

HBM 有時會從 HBF 中取出數據,然後再傳給 GPU。它也可以直接傳給 GPU,但 HBM 傳輸是我的首要判斷,其次是直接傳給 GPU。如果要實現這些功能,GPU 的編程(Programming)必須改變。

這需要 NVIDIA 這樣的公司合作。現在正在制定這些規範,Open AI、NVIDIA、AMD、Google、Broadcom 都必須參與到 HBF 的規格制定中。

這將改變指令集,例如 CUDA 軟體會改變。至於 HBF 的儲存記憶體,就像我之前提到的 SSD,巨大的容量,就像工廠或運動場大小的儲存空間,是透過光纖通信等方式供應的。這可以比喻為「大圖書館」。

而 HBM 是「書桌旁的書架」,HBF 則是「地下室的書房」。那網路儲存就是「首爾市立圖書館」。沒錯,這是有層級的。工程設計和我們的日常生活非常相似,只是半導體領域比較難接觸。

經常看的書,就放在 HBF 這個地下室書房裡,而不是每次都去大圖書館。設計得當的原則是,要預測哪些書會經常被翻閱,這就是軟體的力量。必須根據過去的問題類型,進行統計處理。

極少使用的書,等到 ChatGPT 回答得慢一點,用戶也不會太生氣。這就是效率問題。這些都是工程學。將其實現的硬體架構,就成了現在的局面。

2010 年代,GPU 旁邊的顯示卡上貼的是傳統的記憶體 LPDDR。但到了某個時間點,HBM 貼上去了。大約再過三年,你們會開始看到 HBF 貼在旁邊的照片。

而且,你會看到 HBF 和大圖書館之間連接了光纖通信。到時候,相關公司的股價可能會上漲。

通訊。通訊技術,我們稱之為 PCI Express、UCIe、或 InfiniBand。NVIDIA 的優勢之一就是擁有通訊相關的公司。這也跟 Broadcom 擅長設計所需的半導體有關,所以它們之間都是相互關聯的。

現在 HBM 也不是一次性出貨,而是分批出貨,這也跟資料傳輸速度有關。

6.

如果 HBF 也加入,SK Hynix 也能做 HBF。當然,Sandisk 這家 Flash Memory 公司也能加入。Samsung Electronics 則可以走自己的體系,GPU 可以用自身的 Foundry 製造,HBM 和 HBF 都自己做,提供整體解決方案。

但在這種情況下,Samsung 必須與 AMD、Broadcom、Google 合作。這些公司都是競爭對手,但也是朋友。它們都在做 GPU,只是名稱不同,像 Google 叫 TPU,AMD 叫 MI450。它們都是擅長矩陣運算的加速器。

堆疊 HBF 難嗎?我的判斷是,有堆疊 HBM 經驗的公司會比較有利,因為有經驗。但是散熱和供電問題,我們也還在研究。不知道哪個更難解決。

NAND Flash 為了提高容量,記憶體單元內部已經堆疊了 128 層、256 層。這就是 3D NAND。如果再堆疊十個,就會變成 2000 層、3000 層,甚至可能達到 1 萬層。因為他們在做 3D NAND 時,已經練就了深孔鑽孔的技術。無論是 SK Hynix、Samsung Electronics 還是 Sandisk,他們都不太擔心蓋高樓的問題。

7.

以前我們學半導體知識時,DRAM 和 Flash Memory 的區別是:DRAM 是揮發性的,Flash Memory 是斷電後數據仍然存在。現在主要使用 Flash Memory 的原因已經不是這個特性了,因為資料中心是 24 小時供電的。當然,DRAM 有時會丟失數據,需要不斷地刷新(Refresh)。但現在的原因並非僅限於此,它們之間特性略有不同,需要針對性地使用。

想想個人電腦,一開始是 DRAM 為主,後來 Flash Memory 變得非常重要。AI 也會是這樣。

不知道各位讀大學時,電腦裡是不是有很多紅色的帶狀排線,那是連接硬碟和電腦的。現在都消失了,因為頻寬不夠,而且距離太遠。現在都整合到內部了。我們繼續。

剛才那張圖,AI 回答「How are you?」時,Encoder 會將輸入解碼成「暗號書」,我們稱之為 K (Key) Cache 和 V (Value) Cache。這是生成式 AI 的重要概念。

K Cache 是表達單字間關係的內容;V Cache 是表達單字自身重要性的內容。這本「暗號書」在本質上是一個矩陣,裡面記錄了單字之間有多少關聯性、重要性如何,並按語言、數學等分門別類。K Cache 和 V Cache 是專業術語。如果記者們知道這些,連 AI 專家都會感到驚訝。但用一般語言來說,它就是「暗號書」。

這就是這本書。需要巨大的記憶體。

這個 K/V Cache(Encoder 的暗號書),在 AI 每吐出一個單字時,都會被讀取。例如 Y1 是 I,Y2 是 Am,它會不斷地讀取這本暗號書,根據前面的單字 I,來決定接下來要吐出什麼 M。因此,這本暗號書的讀取次數非常多。

我們問 ChatGPT「今天天氣如何?」,它會進行編碼生成暗號,然後在回答時不斷地查看那本書。

傳統上,AI 的訓練參數 W,還有輸入的問題,都是記錄在 HBM 中。但現在,像這本「暗號書」就會記錄在 HBF 中。在編寫軟體時,就需要決定哪些用 HBM,哪些用 HBF。HBF 不像 DRAM,它是堆疊了 NAND Flash 的裝置。

HBF 將堆疊在 GPU 旁邊。

8.

從構思上來說,既然 DRAM 可以堆疊,為什麼 Flash Memory 不能堆疊呢?

正如我所說,NAND 晶片內部已經堆疊了 128 層、256 層。如果再堆疊 16 層,就會達到 2000 層、3000 層,甚至可能 1 萬層。

而且還要連接高速公路,例如 1024、2048 條高速路連接 GPU。最底層的 Base Die,就像是公車總站。當大量數據下來時,它負責按順序發車。這就像是從江南客運站去仁川機場。當乘客在等待時,為了不無聊,必須要購物,所以這裡也需要便利商店和餐廳。

未來,一些功能可能直接在 Base Die 這一層進行計算,而不是走高速路。

這背後,一派可能是 NVIDIA、SK Hynix、TSMC 聯盟;另一派可能是 Samsung 與 AMD 合作,Base Die 由 AMD 負責設計和 Foundry,NAND 由 Samsung 自己製造。有很多可能性。

從概念圖來看,垂直打通的就是電梯。堆疊起來就是這個樣子。2010 年代初,SK Hynix 開發 HBM 時,電梯(TSV)常會搖晃,容易斷開,是個問題。但四五年後,就沒人再提斷開的問題了。技術就是這樣,雖然只是微米級的結構,但只要投入資金和努力,就能成功。

9.

HBM 是 DRAM,速度快,但容量小。Flash Memory 稍慢,但功耗較低(雖然需要進一步確認)。DRAM 的寫入次數是無限的,但 NAND 則約十萬次。因為不斷地穿透牆壁,牆壁會崩塌。它是有壽命限制的。

因此,汽車上的行車記錄器(Black Box)壽命不是無限的,幾年後就會耗盡。企業為了延長壽命,會使用軟體演算法,讓記憶體輪流使用,避免集中寫入某個位置。

NAND 的容量大約是 DRAM 的十倍。這是最關鍵的點。它主要用於「推論」(Inference)時儲存「暗號書」。現在 AI 晶片市場正在分化為訓練和推論。HBF 只能用於推論,特別是用來製作「暗號書」。

10.

那麼 GPU 現在是不是閒置著,等待記憶體?

沒錯。它有 60% 到 70% 的時間處於閒置狀態。那為什麼還要不斷升級 GPU 呢?NVIDIA 總要做點什麼。它可能對訓練有一點幫助。

現在的 NVIDIA GPU 旁邊可能只有兩個晶片。如果遵循摩爾定律,應該是 1 個變 2 個,HBM 有 8 個,也該跟著變 2 倍、4 倍、8 倍,但它不會這樣發展。你們可以仔細觀察接下來的發展。反而是記憶體會變成兩倍、四倍、八倍。

雖然我不是什麼算命先生,但我的工程判斷是如此。而且看起來是會實現的。

這意味著記憶體的需求將會爆炸性增長。我如何定義這個「兩倍」呢?每當有新產品發佈,頻寬或容量就會翻倍,如果每兩年翻倍一次,二十年就是十代。二的十次方就是一千。這意味著容量會增加一千倍。

如果 Samsung Electronics 和 SK Hynix 的記憶體銷售額是一百兆韓元,一百兆的一千倍是多少?是十京韓元。如果利潤率是 10%,那就是一京韓元。韓國一年的預算大約是 600 兆韓元。

這說明了未來有多麼光明。但問題是,誰來為我們這些人賺的錢買單?這就是可能會出現危機的地方。如果我們假設有人願意支付,那麼我所說的「Scaling Law」就會持續。

11.

我對 HBF 的看法比較保守,認為它可能在十年後,營收會超越 HBM,而且 Samsung、SK Hynix、Sandisk 各佔 33%,韓國兩家公司佔 66%。我們的優勢是,我們在 DRAM 和 HBM 方面都很強,而 Sandisk 沒有 HBM。

但從 NVIDIA 的角度來看,他們可能不喜歡同時使用 HBM 和 HBF,因為這樣他們會過度依賴 Samsung 和 SK Hynix,速度會受制於人。因此,他們可能會與 Sandisk 合作,或者用 GDDR 這種其他記憶體來代替 HBM。但我認為最正統的路線是同時使用 HBM 和 HBF。

12.

即使記憶體如此重要,AI 半導體仍然會以 NVIDIA 為中心運轉嗎?

如果 NVIDIA 想要繼續以它為中心運轉,它可能會收購一家記憶體公司。例如 Micron 或 Sandisk。因為記憶體太重要了。他們現在不是也在給 AMD 等公司投資嗎?

沒錯。他們有錢,甚至可能會跟 Samsung 或 SK Hynix 的會長說:「賣給我們吧。」他們也可以用更高的價格買下 Micron 或 Sandisk。這樣他們就能獲得整套解決方案,而且可以自己控制設備投資。

或者,如果 Open AI 認為記憶體比 GPU 更重要,Open AI 也可能會收購。

逐字稿

世上所有的知識,Understanding。

現在我們來聊一個非常實用的話題。現在是 AI 時代,Samsung Electronics 和 SK Hynix 的股價不是非常火熱嗎?它們現在很火,而且未來會更好。為什麼?因為記憶體的時代來了。

這話題如果是在三四個月前提出來,大家可能會說「喔,原來如此」,但現在這些故事大家都知道了。特別是韓國人,對記憶體、半導體、人工智慧的了解程度在全世界都是數一數二的。

然而,你們聽過這個嗎?除了 HBM 之外,不是 HBM,而是 HBF。HBF?你們可能沒聽過。未來 F 將會崛起,那就是 HBF。沒錯,HBM 時代已經過去了。

果然。因此,既然 HBF 將要崛起,它到底是什麼?我們邀請到了 KAIST 的金正浩教授來為我們講解。教授,歡迎您。

您好。白天要教學生,晚上要教大人,真是辛苦了。真的非常感謝您。我早上九點給研究生上生成式人工智慧的課,那裡的內容在學術上非常嚴謹。我結束了那邊的課程,搭火車過來參加 3% Understanding 的節目。但在這裡,我有著極大的壓力,因為必須要講得有趣且簡單。

沒有的事。而且,金正浩教授最近也在做 "Running"。

您也在跑步嗎?不是 AI "Running" (運行),而是實際的跑步。您下班吃了晚飯,在附近跑一圈,然後看 Hanwha 的棒球比賽。您真是忙碌,然後洗澡睡覺,做些工作,這樣的生活節奏非常好。真的,Hanwha 棒球隊請加把勁。能爬上這個位置,我們已經非常感謝了。金正浩教授是他們的球迷。好,今天我們要學習 HBF。HBF,這個 F 應該是指 Flash Memory 吧?我在課前做了預習,既然是記憶體,那 F 應該就是 Flash Memory。猜對了吧?

對。

雖然我不是經濟專家,但最近的股票投資或股市,都是由 AI 和半導體帶動,而其中更大的動力不是半導體嗎?投資的中心都在那裡。

我的想法是這樣的:當年加州淘金熱開發時,許多人前往加州,但真正賺到錢的,是賣牛仔褲的人。同樣的,AI 浪潮爆發,賺錢的是半導體,半導體中賺錢的是記憶體。今天我想更深入地探討這個話題,並介紹 HBF 這項新技術,以滿足大家對未來產業的預測、投資以及知識的好奇心。

首先,為什麼記憶體會變得更有前景?當我們向生成式人工智慧提問時,它會不斷地拋出單字。這些單字輸出的速度,在理論上和實際上,都是由記憶體決定的。這不只是在學習時,在推論 (Inference) 時更是如此,也就是在「生成」內容時。

此外,我預測,模型的尺寸將會越來越大,使用者會增加,如果想要主導這個市場,性能就必須要好。其中一個關鍵是:輸出的速度由記憶體決定。其次,為了輸出數據,需要進行訓練或各種數據,這導致所需的容量會變得更大。我的主張是,相較於 GPU,記憶體需要投入更多的資金,而且實際上趨勢也是如此。這就是我們今天要探討的主題。

換句話說,為什麼 Jensen Huang (NVIDIA CEO) 下週,不對,是這週要來韓國參加 APEC?他在中國的時候會打領帶,在其他地方穿夾克,這次來會不會打領帶呢?我很期待。如果他打領帶,就代表他態度是認真的,而且這次來韓國似乎隔了很久。他之前經常去台灣和中國。

現在他是不是也意識到記憶體的重要性了?是不是見了 Samsung Electronics 的會長和 SK Hynix 的會長,態度會變得謙虛一些?如果真是這樣,那麼我今天的發表就是正確的,Jensen Huang 也開始意識到這一點了。

明白了。事實上,記憶體更重要。

我們原以為現在是 GPU 的時代,但其實 GPU 就像是鮮奶油蛋糕裡的蛋糕胚,而記憶體則是鮮奶油。如果想做出更好吃的鮮奶油蛋糕,就應該升級鮮奶油或多加點鮮奶油。

蛋糕胚,再怎麼改良,也做不出好的鮮奶油。這話可能有點爭議。但一直吃蛋糕胚,飽了之後,就會對上面裝飾的鮮奶油更感興趣,這可能會成為競爭力的差異點。

好的,您說的對。我們來看看這個畫面。

雖然我不是經濟專家,但我相信觀眾朋友們充滿好奇心,連量子力學都在學習,所以我放心地為大家解釋這些資料。我會盡量在不損害工程和科學事實的範圍內解釋。如果觀眾覺得這些內容不適合 YouTube 頻道,我會事先表示歉意。

接下來 HBM 之後將會是 HBF。記者們是什麼時候開始聽到 HBM 這個詞的呢?

我從 2010 年就開始研究 HBM,大概有 15 年了。至於 HBF,你們大概要再過三年才會開始經常聽到這個詞,第一批產品才會出來。再過十年左右,你們會聽到 HBF 的次數比 HBM 更多,而 Samsung Electronics 或 SK Hynix 的股價將會受到 HBF 更大的影響。這是今天我要向大家解釋的第一個重點。

接下來,我會用講座的方式解釋為什麼記憶體很重要。

當我們向生成式 AI 提問,例如「請畫一個超現實主義畫家 Salvador Dali 臉型的機器人臉」,它會在幾秒鐘內畫出來。如果換作人類來畫,可能要去美術補習班上三到五年課,光繪畫時間就需要一個小時以上。

這就是生產力。在幾秒鐘內完成繪畫,生產力是驚人的提升。這意味著如果我們能善用 AI,就等於手中擁有 Shakespeare、Picasso、Beethoven,甚至下棋能達到李世乭的水平。這在生產力和競爭力上造成了巨大的差異。這適用於企業,也適用於個人。

如果導入 AI 能夠提高生產力,從好的方面看,人類可以少受苦,但從壞的方面看,這會減少勞動機會。最近有新聞說 Amazon 即將裁員三萬人,約佔總人力的百分之九。但無論如何,無論是寫電子郵件、文件、畫畫,人類的生產力都將提高一百倍。

我們來看這個畫面。這個畫面不是人拍攝的,而是 AI Sora 生成的影片。如果我們輸入指令,例如「繪製一輛 SUV 在土路上奔馳、揚起塵土的場景」,它可以在一分鐘內生成。要拍攝這樣的場景,可能需要攝影師、導演、製作人,如果去沙漠之類的地方,可能要花一千萬韓元。如果坐在桌前一分鐘就能做到,這會帶來巨大的生產力差異。

現在海外的外景拍攝都減少了。因為這個看起來與真實影片幾乎沒有差別。

如果我是 Jensen Huang,我會夢想著有一天,只需要一個簡單的腳本或想法,就能在幾分鐘內創作出一小時的電影。這就是他們現在投資數千億、數兆甚至未來可能數京的 AI 資料中心的原因。

我認為,未來我們透過 YouTube 獲得大量資訊、觀看娛樂節目,但現在的畫面大多是人類製作的。未來,我認為將由 AI 完成。人類的知識、理念、觀念、甚至是宗教,都將受到 AI 的影響。

然而,正如我所說,AI 可以一分鐘內製作電影,或者同時有數百萬、甚至數億人在使用它。全世界同時使用網路的人口可能有數十億。AI 的使用規模必然會變得巨大。

其中一個原因是 COT (Chain of Thought),它不只是給出答案,還會像我們考申論題一樣,提供解釋。以前只給答案,現在會解釋,這就是 COT。MOE (Mixture of Experts) 則是將 AI 專業化,例如國文 AI、數學 AI、物理 AI 等,這樣 AI 的數量也會增加。

再來是 RAG (Retrieval-Augmented Generation)。過去,AI 是經過預先訓練的,也就是 GPT 名稱中的 P (Pre-training)。這樣它就不知道最新的資訊,對吧?所以現在,當你問它最新資訊時,它會檢索最新的網路資料並回答。這就是 RAG。這就像是開卷考試,而非閉卷考試。它將資料放在旁邊,根據問題類型,邊看資料邊回答。

多模態(Multi-modal)不僅限於文本,它還可以作曲、拍電影,總之是全方位的工作。還有 Agentic AI,就像我們的秘書一樣;以及 Physical AI,將 AI 放入機器人中。我之後會解釋,但這需要巨大的訓練數據。訓練機器人,必須觀察和模仿所有的動作。這一切都需要攝影機拍攝並進行訓練,數據量遠超文本。這也是自動駕駛困難的原因之一,必須拍攝並學習所有情況的影片。

最後是 X,這是指應用領域(Application)。應用領域廣泛,用戶數量增加,這必然會演變成一場規模的戰爭。

現在我們輸入「I am a boy」,讓它翻譯,這只是幾百 Bytes 的文本。但如果我們輸入「製作一個關於這個男孩的影片」,圖像包含的資訊量遠超文本。文本是幾百 Bytes,圖像卻是數百 Mega Bytes。螢幕上的資訊量就是更多。如果現在的生成轉向影片,數據量會暴增。

而且,一旦開始用影片來訓練 AI,所需的數據量就會比僅用圖像多得多。

因此,我提出的「Scaling Law」涉及幾個方面:一是模型尺寸(我們稱之為模型參數),現在是數兆個,未來會達到一千兆;二是批次 (Batch) 大小,即使用者數量,會增加到數億人,因為這樣才能賺錢;三是 GPU 數量、HBM 數量、HBM 的頻寬、堆疊的 HBM 層數。

總而言之,核心是記憶體容量、電力消耗。需要蓋很多核電廠,費用非常高。這也是最近出現 AI 泡沫論的原因之一:誰能負擔這筆錢?甚至有人在玩弄資金,例如「Vendor Financing」,NVIDIA 給錢讓你去發展 AI 業務,條件是你要買他們的產品。

資金從哪裡來?如果未來像繳醫保一樣,每個月繳費 (例如每月 30 萬到 50 萬韓元) 來維持你的職業,就像你需要汽車才能從事外送一樣,那麼資金問題就可以解決。但無論如何,從需求端來看,這個「Scaling Law」會持續。

現在我們要進入技術層面了。我用這張九頁的投影片,表達了我一學期研究生生成式 AI 課程的內容。

假設我們輸入提示語,像是「Cozy playing frames guitar (Cozy 在火光中彈吉他)」,右邊就會出現這樣的圖像。輸入的文本或圖像,都是人類能理解的語言,因為我們有耳朵和眼睛。

但現在的生成式 AI 使用的是 Transformer 模型,這種結構看來不會改變,它採用 Encoder 和 Decoder 結構。Encoder 將人類的語言編碼,生成一個「Prior」(可以視為加密的暗號書)。然後 Decoder 再解讀這個暗號,畫出圖畫。這非常有趣。我常常思考為什麼會這樣?我發現,只要對這個「Prior」暗號稍作改變,就會出現新的圖畫。

所以,這個暗號可能是只有電腦才懂的語言,或說是神的語言,甚至是外星人的語言。它就像一個黑盒子。但如果你想解釋它,就必須加上一個 Decoder。這個 Decoder 是一個 AI 網路,擁有數兆個參數。

換個比喻,如果這個「Prior」是神的聲音,那麼 GPU 和 HBM 就像是為了聆聽這個聲音而努力工作。從宗教角度來看,這個「Prior」可能是一本聖經;從我的專業角度來看,它是一本巨大的「暗號書」。Decoder 就像是神學家、牧師或僧侶,將它翻譯成我們的語言。

當我們輸入「I am a boy」時,它會先吐出「I」這個單字,然後再看「暗號書」,找到線索,再吐出「am」這個單字,然後再吐出「a boy」。

為了製作這本「暗號書」,需要巨大的計算和記憶體。今天我要說的是,HBM 需要快速地計算和讀寫,但它的容量並不大,它是堆疊起來的 DRAM,主要用於 Encoder 和 Decoder 的需求。但是「暗號書」(Prior)不需要經常被寫入,一旦寫入(就像寫好一本聖經),就不會經常修改,主要用於讀取。而且它需要巨大的容量。

我預測,未來用於記憶這個 Prior 的儲存裝置,將會是 HBF。這是我的開場白。

那個寫著 Prior 的部分,就是 AI 實際上「心智」的部分,不同的 Prior 會導致不同的結果。沒錯。學習的結果就儲存在這裡。它就像 AI 的大腦。如果這個 Prior 記憶體大,AI 就會更聰明,知識更多;如果小,就只能做簡單的回答。就像家裡有一本百科全書,但也有全套幾百冊的。現在網路也扮演了這個角色。

容量越大,資訊越多。正如我所說,要製作電影和圖像,如果想要一本製作文本的「教科書」或「暗號書」,只需要文字;但如果要一本製作電影的書,就需要記錄全世界所有的電影。

因此,模型越大,記憶體的壓力就越大。這不只影響 Encoder 和 Decoder,更影響到 Prior。我的主張是 Prior 會變得更大,而且它需要快速提供數據,例如快速吐出單字。用於這個目的的記憶體就是 HBF。這就是我今天要向大家解釋的。

所以它會在 DRAM 之外,堆疊更多的 Flash Memory。DRAM 也會用到,但會額外堆疊 NAND Flash。

那現在是如何運作的呢?現在也有儲存裝置。現在是儲存在 DRAM 裡,但 DRAM 斷電就會忘記。在 DRAM 的後面,會透過高速通訊網路連接 SSD(NAND Flash)。目前容量還不大,因為它們沒有堆疊起來。

最近 Samsung Electronics 和 SK Hynix 對 NAND Flash 的需求也在增加,因為資料中心也需要這種儲存裝置。

但是現在,要使用那裡的 NAND Flash,並將數據帶到 GPU,必須經過通訊網路,這需要很多時間,速度慢。需要更高的頻寬。

這就像是,AI 需要儲存知識來應用,這些知識必須在它身邊。如果它必須跑到圖書館,就會花費時間。現在的資料中心不是直接儲存知識的實體,而是在資料中心的後端,有 NAND Flash 儲存裝置。從那裡取用資料太耗時了。

我們說頻寬太慢。所以每台伺服器都需要內建這種裝置。不是一點點,而是就在 GPU 旁邊。現在 NVIDIA 的 GPU 旁邊不是都貼著 HBM 嗎?我的主張是,HBF 也必須貼在旁邊。

現在 HBM 貼在旁邊,它也承擔了一部分 Prior 的作用。但容量小,因為它是 DRAM。未來如果需要處理影片等大量數據,HBM 就不夠了,容量不足。

那麼 HBF 貼在哪裡呢?是堆在 HBM 上面嗎?

有這個可能。您真是天才。

在設計方面,我的研究室的角色就是提出這種架構。是要將 DRAM 和 NAND 像公寓一樣堆疊起來,還是像辦公大樓一樣分開?誰要靠近地鐵站?誰要當商店?公寓的目的是價格、投資、地價或便利性。但在這裡,目的是能生成多少、以多快的速度向多少人提供影片服務。

如果一家像 Open AI 這樣的公司想要主導未來的 AI 市場,就需要大量的 ChatGPT 這類服務。如果現有的空間不夠,就要在地下室建一個倉庫來堆書。如果連那個也不夠,就要在附近某個地方建一個專屬圖書館或辦公室。

我讀大學時(為了不透露年齡,我不公開年份),學生會佩戴大學校徽,穿著校服。他們還會拿著一兩本書,看起來像個大學生。現在想想,那時能學到什麼?後來我讀碩士、博士時,會背著黑色三層包包裝書。但現在大家都是背背包,裡面可以裝很多書,還有筆記型電腦。資訊量大多了。

HBM 和 HBF 的情況也很類似。需要記憶的內容變多了。當然,書拿在手上,偶爾還是要打開來看。這就是頻寬、等待時間。記憶體必須要近,而且容量要大。同時,記憶體與處理器之間的「路」也要夠寬,因為 GPU 內部有大約一萬名計算的「學生」,而 CPU 只有十人。要同時向一萬人提供他們想要的書,必須同時送達。所以路要寬,速度要快。記憶體要近,才能縮短時間。

去看看那些經常學習的教授的辦公室,書堆得到處都是。但我的辦公室,一個書架就夠了。

以前我剛到 KAIST 任教時,會印很多東西,用投影膠片演示。現在這些都消失了,大家都看 PDF 檔案的書。就像媒介的容量和速度一直在發展一樣,AI 電腦也是如此。

但今天,我們將重點放在 Prior 上。誰擁有最大、能最快讀取的「暗號書」?如果這是開卷考試,所有書都在那裡。HBF 就是負責提供所需記憶體的。

我覺得這和我 2010 年代開始研究 HBM 時的感覺相似,但這次的強度高出三倍以上。我回頭看,現在 HBM 在半導體市場中佔據了相當大的份額。我覺得 HBF 只會更大。我希望這期節目能成為一個「聖地」,讓大家無論是進行經濟投資、學習,還是理解產業,都能從中獲得線索。

即使在今天,AI 仍然需要大量的記憶體來進行學習,所以它肯定儲存了很多東西。

沒錯。所以 NAND Flash 的需求一直在增加。以前是用硬碟 (HDD) 儲存,但現在資料中心都換成 NAND Flash 了,因為既需要容量,也需要速度。

但現在需要的是容量更大、存取速度更快。

HBM 的記憶體容量稍嫌不足。有人可能會問,為什麼不直接增加 HBM 的數量,而非要換成 HBF?因為 GPU 旁邊的空間不是無限的。如果 GPU 是 5cm x 5cm,HBM 是 1cm x 1cm,可能只能放八個。空間不是無限的,所以僅靠 HBM 是不夠的。

不過 HBF 也有缺點。

沒關係,我們徹夜長談也無妨。有趣極了。不過記者問我的問題,其實後面會講到。我們先繼續學一點,稍後再問。

先說結論,如果我們有 GPU,現在 HBM 貼在旁邊,大概 100GB 左右。在它的正後方,HBF 堆疊起來,假設同樣堆疊 16 層,容量大約是 HBM 的十倍。

所以,這本「聖經」或「暗號書」就安裝在這裡。然後它將內容傳給 GPU 或 HBM,隨時準備著。這形成了一個層級結構。

HBM 有時會從 HBF 中取出數據,然後再傳給 GPU。它也可以直接傳給 GPU,但 HBM 傳輸是我的首要判斷,其次是直接傳給 GPU。如果要實現這些功能,GPU 的編程(Programming)必須改變。

這需要 NVIDIA 這樣的公司合作。現在正在制定這些規範,Open AI、NVIDIA、AMD、Google、Broadcom 都必須參與到 HBF 的規格制定中。

這將改變指令集,例如 CUDA 軟體會改變。至於 HBF 的儲存記憶體,就像我之前提到的 SSD,巨大的容量,就像工廠或運動場大小的儲存空間,是透過光纖通信等方式供應的。這可以比喻為「大圖書館」。

而 HBM 是「書桌旁的書架」,HBF 則是「地下室的書房」。那網路儲存就是「首爾市立圖書館」。沒錯,這是有層級的。工程設計和我們的日常生活非常相似,只是半導體領域比較難接觸。

經常看的書,就放在 HBF 這個地下室書房裡,而不是每次都去大圖書館。設計得當的原則是,要預測哪些書會經常被翻閱,這就是軟體的力量。必須根據過去的問題類型,進行統計處理。

極少使用的書,等到 ChatGPT 回答得慢一點,用戶也不會太生氣。這就是效率問題。這些都是工程學。將其實現的硬體架構,就成了現在的局面。

2010 年代,GPU 旁邊的顯示卡上貼的是傳統的記憶體 LPDDR。但到了某個時間點,HBM 貼上去了。大約再過三年,你們會開始看到 HBF 貼在旁邊的照片。

而且,你會看到 HBF 和大圖書館之間連接了光纖通信。到時候,相關公司的股價可能會上漲。

通訊。通訊技術,我們稱之為 PCI Express、UCIe、或 InfiniBand。NVIDIA 的優勢之一就是擁有通訊相關的公司。這也跟 Broadcom 擅長設計所需的半導體有關,所以它們之間都是相互關聯的。

現在 HBM 也不是一次性出貨,而是分批出貨,這也跟資料傳輸速度有關。

沒錯,NVIDIA 玩了一個花招,讓 AI 的回覆速度忽快忽慢,就像人類思考和說話一樣,但實際上那是因為記憶體跟不上。它在「演戲」,假裝像人類說話。

如果那個世界來臨,現在運行 AI 需要 NVIDIA、SK Hynix、Samsung Electronics、TSMC 這幾家公司。當然,後面還有建置資料中心的公司,例如 Super Micro、Oracle 最近也在投資。

如果 HBF 也加入,SK Hynix 也能做 HBF。當然,Sandisk 這家 Flash Memory 公司也能加入。Samsung Electronics 則可以走自己的體系,GPU 可以用自身的 Foundry 製造,HBM 和 HBF 都自己做,提供整體解決方案。

但在這種情況下,Samsung 必須與 AMD、Broadcom、Google 合作。這些公司都是競爭對手,但也是朋友。它們都在做 GPU,只是名稱不同,像 Google 叫 TPU,AMD 叫 MI450。它們都是擅長矩陣運算的加速器。

堆疊 HBF 難嗎?我的判斷是,有堆疊 HBM 經驗的公司會比較有利,因為有經驗。但是散熱和供電問題,我們也還在研究。不知道哪個更難解決。

NAND Flash 為了提高容量,記憶體單元內部已經堆疊了 128 層、256 層。這就是 3D NAND。如果再堆疊十個,就會變成 2000 層、3000 層,甚至可能達到 1 萬層。因為他們在做 3D NAND 時,已經練就了深孔鑽孔的技術。無論是 SK Hynix、Samsung Electronics 還是 Sandisk,他們都不太擔心蓋高樓的問題。

當我閃過這個念頭,我猜他們也閃過同樣的念頭。只是需要知道「暗號書」的概念,才能有這個突破性的想法。

看來 HBM 在 SK Hynix 獨佔的局面,可能會逐漸被打破。NAND Flash 的起點大家是差不多的。我們希望全世界 NAND Flash 市場能有 33%、33%,兩家韓國公司佔有 67% 左右就好。SK Hynix 和 Samsung 的優勢是,他們也擅長 HBM,同時做好兩件事將是一個巨大的市場優勢。

正如我所說,HBF 的數據要進入 HBM,必須在同一個基板上。所以,擅長 HBM 的公司會更佔優勢。SK Hynix 表現一直不錯。

我今天之所以做這個節目,就是想說,當我 2010 年代中期說要做大筆投資時,可能有些公司猶豫了,有些公司則堅持了下來,這造成了最近結果的差異。HBF 的情況也是一樣。

即使有了正確答案,有些人相信,有些人不相信。你們兩位相信嗎?

我相信教授說的。所以我們現在應該賣掉 SK Hynix 的股票去買 Sandisk 嗎?

我兩週前剛跟 Sandisk(也就是西部數據 Western Digital)進行了一場三天兩夜的會議。三天兩夜,太棒了。飛機上來回都關閉了網路,是學習和專注的最佳時間。有人送飯,沒人打擾,太好了。

最近 Sandisk 的股價大漲,過去三個月內上漲了三倍。其中一半的原因是資料中心對 NAND 需求的增加。即使沒有 HBF,這需求也存在。

聽您這樣說,這是否也與功耗有關?這不是減少功耗的主要原因,但在次要層面,我需要再研究六個月,才能確定 HBF 和 HBM 誰的功耗更低。但首要原因絕不是功耗。

是速度乘以容量。

以前我們學半導體知識時,DRAM 和 Flash Memory 的區別是:DRAM 是揮發性的,Flash Memory 是斷電後數據仍然存在。現在主要使用 Flash Memory 的原因已經不是這個特性了,因為資料中心是 24 小時供電的。當然,DRAM 有時會丟失數據,需要不斷地刷新(Refresh)。但現在的原因並非僅限於此,它們之間特性略有不同,需要針對性地使用。

想想個人電腦,一開始是 DRAM 為主,後來 Flash Memory 變得非常重要。AI 也會是這樣。

不知道各位讀大學時,電腦裡是不是有很多紅色的帶狀排線,那是連接硬碟和電腦的。現在都消失了,因為頻寬不夠,而且距離太遠。現在都整合到內部了。我們繼續。

剛才那張圖,AI 回答「How are you?」時,Encoder 會將輸入解碼成「暗號書」,我們稱之為 K (Key) Cache 和 V (Value) Cache。這是生成式 AI 的重要概念。

K Cache 是表達單字間關係的內容;V Cache 是表達單字自身重要性的內容。這本「暗號書」在本質上是一個矩陣,裡面記錄了單字之間有多少關聯性、重要性如何,並按語言、數學等分門別類。K Cache 和 V Cache 是專業術語。如果記者們知道這些,連 AI 專家都會感到驚訝。但用一般語言來說,它就是「暗號書」。

這就是這本書。需要巨大的記憶體。

這個 K/V Cache(Encoder 的暗號書),在 AI 每吐出一個單字時,都會被讀取。例如 Y1 是 I,Y2 是 Am,它會不斷地讀取這本暗號書,根據前面的單字 I,來決定接下來要吐出什麼 M。因此,這本暗號書的讀取次數非常多。

我們問 ChatGPT「今天天氣如何?」,它會進行編碼生成暗號,然後在回答時不斷地查看那本書。

傳統上,AI 的訓練參數 W,還有輸入的問題,都是記錄在 HBM 中。但現在,像這本「暗號書」就會記錄在 HBF 中。在編寫軟體時,就需要決定哪些用 HBM,哪些用 HBF。HBF 不像 DRAM,它是堆疊了 NAND Flash 的裝置。

HBF 將堆疊在 GPU 旁邊。

從構思上來說,既然 DRAM 可以堆疊,為什麼 Flash Memory 不能堆疊呢?

正如我所說,NAND 晶片內部已經堆疊了 128 層、256 層。如果再堆疊 16 層,就會達到 2000 層、3000 層,甚至可能 1 萬層。

而且還要連接高速公路,例如 1024、2048 條高速路連接 GPU。最底層的 Base Die,就像是公車總站。當大量數據下來時,它負責按順序發車。這就像是從江南客運站去仁川機場。當乘客在等待時,為了不無聊,必須要購物,所以這裡也需要便利商店和餐廳。

未來,一些功能可能直接在 Base Die 這一層進行計算,而不是走高速路。

這背後,一派可能是 NVIDIA、SK Hynix、TSMC 聯盟;另一派可能是 Samsung 與 AMD 合作,Base Die 由 AMD 負責設計和 Foundry,NAND 由 Samsung 自己製造。有很多可能性。

從概念圖來看,垂直打通的就是電梯。堆疊起來就是這個樣子。2010 年代初,SK Hynix 開發 HBM 時,電梯(TSV)常會搖晃,容易斷開,是個問題。但四五年後,就沒人再提斷開的問題了。技術就是這樣,雖然只是微米級的結構,但只要投入資金和努力,就能成功。

我來解釋一下,這是 DRAM 的電路結構。裡面有一個小「水桶」,裝滿水是 1,沒有水是 0。但水會漏,所以它需要不斷地「刷新」(Refresh)。你要讀取數據時,打開門,看一下再關上。因為存取速度快,只要不壞,就可以一直使用。缺點是水桶太小,而且會漏水,需要不斷補水。

NAND 就像監獄。一旦數據進去,就出不來,數據不會丟失。但是要將數據塞進這個高牆監獄,需要用到量子力學的「穿隧效應」(Tunneling effect)。

我平常跳高只能跳一公尺,但如果有十公尺的牆,我是跳不過去的。但在量子力學中,因為電子具有粒子性和波動性。粒子性是過不去的,但波動性可以穿透。如果解薛丁格方程式 (Schrödinger equation),就會發現電子有穿透的機率。

施加強大的電壓,電子就能穿透高牆,被困在裡面,無法出來。這就是非揮發性記憶體。如果要擦除,就像進行大工程一樣,很難。所以重寫也很困難。

那麼讀取時怎麼辦?我們是「敲門」問:「有人在嗎?」而不是打開門。所以它是可以經常讀取的。因此,它是用來經常讀取、偶爾寫入的。

HBM 是 DRAM,速度快,但容量小。Flash Memory 稍慢,但功耗較低(雖然需要進一步確認)。DRAM 的寫入次數是無限的,但 NAND 則約十萬次。因為不斷地穿透牆壁,牆壁會崩塌。它是有壽命限制的。

因此,汽車上的行車記錄器(Black Box)壽命不是無限的,幾年後就會耗盡。企業為了延長壽命,會使用軟體演算法,讓記憶體輪流使用,避免集中寫入某個位置。

NAND 的容量大約是 DRAM 的十倍。這是最關鍵的點。它主要用於「推論」(Inference)時儲存「暗號書」。現在 AI 晶片市場正在分化為訓練和推論。HBF 只能用於推論,特別是用來製作「暗號書」。

那麼除了「暗號書」,還可以用在哪裡呢?如果問題是數學,它會詢問「數學老師」(數學 AI),它會儲存相關的「暗號書」。如果問題是最近發生的事,它會檢索資料,然後再生成答案。儲存這些資料的裝置也是 HBF。

HBM 是書桌旁的書架。HBF 就像坐在圖書館旁邊學習。

這跟我們剛才的想像是一致的。您真是理解工程學的精髓。這種比喻雖然形象,但確實是本質。

既然概念上是對的,為什麼還沒做出來呢?

因為 HBM 成功了,所以我們意識到「我們也能堆疊」。這是一個技術突破。第二個原因是,當 AI 的規模擴大,進行推論時,需要更多的「暗號書」。這種需求是最近才出現的,技術上也就一兩年的時間。

當這些 NAND Flash 公司聽到這個需求時,他們意識到「我也可以堆疊!」。現在正是時機。要規劃新產品和商業計畫,必須保持開放的心態,傾聽別人的聲音,同時自己也要有所準備。時機就在現在。

全球有四家 NAND Flash 公司。我認為他們計劃在 2027 年將這項技術產品化,如果進展順利,可能 2027 年,如果慢一點,可能 2028 年就會問世。

我認為 GPU 的發展幾乎停滯了,無論是 NVIDIA 還是 AMD。未來的性能提升將透過記憶體的創新來實現。所以,記憶體的時代將會來臨,記憶體公司的股價會上漲,Jensen Huang 會打著領帶訪問韓國。

Sam Altman 不是已經來了嗎?

那麼 GPU 現在是不是閒置著,等待記憶體?

沒錯。它有 60% 到 70% 的時間處於閒置狀態。那為什麼還要不斷升級 GPU 呢?NVIDIA 總要做點什麼。它可能對訓練有一點幫助。

現在的 NVIDIA GPU 旁邊可能只有兩個晶片。如果遵循摩爾定律,應該是 1 個變 2 個,HBM 有 8 個,也該跟著變 2 倍、4 倍、8 倍,但它不會這樣發展。你們可以仔細觀察接下來的發展。反而是記憶體會變成兩倍、四倍、八倍。

雖然我不是什麼算命先生,但我的工程判斷是如此。而且看起來是會實現的。

這意味著記憶體的需求將會爆炸性增長。我如何定義這個「兩倍」呢?每當有新產品發佈,頻寬或容量就會翻倍,如果每兩年翻倍一次,二十年就是十代。二的十次方就是一千。這意味著容量會增加一千倍。

如果 Samsung Electronics 和 SK Hynix 的記憶體銷售額是一百兆韓元,一百兆的一千倍是多少?是十京韓元。如果利潤率是 10%,那就是一京韓元。韓國一年的預算大約是 600 兆韓元。

這說明了未來有多麼光明。但問題是,誰來為我們這些人賺的錢買單?這就是可能會出現危機的地方。如果我們假設有人願意支付,那麼我所說的「Scaling Law」就會持續。

但是誰來支付這筆投資費用呢?我暫時不考慮這個問題。如果有人想要稱霸 AI 世界,就需要 HBF。

沒錯,我也這麼認為。如果我們國家賺了數京韓元,政府可能會給每個國民一個 AI ID 吧。

我曾想過,現在房價上漲是一個社會問題。年輕人要買十億韓元的房子,需要儲蓄五千萬韓元儲蓄二十年。這是不合理的。五千萬韓元一個月要存多少?要存五百萬韓元。

所以我想,或許人們可以負擔得起 AI 的費用,如果沒有 AI 就無法工作,或許他們會願意支付。這是我極端的想像。

這是 Microsoft 在威斯康辛州建立的 AI 資料中心照片。這些風扇下面就是 AI 資料中心,需要散熱。其中一個建築,我聽說是專門用於記憶體的工廠。這意味著 AI 資料中心對記憶體的需求巨大。

總之,記憶體是必需品。最靠近 GPU 的是 SRAM(紅色),它在 GPU 內部,但容量不到 1GB。然後是 HBM,下面是 HBF。再下面是網路儲存(SSD/NAND),最後是記憶體工廠。

這是我提出的記憶體階層架構,在傳統電腦架構中是看不到的。越往下越慢,越往上越快,但越往上容量越小。我將 HBM 和 HBF 放入這個結構中,也新增了記憶體工廠的概念。

我有一個問題,如果我們不按照這個層級,而是將底部和頂部直接連接,會有什麼不便?

連接網路會很不方便,而且底部太大了,就像我們不能把整個圖書館搬到書桌旁一樣,物理尺寸太大了。如果總是要跑來跑去,會很不方便。

所以這樣做是最有效率的:根據物理尺寸、容量和速度,將需要的東西放在更近的位置。

DRAM、SRAM 的壽命,如果每天都使用,我估計約十年。HBF 的壽命比它們短。因為電子穿隧進去,會破壞牆壁,久了就會產生「破洞」,然後就無法使用了。所以必須非常小心地使用。它會輪流寫入,避免某處被集中磨損。

這就是我們的外接硬碟容易損壞的原因嗎?SSD 的損壞跟這個有關。如果「暗號書」裡面有噪音,就會被錯誤地解讀。所以 NAND Flash 公司在使用 HBF 時,不僅要考慮堆疊,還要考慮如何穩定地使用。這就是軟體的力量。

所以 Samsung 和 SK Hynix 以前只需要專注於製造,但現在它們必須理解 AI 演算法、電腦架構,才能決定研究方向並提供解決方案。因為過去 PC 時代,只需要迎合 Intel;現在 AI 資料中心則需要迎合 Microsoft、Amazon、Open AI 等多樣化的公司。

這就像是記憶體公司開始走向系統半導體的道路。記憶體也開始需要「客戶訂製化」。

我剛才查了一下,Samsung Electronics 的 NAND Flash 市佔率仍然是第一,大約 30% 多;SK Hynix 是第二,大約 20%。最近 Samsung 股價上漲,不是因為追上了 HBM,而是因為再加上了 Flash Memory 市場的增長。

應該這樣看。

太棒了。要是早點知道就好了。以前我們模模糊糊地知道記憶體很重要,但知道得不徹底,還不如不知道。我問半導體專家,Samsung 能追上 SK Hynix 的 HBM 嗎?他們說,技術已經換代了,追上了舊的又有什麼用?而且 Samsung 的 DRAM 設計一開始就不適合堆疊。他們說這就像是「蒸糕」可以堆疊,「松餅」不行。

所以 Samsung 要改變「松餅」就需要時間。我當時覺得 Samsung 股價很難上漲,差點就看錯了。結果,正如您所說,情況發生了變化。

金正浩教授有時會來,當我問他 Samsung Electronics 怎麼樣時,他的眼神會暗示「最近不錯」。他給了我這樣的提示。我當時就覺得,這背後可能有什麼驚人的事情。

那時我已經知道更多,但只能說到這個程度。記者們很快就抓住了其中的含義:「可能有什麼可怕的東西要來了」。不過那時我對 Samsung 的判斷是好的。當時前景看好。現在股價確實漲了很多。

我對 HBF 的看法比較保守,認為它可能在十年後,營收會超越 HBM,而且 Samsung、SK Hynix、Sandisk 各佔 33%,韓國兩家公司佔 66%。我們的優勢是,我們在 DRAM 和 HBM 方面都很強,而 Sandisk 沒有 HBM。

但從 NVIDIA 的角度來看,他們可能不喜歡同時使用 HBM 和 HBF,因為這樣他們會過度依賴 Samsung 和 SK Hynix,速度會受制於人。因此,他們可能會與 Sandisk 合作,或者用 GDDR 這種其他記憶體來代替 HBM。但我認為最正統的路線是同時使用 HBM 和 HBF。

「在廣闊的海邊,有一間小茅屋」,你們知道這首歌來自哪裡嗎?這是在加州淘金熱時期,一個人的女兒被洪水沖走後,他唱的悲傷歌曲。後來被翻譯成海邊。總之,就像加州淘金熱賺錢的是牛仔褲或鐵路一樣,AI 大發展時,賺錢的可能會是記憶體。

Steve Jobs 在 2005 年史丹佛大學演講時說:「Stay Hungry, Stay Foolish.」 (保持飢渴,保持愚蠢)。我則說:「Memory is Hungry, Memory is Foolish.」 (記憶體是飢渴的,記憶體是愚蠢的)。如果我們的兩家公司能秉持這種精神工作,美好的日子就會來臨。

你們看,義大利麵都堆得那麼高。巨大的變化即將來臨。

即使記憶體如此重要,AI 半導體仍然會以 NVIDIA 為中心運轉嗎?

如果 NVIDIA 想要繼續以它為中心運轉,它可能會收購一家記憶體公司。例如 Micron 或 Sandisk。因為記憶體太重要了。他們現在不是也在給 AMD 等公司投資嗎?

沒錯。他們有錢,甚至可能會跟 Samsung 或 SK Hynix 的會長說:「賣給我們吧。」他們也可以用更高的價格買下 Micron 或 Sandisk。這樣他們就能獲得整套解決方案,而且可以自己控制設備投資。

或者,如果 Open AI 認為記憶體比 GPU 更重要,Open AI 也可能會收購。

從全球經濟變化來看,我覺得這種程度的想像並不算過分。

現在 Samsung 和 SK Hynix 的規模太大了,Sandisk 似乎是一個更容易下手的目標。Sandisk 是從 Western Digital 分拆出來的,收購 Sandisk 需要多少錢?你可以算一下。Sandisk 現在市值大約四五十兆韓元。雖然比以前貴了。

你看這股價漲的。Sandisk 真的漲了很多。如果我的這番話傳到美國,股價可能會更高。

不過,外國投資者和銀行家有時會聯繫我,詢問我對技術的看法和未來趨勢。我給予了很多正面的評價。我說,你們覺得 SK Hynix 怎麼樣?Samsung 怎麼樣?因為我希望股價上漲,這樣國民就會開心。

幾個月前,我們發佈了 HBM 的路線圖(非業務版本),外國人也都看到了,很多人問我相關問題。下週我還要跟 Open AI 開會。

我也計劃在明年一、二月公佈 HBF 的技術發表,雖然不是路線圖。這樣,即使人們的想法不同,但很快就會趨於一致。

現在真的是一個觀念轉變的時代,什麼事情都可能發生。

如果我是一個棒球選手,四成打擊率已經是很厲害了。我今天說的內容,大概有四到六成是會實現的。

如果你今年高考成績好,不要去醫學院,去 KAIST 讀數學系吧。如果我重新讀大學,我會讀數學系,然後研究所讀 AI,畢業後去半導體公司工作。這樣就能將三個領域結合起來。

如果你喜歡數學和工程,就來吧。有誰是因為喜歡醫學才去醫學院的?學習本身是很辛苦的,只有懷抱崇高使命感才會去做。但在半導體這個領域,也能幫助很多人。

所以,如果有機會向政府建議,我會說,在 KAIST 設立醫學院。讓學生大學部讀工程、數學系,然後去醫學院取得醫師執照,再回到 KAIST 讀博士,同時具備醫學和工程學背景。聰明的學生可以做到。

特別是 AI,將會與醫學大量結合。他們會懂 AI,又懂醫學,或許他們不會想去開診所,而是成為「醫師科學家」。如果培養出一千個這樣的人,我們的醫學產業就會像半導體之後的 AI 之後一樣,變成一個巨大的高附加價值產業。

沒錯,首先要考好高考。數學系。

如果您的兒子或女兒正在準備高考,就讀數學系吧。我們教授主要靠面試招生,而且是先到先得。如果你們很早就來了,我們會想,這個學生平時付出了多少興趣和努力,才能這麼早就來?只要你的能力不錯,機會就是開放的。

不過,如果現在報名的人太多,這個規則可能就會被打破。真希望我能晚點出生,好好學習,然後在金正浩教授的實驗室裡做點什麼。

我的研究室的學生真的都很優秀。我昨天給碩博士上生成式 AI 課,進行了六個小時的小組發表會。現在的學生真的太棒了。

他們都做了什麼?我們課程的專案是,你學了 AI 理論,就設計一個 AI 來解決工程問題。有的學生做通訊編碼,有的做半導體設計自動化,有的做機器人 AI。他們才學了兩個月,但已經能掌握並展示初步的成果。等到期末,他們就能展示完整的 Demo。

他們表現得太好了。你們或許認為只有去醫學院的學生才優秀,但其實他們的特質不同。那些後來發奮圖強、努力學習的學生也非常優秀。我非常尊敬培養出這些學生的父母。

所以,雖然你們會看到一些現象,但現在的學生真的很努力、很優秀。

把我們的孩子送到數學系吧!

不,只要我們為這些優秀的學生創造一個美好的國家,我們就能幸福。一個人的幸福與否,大部分取決於他出生在哪個國家。讓國家變得更好,是我們過上好日子的最好方法。

如果國家變得更好,我們自然會過得好。只要能控制一點點嫉妒心,現在有吃有喝,其實也挺好的。

考好高考吧!數學系!

AI 真的成了時代的主流。巨大的變化正在來臨。

今天的節目到此結束。感謝 KAIST 金正浩教授。謝謝您。

💡 對我們的 AI 研究助手感興趣嗎?

使用 AI 技術革新您的研究流程、提升分析效率並發掘更深層次的洞見。

了解更多