從大腦到身體:AI 的下一步演進——具身智能

摘要

XMOV創辦人 Jinxiang Chai 探討了人工智慧如何從像 ChatGPT 這樣僅有「大腦」的語言模型,演進到擁有「身體」的具身智能。他介紹了其公司開發的平台,該平台能夠即時生成和驅動高擬真度的 3D 數位人類,應用於互動螢幕、虛擬助理和機器人等多種場景,並闡述了這項技術如何改變我們與機器的互動方式。

Highlight

1.

我們今天討論的 3D 具身代理人,是指螢幕上的 3D 數位人類,以及 AR/VR 空間中的 3D 虛擬頭像。它有四個組成部分:

  • 由大型語言模型驅動的大腦。

  • 一個能夠執行實際任務的行動元件。

  • 此外,我們還有一個身體、一個我們可以信任和看見的數位人類實體。

  • 我們還有一個表達元件,可以生成自然的聲音、生動的面部表情和逼真的身體動作,所有這些協同工作。

所以,它聽起來就像一個真實的人。不同的是,具身代理人是永遠在線的、可擴展的且具有成本效益的。

2.

3D AI Agent的挑戰

除了大型語言模型,我們還需要解決兩個挑戰:第一,AI 人類的生成;第二,AI 人類的驅動。

對於 AI 人類生成,我們需要創造可個人化、高擬真度、可控制的 3D 數位人類。這真的非常困難,因為它通常需要建模、貼圖、骨架綁定和著色。它還需要一整個專業 3D 藝術家團隊的參與。所以它非常昂貴,需要時間,無法規模化,也無法個人化。

第二個挑戰是,我們如何即時生成自然的聲音和 3D 動畫?這甚至更困難。原因在於,當前的 3D 動畫技術通常依賴於動作捕捉或關鍵幀動畫。這些技術都不是全自動的,它們無法規模化,而且很昂貴。

3.

實體AI的應用

第一個應用是讓每個螢幕都活起來。你會在這裡看到各種各樣的螢幕,我們有大型公共顯示器,我們也有零售行銷顯示器,我們有手機、電視等個人設備,以及桌面上的迷你螢幕。我們還有 AR/VR 頭戴裝置。

我們想做的是,利用這種具身互動,將所有這些設備轉變為具身 AI 代理人。我們已經將具身 AI 螢幕部署到不同的行業:醫院、展覽廳、陳列室、公共服務和車站。

我們也將具身代理人應用於零售和行銷展示。

另一個應用,是為個人和企業用途的每個應用程式賦予生命。具身代理人可以在個人使用中扮演不同角色,他們可以是健身教練、英語老師、聊天機器人和 AI 伴侶。我們現在正與中國一家頂尖的聊天機器人公司合作,為聊天機器人賦予面孔、表情,甚至跳舞的技能。

最後,我們還可以將任何數位 IP 賦予生命。無論是遊戲 NPC 還是數位 IP,我們都可以將它們變成活生生的、會話式的、富有情感吸引力的角色。

逐字稿

大家好,非常感謝今天各位的蒞臨。

在過去幾年,ChatGPT 讓我們感覺 AI 終於有了大腦。AI 可以寫文章、生成程式碼、回答問題,但它仍然缺少了另一半——它是無形的,它沒有身體,沒有實體存在。

所以今天,我希望大家和我一起思考一個問題:我們該如何讓 AI 從只有大腦,演進到同時擁有身體和大腦?

在開始之前,讓​​我問大家一個問題。如果 AI 真的有了大腦,我們應該如何與它溝通?

想想我們每天身邊的各種設備:我們有電腦、筆記型電腦、手機、電視,甚至 AR/VR 眼鏡。這些設備中的每一個,都將擁有由大型語言模型驅動的大腦。當這一切發生時,我們該如何與這些設備溝通?我們該如何使用手機上的應用程式?我們該如何與網站互動?我們該如何與電視、我們的 AR 頭戴裝置對話?

讓我們先快速回顧一下我們與所有這些設備的互動方式。我們有用于電腦的鍵盤、滑鼠;我們有用于手機的多點觸控;我們有用于大螢幕的簡單點擊。現在,我們有了一個大腦,但我們與 AI 互動的方式,仍然是在一個框框裡打字,或對著空氣說話。

那麼,下一步是什麼?我們的解決方案是「具身 AI 互動 (Embodied AI Interaction)」。

新的互動模式:具身 AI 互動

我們相信,當我們與每個螢幕交談時,會感覺像在與另一個人交談。我們將擁有一個具身代理人 (Embodied Agent),它有臉孔、有表情、有實體存在感。

那麼,什麼是 3D 具身代理人?當我們談論具身代理人時,我們通常指的是一個有身體的機器人。但具身代理人並不總是意味著機器人,它也可以是出現在螢幕上的數位人類,也可以是 AR/VR 空間中的虛擬 3D 頭像。

我們今天討論的 3D 具身代理人,是指螢幕上的 3D 數位人類,以及 AR/VR 空間中的 3D 虛擬頭像。它有四個組成部分:

  • 由大型語言模型驅動的大腦。

  • 一個能夠執行實際任務的行動元件。

  • 此外,我們還有一個身體、一個我們可以信任和看見的數位人類實體。

  • 我們還有一個表達元件,可以生成自然的聲音、生動的面部表情和逼真的身體動作,所有這些協同工作。

所以,它聽起來就像一個真實的人。不同的是,具身代理人是永遠在線的、可擴展的且具有成本效益的。

這聽起來可能很抽象。讓我播放一段短片,來展示無形 AI 與有形、有實體的 AI 之間的區別。

(影片播放)

核心挑戰:AI 人類的生成與驅動

如果這是未來的互動方式,我們如何才能實現它呢?除了大型語言模型,我們還需要解決兩個挑戰:第一,AI 人類的生成;第二,AI 人類的驅動。這兩個挑戰都非常難以解決,因為它們是電腦圖形學中最困難的問題。

對於 AI 人類生成,我們需要創造可個人化、高擬真度、可控制的 3D 數位人類。這真的非常困難,因為它通常需要建模、貼圖、骨架綁定和著色。它還需要一整個專業 3D 藝術家團隊的參與。所以它非常昂貴,需要時間,無法規模化,也無法個人化。

第二個挑戰是,我們如何即時生成自然的聲音和 3D 動畫?這甚至更困難。原因在於,當前的 3D 動畫技術通常依賴於動作捕捉或關鍵幀動畫。這些技術都不是全自動的,它們無法規模化,而且很昂貴。

我研究這兩個問題已經很長時間了。很久以前,當我還在研究所的時候,我們發表了最早使用 AI 生成和控制 3D 動畫的論文之一。後來,作為 Texas A&M University 的教授,我們在 SIGGRAPH 和 TOG 上發表了許多論文,具體來說,我們在 SIGGRAPH 和 TOG 總共發表了 20 篇論文。所有這些論文都專注於創造栩栩如生的數位人類。

但只有研究是不夠的。這就是為什麼我離開學術界,創辦了這家公司。

我們的解決方案:一個全新的開發者平台

經過多年的努力,我們終於有了​​解決方案。今年十月,我們將推出第一個用於創建具身 AI 代理人的開發者平台。該平台讓每個人、每個開發者都能創建能夠像人類一樣說話和移動的 AI 代理人。

這個平台有兩個關鍵能力。第一個是讓每個人都能在幾分鐘內創建高品質的 3D 人類。我們有兩種創建 3D 數位人類的方法。

首先,我們有一個大規模的高擬真度數位人類模型庫。這段影片展示了我們庫中的一些例子,涵蓋了各種種族、年齡、個性和性別。

(影片播放)

我們可以挑選您最喜歡的角色,並通過編輯面部特徵、髮型、妝容、服裝以及配飾來客製化外觀。這段影片展示了此功能的強大之處。

(影片播放)

另一種創建數位人類的方式是直接從輸入的照片生成。這是一個例子,左邊是輸入的照片,右邊是重建的 3D 角色。

這是另一個例子。

我們還可以為您最喜愛的明星創建數位人類。我只展示一個例子。

(影片播放)

平台的第二個關鍵能力:即時驅動虛擬角色

我要談的第二個關鍵能力,是如何即時驅動虛擬角色。這需要解決三個挑戰:

  1. 如何從文本中理解語義、意圖和情感。

  1. 即時生成自然的聲音、生動的面部表情和逼真的身體動作。

  1. 3D 角色的渲染和模擬。

為了應對這些挑戰,我們開發了一個大型基礎模型,用於即時生成語音和 3D 動畫。此外,我們還開發了一套用於 3D 角色的 AI 渲染與模擬系統。我們可以消除對遊戲引擎和顯示卡的需求。這一點非常重要,因為顯示卡非常昂貴。如果它們不能在平價的硬體上運行,你就無法規模化。這是最困難的問題。事實上,對我們來說,這是我們試圖解決的最後一個障礙。我們幾個月前才解決了這個問題。

現在我們的平台正處於測試模式。我將向您展示一些我們在網站上記錄的真實範例。

(影片播放)

我們的系統允許即時中斷。這段影片將展示您可以隨時中斷對話。我也想提一下,左邊我們顯示了我們系統的延遲。這裡我們只考慮了大型語言模型的反應時間,以及 AI 驅動、AI 渲染和模擬的反應時間。我們沒有計算語音辨識的時間,但通常語音辨識需要 300 毫秒。

(影片播放)

從虛擬到現實:驅動實體機器人

我們用來驅動數位人類的相同技術,也可以用來驅動現實世界中的人形機器人。這是一段並排比較 3D 數位人類和真實機器人執行相同任務的影片。

(影片播放)

但我想提一下為數位人類和這個真實機器人生成的動作之間的區別。因為對於這些機器人來說,它們是為移動操作、執行機械任務而設計的,它們不是為溝通而設計的。這就是為什麼為這個數位人類生成的動作比為這個真實機器人生成的動作要好得多,因為我們對關節角度、速度和加速度有限制,而且這個真實機器人的自由度數量也遠低於這個數位人類的自由度。

實現規模化的條件

接下來,我們希望規模化我們的具身 AI。我們認為需要滿足六個條件:

  1. 高擬真度

  1. 低延遲

  1. 支持大規模併發互動

  1. 低成本:這一點對於規模化非常重要。現在,因為我們移除了對遊戲引擎和顯示卡的需求,我們可以在任何平台上運行我們的系統。我們可以在 50 美元的晶片上運行。這基本上意味著 AI 動畫、AI 渲染和 AI 模擬的成本,甚至比 AI 語音合成的成本還要低。所以它非常非常便宜。

  1. 跨平台兼容:它可以支持在不同平台上運行的各種應用程式,在不同的作業系統上運行。

  1. 可擴展性

我們之所以能做到這一點,是因為這三項關鍵突破:AI 人類生成、用於動畫合成的大型語言模型,以及用於 3D 數位人類的 AI 渲染與模擬。

具身 AI 的應用場景

現在我們來談談具身 AI 互動的應用。第一個應用是讓每個螢幕都活起來。你會在這裡看到各種各樣的螢幕,我們有大型公共顯示器,我們也有零售行銷顯示器,我們有手機、電視等個人設備,以及桌面上的迷你螢幕。我們還有 AR/VR 頭戴裝置。

我們想做的是,利用這種具身互動,將所有這些設備轉變為具身 AI 代理人。我們已經將具身 AI 螢幕部署到不同的行業:醫院、展覽廳、陳列室、公共服務和車站。

我們也將具身代理人應用於零售和行銷展示。值得一提的是,我們現在正與中國頂級品牌合作,將電視變成 AI 助理。你可以在這裡看到結果。我們還與世界領先的 LED 製造商合作,將這種大型公共顯示器變成 AI 螢幕。

具身代理人的另一個應用,是為個人和企業用途的每個應用程式賦予生命。具身代理人可以在個人使用中扮演不同角色,他們可以是健身教練、英語老師、聊天機器人和 AI 伴侶。我們現在正與中國一家頂尖的聊天機器人公司合作,為聊天機器人賦予面孔、表情,甚至跳舞的技能。

我們還與一家財富 500 強的製藥公司合作,建立銷售教練。具身代理人也可以在您的公司中扮演不同的角色,他們可以是客戶支援、企業培訓師、銷售教練以及 AI 面試官。

我們還可以使用具身 AI 互動來驅動真實的機器人。我們一直與中國的一些人形機器人公司合作,賦予這些機器人直觀、互動的能力,讓它們可以成為展覽導覽員、酒店禮賓員、企業接待員和公共空間助理。

最後,我們還可以將任何數位 IP 賦予生命。無論是遊戲 NPC 還是數位 IP,我們都可以將它們變成活生生的、會話式的、富有情感吸引力的角色。

結語與未來展望

這是最後一張投影片。我們相信下一個時代將是具身 AI 互動和具身 AI 代理人的時代。ChatGPT 賦予了 AI 一個大腦,我們希望賦予 AI 一個身體。我們可以將無形的 AI 變成有形、有實體存在的 AI。

我們的願景是將每個應用程式、每個螢幕、每個設備都變成一個具身 AI。我們相信,在未來,每個人、每個企業、每個螢幕都將擁有自己的具身代理人。

這是 AI 的下一次革命。謝謝大家。

💡 對我們的 AI 研究助手感興趣嗎?

使用 AI 技術革新您的研究流程、提升分析效率並發掘更深層次的洞見。

了解更多