2024 年被視作具身智能發展“元年”,全球科技界紛紛搶灘布局。自艾倫·圖靈 1950 年提出相關概念,經多年沉淀,在大模型與生成式 AI 助力下,具身智能從理論邁向應用,成為當前全球人工智能領域的前沿熱點和新浪潮。
國際上,科技圈大佬馬斯克、黃仁勛等積極推動,谷歌發布 RT 系列機器人模型,RT - H 任務成功率顯著提升;英偉達成立 GEAR 實驗室,推出 Project GR00T 及 Jetson Thor 平臺;微軟、OpenAI 也投身浪潮。特斯拉擎天柱機器人更是大顯身手,從日常瑣事到工業應用,潛力無限。
國內同樣呈噴薄之勢,2024 年上半年超 50 家具身智能概念創業公司涌現,融資活躍。其中,如智元機器人、星塵智能、逐際動力等在人形機器人研發成果斐然。
具身智能之所以備受矚目,在于其擁有更強認知與決策力,能在復雜環境自如交互、執行任務,在不遠的將來,具身智能產品能夠像電腦、手機、汽車等工具一樣,大規模進入到人們日常生活中,大幅延展人類的感知、認知、行為范圍。更進一步,具身智能能夠突破人類的限制,作為人類探索世界新的方式,幫助人類更深刻的理解世界。
由此,具身智能將數字世界與物理世界相連,未來必將深刻重塑各行各業,開啟一個充滿無限可能的全新智能時代。據36氪研究院測算,我國具身智能的市場規模已從2018年的2923億元增長至2023年的7487億元,年復合增長率高達20.7%,并且有望在2026年突破萬億。
數據瓶頸:制約具身智能發展的枷鎖
然而,在這一片欣欣向榮的背后,具身智能行業的發展之路卻并非坦途。當前,行業面臨著諸多棘手的痛點,尤其是在數據訓練與仿真這一關鍵環節,存在著嚴重的不足。
在具身智能領域,當前主流的較為成熟的實現方案停留在模仿學習,而在研的技術路徑包括強化學習、VLA、大腦+小腦雙層架構、通用具身智能基石模型等。而無論采用哪種技術路徑,行業共同面對的問題卻是相同的:1、缺少高質量的訓練數據;2、缺少高真實性的閉環仿真器。
由于具身智能算法的特殊性,其對于訓練數據的要求非常高。以Manipulation場景來說,可用來作為訓練的數據需求一般為:1、需要基于特定的視角;2、需要更高的數據維度(空間視頻、力反饋數據);3、對于特定task的多樣化視頻。這使得海量的互聯網數據幾乎完全無法使用,只能使用價格昂貴的遙操采集設備,昂貴的人力成本,在真實世界中進行數據采集。
另外具身智能應用場景的緣故,其對閉環仿真也有特殊要求。以Manipulation場景來說,1、對于仿真器對于多物體之間,基于物理特性的交互特征的仿真真實性要求極高。而“物理特性”真實性是當前仿真器實現上的難點。2、由于Manipulation操作發生在距離較近距離的物體上,因此仿真需要對近處物體有非常準確和足夠真實性的展現。而當前大家常用的仿真器往往在Physics和Appearance上都存在程度不一的sim2real gap。導致在具體使用時,或者需要花費大量的成本進行仿真與現實的標定,或者得到不置信的仿真結論。
因此,建立仿真平臺對于具身智能至關重要,因為它們提供了成本效益高的實驗方式,確保了通過模擬潛在的危險場景的安全性,為測試在各種環境中提供了可擴展性,快速原型設計的能力,對更廣泛的研究社區的可訪問性,精確研究的受控環境,用于訓練和評估的數據生成,以及用于算法比較的標準基準。
世界模型:解決數據瓶頸問題的全新思路
對于制約具身智能發展的數據瓶頸,2024 年,AI 教母李飛飛發布的空間智能及相關大世界模型,猶如一顆重磅炸彈,在自動駕駛及更廣泛的具身智能應用場景中展現出了巨大的發展與應用潛力,為解決數據瓶頸問題提供了全新的思路。
與生成式 AI 工具生成的 2D 內容不同,李飛飛的世界模型開啟了從數字世界向物理世界的跨越征程,實現了從一維數字智能向三維空間智能的重大轉變。按照李飛飛的闡釋,空間智能意味著 AI 能夠在三維空間與時間維度中,以立體的視角進行感知、推理以及行動,并切實地與現實世界產生互動交流。
因此,基于空間智能技術,天然可以構成高質量的通用仿真器。更進一步,基于空間智能對于空間的理解和推理,可以大規模的生成高質量的遙操數據,這樣就從根本上的解決了數據瓶頸。禁錮在算法之上的兩大瓶頸得以接觸,具身智能將會大大加速進化。
世界模型在具身智能的潛在應用范圍極為廣泛。以自動駕駛為例,世界模型可以實時精準地把握道路狀況,并對其變化趨勢進行精確預測,重點聚焦于對環境的瞬時感知以及復雜變化趨勢的預估判斷。
在人形機器人領域,世界模型對于導航、物體識別檢測以及任務規劃等關鍵任務起著不可或缺的作用,可以精準地解析外部動態環境,并構建具有交互性和實體體驗感的環境場景。而在虛擬社會系統模擬方面,世界模型可以敏銳地捕捉并預測更為抽象的行為動態,諸如社會交往互動以及人類決策制定等過程。
極佳科技:打造新一代4D世界模型
由于地緣政治影響,國內率先布局世界模型和空間智能方向的先鋒企業,可對標李飛飛World Labs,進行國產替代的的極佳科技引發廣大關注度。該公司聚焦于視頻生成與 4D 世界模型在空間智能領域的探索與拓展,并已在商業層面均收獲顯著成果,收獲了知名度與口碑。
極佳科技基于空間智能技術,打造了新一代4D世界模型產品。具體來說,4D世界模型能夠將低質量的數據例如圖片、單目視頻等,基于文本prompt、圖片、結構化信息等約束條件,可控的生成高質量可交互的4D場景。基于可交互的4D場景,既可以經過簡單變換、泛化,轉換為海量的高質量訓練數據。同時,可交互的4D場景天然也是高精度的仿真環境,可以作為強化學習、模仿學習等多種算法訓練、評測所使用。
近日,極佳科技聯合北京大學、理想汽車及中國科學院自動化研究所聯合推出 了DriveDreamer4D和ReconDreamer,實現了自動駕駛場景自由視角重建+生成。DriveDreamer4D 可以大幅度提升多種自動駕駛 4D 重建算法的效果,在 user study 實驗中獲得了超過 80% 的偏好投票; ReconDreamer 僅需要單視角視頻輸入,即可通過同時重建+生成構建逼真的 4D 世界,第一次實現了平移 6 米范圍的高精度渲染,推動這一領域從靜態跨越至動態,從單點擴展到全域通用,這些工作為走向空間智能和 4D 世界模型邁出了堅實的一步。
正如同李飛飛及其團隊在空間智能模型中展現的革新一樣,極佳科技通用視頻重建 4D 世界,不僅讓人能無限探索空間,更標志著 AI 在重建與理解場景方面邁入全新階段。
ReconDreamer 的整體框架
極佳科技是國內第一家實現世界模型商業化應用的企業,通過與理想、小鵬、廣汽、億咖通、地平線等多家主機廠的量產合作,展示了其技術在自動駕駛場景中的領先應用實力。在近期現代汽車集團創新計劃頒獎典禮上,極佳視界憑借 4D 世界模型與視頻生成領域的創新成果,榮膺“燈塔”創新開放計劃“創新企業獎”。
具身智能:有望在世界模型的賦能下蓬勃發展
具身智能機器人「大腦」在一定程度上和自動駕駛相似,在開放場景和路徑規劃上具有一定的遷移性。同時,具身智能機器人和自動駕駛的技術在算法層面也是相通的。
基于在智駕場景下的技術沉淀,在具身智能領域,極佳科技更進一步,在呈現重建的能力之上,引入了可微物理引擎核函數,并將可微渲染能力、可微物理能力融入到統一生成模型中,創建更接近真實世界的虛擬訓練環境。具體結構如下:
可微渲染與可微物理的融合,構成了真正意義的learn-based仿真器。這也是創造性的,基于生成模型進行可解釋的、符合物理規律的空間推理。
展望未來,極佳科技致力于將視頻生成提升到 4D 世界模型,賦予 AI 大模型對于 4D 空間的理解、生成、常識和推理的能力,實現 4D 空間中的交互和行動。極佳科技的4D世界模型會繼續朝更加通用泛化、更加高效的方向持續進化,推動與具身智能技術的深度融合,探索更多元的應用場景,為通用智能的實現奠定基礎。
【免責聲明】【廣告】本文僅代表作者本人觀點,與和訊網無關。和訊網站對文中陳述、觀點判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。郵箱:news_center@staff.hexun.com
最新評論