在當今數字化時代,多模態技術正以前所未有的速度改變著世界。而在這場科技浪潮中,國產視頻大模型正悄然走在前列,成為全球科技創新的重要力量。
2025 年 3 月 29 日,在全球科技創新交流合作的國家級平臺——中關村論壇上,清華大學人工智能研究院副院長、生數科技創始人兼首席科學家朱軍教授,發布的高可控視頻大模型Vidu Q1成為焦點,這一關鍵科技成果的發布標志著國產視頻大模型邁向了新的高度,為AI視頻生成走向“高可控”時代指明路徑。
中關村論壇作為匯聚全球頂尖科技資源與創新智慧的重要平臺,一直以來都是前沿科技展示與交流的絕佳舞臺。2024 年 4 月,在中關村論壇未來人工智能先鋒論壇上,生數科技聯合清華大學正式發布了中國首個全面對標Sora的視頻大模型 Vidu,這一創舉在當時便引起了業界的廣泛關注,開啟了國產視頻大模型發展的新篇章。時隔一年,生數科技再次回歸中關村論壇,帶來了更為強大的 Vidu Q1模型,它在高可控方面的進展不僅是對自身技術實力的又一次突破,更是國產大模型在全球舞臺上崛起的重要標志。
在本次中關村論壇上,朱軍教授發表了主題為《中國多模態生成的全球引領》主旨演講。演講中,朱軍教授強調了國產視頻大模型在全球科技競爭中所扮演的關鍵角色及取得的多次技術突破,同時也分享了作為先行者的生數科技基于實際探索和預測的Vidu未來發展路徑,可以清晰地看到多模態技術在虛實結合、與物理世界交互等方面的更多可能。此次 Vidu Q1 模型的發布,不僅展現了中國在視頻大模型領域的深厚技術積累,更彰顯了國產大模型在全球范圍內的引領實力。
Vidu Q1 作為業內首個高可控 AI 視頻大模型,其在多主體細節可控(特別是動作、布局可控)、音效同步可控、畫質增強等方面均取得顯著成效,這使得它在眾多視頻大模型中脫穎而出。
以多主體細節可控為例,在語義指令的基礎上,通過融入參考圖的視覺指令,Vidu Q1支持對場景中多主體的位置、大小、運動軌跡等屬性進行更進一步的可控,對所有動作行為(出場、退場、坐立姿態、行動路線)進行精準調整。用戶能夠明顯體驗到用更低的抽卡率實現更高質量的可控生成。
音效同步可控功能則確保了隨著視頻環境與畫面轉場,Vidu Q1能夠輸出生成相應音效,并可精準控制每段音效的長短區間,精準設置每段音頻出現的時間點,如0-2s風聲、3-5s雨聲等,節省時間的同時,也大大增強了視頻的沉浸感與感染力。
Vidu Q1模型通過進一步增強畫質,則能夠為用戶帶去更加清晰、細膩、逼真的視覺體驗。
Vidu Q1 的發布,不僅為視頻內容創作領域帶來了革命性的變革,也為眾多行業的AI重構提供了全新的思路與解決方案。
一直以來,AI視頻生成過程中的隨機性都是老大難問題,Vidu Q1針對AI視頻生成的痛點,通過技術手段引入多元素控制,它不再是沒有頭緒的亂生成,而是到了人為可控,這就讓AI視頻生成與當下精益求精制作逐漸趨向一致,對于追求極致的人來說,這是一個新的里程碑。
在動漫領域,通過對角色、物體、場景等的精確控制,能夠讓創作者快速生成高質量動畫。日前好萊塢知名動漫工作室Aura Productions選擇與Vidu合作,計劃制作50集動畫短劇,其背后正是看重了Vidu在多主體一致性等可控生成方面的世界領先優勢。
在廣告領域,傳統廣告制作流程復雜,通過視頻大模型的高可控性,可以精準呈現品牌元素和創意概念。
在影視短劇領域,Vidu的高可控生成能力則可確保短劇畫面中角色和場景的連貫性。在更多領域,Vidu正在重構千行百業,創造更多可能。
此次生數科技Vidu Q1的發布,使世界看到中國科技創新公司通過堅持科技自立自強賦能新質生產力的發展。期待中國的AI視頻生成賽道玩家能夠持續在世界舞臺上舞出風采,在百家爭鳴中,實現中國多模態技術的極大發展和人人可感知到的現實應用。
【免責聲明】【廣告】本文僅代表作者本人觀點,與和訊網無關。和訊網站對文中陳述、觀點判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。郵箱:news_center@staff.hexun.com
最新評論