2025,當AIGC技術進入全面落地階段,Agent為核心的智能應用成為行業發展新焦點,一個關鍵瓶頸問題浮出水面:技術雖然可行,但成本過高限制了大規模普及。
在第三屆AIGC產業峰會上,PPIO派歐云聯合創始人兼CEO姚欣提出了“讓免費成為可能”的產業命題,直面當下AI應用面臨的最大挑戰。
他以移動互聯網發展歷程為鏡鑒,指出AI行業同樣需要經歷一場“提速降費”的洗禮,才能真正實現應用爆發。而要實現這一目標,需要在三年內完成“千倍降本”的行業壯舉。
這不僅是一個愿景,更是PPIO正在用技術落地驗證的發展路徑。在全球Token消耗量呈指數級增長的背景下,如何用創新的技術架構實現成本的大幅下降,或將決定整個AI產業能否真正迎來普及之年。
話題要點
2025年行業焦點已從大模型本身轉向應用落地,特別是以Agent為核心的應用體系發展。
雖然技術上可行,但智能體任務的Token消耗比傳統對話高出數百甚至上千倍,導致成本大幅增加。
中國互聯網用戶習慣了免費模式,約95%的用戶不愿意付費,這對AI應用普及提出了嚴峻挑戰。
AI時代需要提速降費,類比移動互聯網發展過程,行業需要實現“三年千倍降本”才能促進大規模普及。
以下為姚欣演講全文:
Agent落地成本百倍增加,中國付費用戶習慣難買單
謝謝各位,很榮幸能夠來參加2025年AIGC的產業峰會。我今年的演講主題就是“免費”,讓免費成為可能。
2025年大家好像形成了一致的觀點:如果去年還在講大模型、應用能力等,可能今年整個行業的關注度都開始轉向到應用落地,而這里面也在展望著下一代的應用體,特別是以Agent為核心的整個使用、發展、落地,這可能是2025年我們行業內最關注的領域。
年初一系列新的應用,從DeepSeek的出圈到Manus的落地,我們也能看到一點AI應用落地曙光,但其實成本是不可忽視的存在,也是應用落地時代我們必須得面對的一件事情,技術上能達成,但是不是能不能大規模使用,成本非常關鍵。
為什么會有這樣的變化?同樣都是基于這些模型底層能力,但今天我們要想做一個智能體,完成一次智能體的任務調用,它所需要使用Token的數量,比之前做一次文字的對話,這個數量可能提升了上百倍,甚至上千倍之多。
左邊這張圖也是上個月中旬的時候,英偉達GTC大會,黃仁勛演示的圖像,他講的是reasoning模型,比如像DeepSeek的R1這種模型,它去回答一個問題,它需要消耗Token的數量是傳統LLM模型將近20倍之多,這僅僅只是回答一個簡單的問題。我們試想智能體是要代替人去執行很多的網頁的讀取、任務流的拆解,還做很多邏輯的分析和判斷。由此可知,整個Agent任務體的消耗也是非常夸張的數字。
右邊這張圖我們看到了很多reasoning模型,因為今天智能體的底座很重要是要看這些reasoning模型的使用成本。
在這之中,價格最低的DeepSeek也要達到88美金,最高的OpenAI的API要再貴幾十倍以上。巨量消耗必然帶來成本提升,這也很正常,因為今天要想獲得更好的效果總得有所付出。這讓我想到在20年前做PPTV的時候,那個時候面臨最大的問題——當年的互聯網還停留在文字門戶時代,主要是用于大家看看網絡新聞。當你要用視頻的時候,你發現最大的瓶頸是基礎設施,基礎設施根本跟不上應用的發展。我覺得今天的應用開發者應該有類似的感受。
第二個原因,我們來看看需求側、使用者的心理。我自己也是一名普通的用戶,曾經是一名知名APP的開發者,我覺得最后必須屈服的一件事情是中國互聯網用戶的使用習慣已經被固化了。再準確講,我們的胃口已經被養得非常刁鉆了,“免費”基本上是過去20年從PC互聯網到移動互聯網,中國互聯網愿意接受大規模應用的一個前提。
即使在移動互聯網時期,開始有很多的付費模式,內容付費、知識付費。如果你放到億萬的用戶群體,做一個Super App的話,你會發現真正的付費用戶還是少數,可能只有3%~5%,95%以上的用戶使用免費的商業模式——通過看廣告、或者使用上面一些增值業務,這種方式去使用,這可能是主力。即使在我們公認最強勁的內容領域、游戲領域,付費率依然如此。
只有AI基建提速降費,才能助推Agent大規模使用
今天大家都在關心AI應用能不能普及。我覺得AI應用普及的一個前提是,我們必須讓95%以上的用戶免費使用AI。這樣用戶行為才會是真正大規模使用的用戶行為。
2025年中國AI應用要怎么迎來爆發?背后關鍵是:AI時代需要提速降費。
提速降費,在移動互聯網時代,就是一個非常重要的名詞。我們的互聯網,包括手機的資費流量,經過了國家主導多年的提速降費。
在2014年,想要使用移動流量,在手機上看個視頻、新聞,當時1個GB的流量成本達到了上百塊錢。到了2021年,整個成本實現了90%+的下降,降到了以前的個位數。
這件事情極大助推了整個移動互聯網的普及,移動互聯網的使用流量也實現了數千倍的提升。
基礎通信資費的提速降費過程中,一系列應用迎來爆發,走到了今天。這是移動互聯網的經驗。我覺得今天AI的應用普及也得經歷一個類似的過程。
斯坦福剛剛發布的AI報告里提到,以2022年推出的ChatGPT-3.5為例,到了2024年,Llama-3.1的8B版本已經可以與之打平,整個使用成本也從當時的20美金降到了現在的7美分。
從這樣的數字比例來講,同樣性能的模型在這兩年多的時間里面,整體使用價格大概降到了原來的1/280。這個指標挺驚人的。
但值得關注的是,今天模型的性能還在不斷提升,單位模型或者任務里面的token消耗,在成千倍、上萬倍地同步增長。這樣的情況下,我們意識到,成本還需要下降得更多。
PPIO認為,這個行業平均每一年同類模型的性價比,或者說使用成本,要降至上一年的1/10。從去年開始,我們看到的是未來三年千倍降本的趨勢,280多倍,才只是走到了半山腰。
軟硬一體化才能實現千倍降本
這里讓我想到了喬布斯,喬布斯在2007年推出第一代iPhone,引用了硅谷先驅Alan Kay的一段話:那些真正熱愛軟件的人,總會設法打造自己的硬件。
我們想想2007年誕生的iPhone,那是第一臺真正意義上的智能手機,同等性能的智能手機能大規模普及要等到幾年以后,為什么2007年就能夠誕生一個超出當時時代的智能手機?最重要的地方是蘋果這家公司,它不僅僅做硬件很優秀,做軟件也很優秀,更為難得的是能實現軟硬一體化。由此,它能領先安卓陣營四五年,推出一款足夠震撼的智能手機。
對應來看,今天如果要想實現AI大規模應用和大規模的降本,今天的AI Infra公司必須要成為最懂上層模型和應用的底層的硬件基礎設施公司,這就是PPIO的定位,我們要成為性價比最高的Infra公司,我們要為這個行業帶來極高彈性的性價比。
當然我們也把整個業務類別和技術棧不藏私地給大家做介紹和分享,介紹一下我們怎么看今天的AI降本。
當下AI降本不僅只是簡單的某一個軟件技術,做模型壓縮、使用一整套開源推理框架,或者說具備充足算力、買到了最先進的卡。僅僅實現這些單項能力不足以讓你實現千倍的降本,要實現它必須具備端到端全棧能力。
目前迭代最快的應該還是上層模型、軟件,我們團隊在兩年多前開始追蹤第一代開源大模型,持續跟進和積累。PPIO也跟一系列的主流開源推理框架,包括vLLM、SGLang等達成了戰略合作。我們也在開源的肩膀上進行更多的模型的整合。最近推動包括將DeepSeek向主流開源框架進行融合,讓更多開源模型跑在更多的開源框架,適配更多硬件,實現成本進一步地優化。
僅僅只是實現模型的推理加速還遠遠不夠,今天你要實現大規模的用戶調用,用戶的需求是從全球各地、全國各地,海量彈性產生的,根本無法預知哪里流量多,哪里流量少。
這意味著必須有一整套全局分布式的算力調度系統,而且這種算力調度系統應對的可能是海量用戶請求,千萬級、甚至上億次用戶請求在快速產生。
今年年初當大家在過春節的時候,我們這一系列云公司過了很多個不眠夜,DeepSeek-R1選擇春節期間發布,把我們所有工程師難倒了。而且春節期間內,DeepSeek自己的官方應用,七天時間實現了1億次用戶下載。但是我們也看到它的官方應用遇到了巨大挑戰。基本上每天到了下午和晚上的時候,這個服務是不可用的。后來從DeepSeek官方公布的流量圖可以看到,幾乎全天流量都是100%占滿。100%的使用率意味著什么?意味著可能大量用戶請求已經被丟棄掉了。
我們團隊脫胎于4.5億用戶的APP,有10多年的云和大規模應用的服務經驗。所以PPIO利用大型彈性能力、公有云能力和分布式算力調度網絡,在春節期間,在平臺上實現了商業托管DeepSeek服務99.9%的可用性。這在行業里面來看是保持絕對領先的。
這一系列能力的實現,也離不開底層的資源和積累。跟大多數的云計算公司都是自建的數據中心不一樣,PPIO派歐云的定位是去跟大量的數據中心閑置資源進行對接。
我國是一個基建大國,數據中心的數量可能是全球之最,大量的城市,甚至包括很多企業都建設了大量的數據中心、智算中心。這些智算中心的平均利用率只有50%左右,甚至更低。
所以PPIO不生產或者不用制造更多的算力,我們會去跟今天已有的算力提供方對接,把他們的閑置算力和未充分使用的算力融合進來。現在我們已經對接了4000+算力節點,覆蓋1200+城市,可以給全國用戶提供10毫秒的算力響應。
我們也在上層實現了優化和降本的策略,包括剛才提到的算力的分時調度、分區域調度,將更多東部的請求調度到能源價格更加低廉的中西部地區,包括在一個省內進行調度、一個市內進行調度,將更多的需求調給這些閑置的資源。
其次我們也會利用好今天大量的硬件。做推理跟做訓練,對算力的要求截然不同。我們希望最快速完成訓練,一定用最先進的卡、最好的服務,千卡萬卡并聯。但是做推理,很多時候是單機就可以實現的。即使是DeepSeek(671B)這樣的模型,兩臺服務器、16張卡也可以實現最基礎的推理。
因此大量老舊的訓練卡,比如像A100等,其實可以用來做很好的推理。如何去挖掘這些今天還在發光發熱的老舊硬件,把它的性能用于更優化的推理,也是我們重點攻關的方向。
基于這樣的特性,我們能看到在過去兩年時間,PPIO派歐云提供的整個AI推理服務,每一年都能實現9-10倍的成本的下降。
最后講一個案例,也算是我們整個成本下降的曲線,比如以去年6月份發布的Llama-8B模型為例,剛上線的時候我們定價是0.1美金,到去年年底,價格已經降到了4分錢,差不多在未來兩三個月內會降到1分錢,一年時間里面將它的使用成本打到1/10。
在這樣的能力下,我們也支持非常多的Super APP,為海內外很多優秀的應用和AIGC開發者提供服務。包括我們跟著名的招聘網站、做小說推文的APP進行合作,也大幅降低了他們的使用成本。同時也支撐住了百萬、甚至千萬用戶級的涌入和增長,實現了成本和增長的平衡。
到今天我們平臺每天Token消耗量已經突破了千億次,而且每個月還在保持超過50%的增長。
我相信這張圖也會像移動互聯網早期一樣,在未來3年畫出非常陡峭的曲線。PPIO也希望憑借努力能讓免費的行業模式走到更多AI應用企業里去,通過三年千倍的降本開啟AI時代的提速降費。
【免責聲明】【廣告】本文僅代表作者本人觀點,與和訊網無關。和訊網站對文中陳述、觀點判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。郵箱:news_center@staff.hexun.com
最新評論