過去一年里,大模型技術在持續進化,作為 RTE 云服務行業的引領者,聲網也在不斷精進技術,豐富 RTE 產品版圖,探索 AI 與 RTE 相結合的無限可能。
10月25日下午,RTE2024 第十屆實時互聯網大會產品論壇專場正式拉開帷幕。聲網產品天團多位重磅大咖,全方位的展示了聲網當下最熱門、最受歡迎的產品與在 AI+RTE 時代下的行業實踐。
從 RTC 到 AI+RTE 產品10年的變與不變
數據顯示,2014年 RTC 在 MAU Top10000 APP 中滲透率不足1%,場景使用量不到20個。在聲網與眾多行業伙伴的驅動下,RTE場景和體驗快速升級。截止2024年,RTC 在 MAU Top10000 App 的滲透率已超過10%、場景使用數量超過300個,服務也從 QoS 進化到了 QoE。
從 RTC 行業建立到走向 AI+RTE 這10年,聲網的產品和方案能力體系有哪些變與不變?在 RTE2024 產品論壇上,聲網COO劉斌帶來了聲網產品的演進分享與思考。
他指出,隨著 5G 和終端設備的發展,從專線、專網到公共網絡,從硬件、SaaS 到 PaaS、云網能力,RTC 正在讓實時互動成為了一項通用能力。在劉斌的分享中可以清晰的看到,聲網最早成立時只有基礎能力層的公有云、核心層的RTC Core、以及拓展的社交娛樂場景能力3個產品。在今天的 AI+RTE 全產品和方案能力體系中,聲網不僅在網絡基礎層增加了私有云、混合云服務,RTE Core 層也增加了極速直播、云信令RTM、即時通訊IM以及最新的 AI Agent框架等。為了讓開發者更好的使用底層 API,聲網還將部分 RTE Extension 封裝成了更貼近業務的工具,并推出了覆蓋社交娛樂、在線教育、智能硬件、數字化轉型、直播電商、AIGC、出海等領域的場景解決方案。
在不斷探索 AI+RTE 的實踐過程中,聲網還打造了延遲最低、組裝定制最靈活的 AI+RTE 解決方案,能達到延遲低至500ms、支持隨時打斷&多次打斷,并提供 AI 降噪+背景人聲消除等能力,助力開發者打造 AI killer App。劉斌指出,隨著大模型能力的不斷提升以及與RTC能力結合之后將催生更多AI業態的發展。
回首10年,劉斌認為,實時互動場景的構建中,“體驗”是其中一個非常重要的部分。相比此前只追求連通率,是否有能力在不同編碼、不同清晰度、不同設備以及網絡下,做到高穩定、低延時、絲滑流暢、強同步以及優質的音視頻質量將成為整個行業的無止境追求。
場景化API助力開發者快速搭建實時互動場景
在開發者體驗上,聲網為幫助開發者快速集成高質量的實時互動場景,在今年推出了場景化API。聲網視頻娛樂產品經理陳際陶介紹,場景化 API 是面向客戶業務場景化的一體化開發工具包,通過簡單幾個 API 就能快速實現場景構建,并通過預設參數配置幫助客戶實現場景的最佳實踐。場景化API 具備四大核心優勢:簡化功能開發、上線即最佳、開源支持修改、數據上報完善透明。
從事社交娛樂 APP 開發工程師的都知道,由于 APP 更依賴用戶體驗、紅利期搶占刻不容緩的客觀事實,開發工程師經常會面臨減少異常,降低難度;縮短開發時間;滿足各個業務線既要、又要、還要的三大挑戰。
聲網視頻娛樂產品經理陳際陶認為,業務指標的達成要依賴于兩點,一是通過不斷迭代的用戶體驗完成轉化率提升,二是快速上線大家一致看好的新場景、新玩法,促進更多的新付費轉化。她指出,聲網場景化API正是基于這樣的邏輯誕生的,作為資深的B端服務商,聲網場景化API考慮到了所有開發者架構上的通用適配性,在保證底層 SDK 足夠靈活的同時,兼顧了各細分賽道開發者的易用性,同時還提供了 SDK 層的 Scenario API 供客戶一鍵調用最佳音視頻策略,進而滿足業務端口的既要、又要、還要。
目前,場景化 API 覆蓋了 5 大泛娛樂業務場景,包含1v1呼叫、美顏、K歌、直播秒開/秒切、音頻直播等,適用于企業期待快速完成開發上線的泛娛樂業務場景,并能跨級提升用戶體驗。
AI Agent 賦能實時互動行業萬象
10年時間,音視頻內容生產和消費趨勢也發生了翻天覆地的變化。從單向、雙向到多人互動,音視頻內容互動性越來越強;從離線到在線,從秒級到毫米級,音視頻內容消費延遲越來越低。
聲網 AI音視頻產品經理常云青介紹到,伴隨著音視頻的變化趨勢,聲網也一直在用各種產品去踐行“低延遲、強互動、超高清”的理念。在生成式AI時代到來的今天同樣如此,為了更好的賦能行業萬象,聲網基于各個行業客戶及開發者們大量的真實場景和需求,順勢推出了基于實時互動的 AI Agent 服務平臺。
聲網 AI Agent 是一套云邊端一體的 PaaS 服務,聚焦實時音視頻互動場景,結合市場上最優秀的模型能力,充分發揮聲網音視頻算法及 SD-RTN 的傳輸優勢,助力中小客戶快速搭建低延遲、高可用的人機交互應用,支持聽、說、讀、寫、畫、看等核心能力,并具備低延遲、高識別準確率、低成本接入和業務高度靈活四大核心優勢,適用于泛娛樂、教育、企業協作等多個行業場景。
在活動現場,常云青還展示了其利用聲網 AI Agent 生成的 Demo,其中對話式語音助手中的虛擬人對話完美呈現了類似真人的低延遲效果,并具備智能打斷能力;AI同聲傳譯同樣達到了真人同傳的體驗效果。
聲網 Video AI & Voice AI 的探索與應用
作為音視頻領域的實踐者,聲網在 Video AI 和 Voice AI 的探索就從未停止過。
聲網 Video AI 產品經理沈偲暐介紹,聲網在 Video AI 層面的探索與應用主要有以下幾點,如為成熟的數字人廠商提供傳輸上的質量保證,并通過開源模型和自研的算法,幫助廠商提升數字人在嘴形對齊、延遲、自然的商業化動作等體驗。在視頻理解上,通過 YOLO 物品檢測 + 眼神追蹤這種多模型串聯方式做過監考場景的內容審核等。
與此同時,聲網還推出了實時風格化解決方案。得益于聲網統一的 AI Agent 框架,該方案可以直接使用聲網產品矩陣中的多個前后處理功能,比如鳳鳴引擎、虛擬背景、超級畫質等,甚至還具備借用聲網平臺對接云市場中插件的能力,無論終端用戶在哪個平臺。都可以直接讓直播變得風格化。
沈偲暐表示,視頻的生成、增強、處理以及理解四個維度是 Video AI 與 RTC 的核心交集。從現階段的情況來看,Video AI 的發展道阻且長。Video AI 作為集大成者現階段還處于發展早期,如果沒有語言、音頻保證,用戶的交互體驗將很難推進。
聲網創新產品經理曹躍帶來了聲網 Voice AI 的分享,他指出,AI 過去幾年在音頻領域的應用主要集中在 AI 降噪、AI CoDeck 音頻處理等,但隨著大模型出現,音頻的體驗變得更加自然,聲網 Voice AI 也正在由音頻處理走向內容服務。目前,聲網 Voice AI 提供了包括語音到文本(實時語音轉文字、實時語音翻譯)、語音到語音(同聲傳譯、實時文本轉語音)以及內容處理的 AI Agent 產品(總結AI、對話AI)在內的一系列服務。
在分享聲網 AI Agent 解決方案時,曹躍特別強調,如果企業內 AI 助手的問答信息被用于大模型的二次訓練,企業的競爭優勢和運營行為就會被大模型復制,從而導致企業喪失競爭優勢。聲網 AI Agent 與其它應用的主要區別是能夠解決企業的數據安全顧慮,提供大模型私有域的支持,并可以通過就近部署、就近接入等方案,保持數據的安全以及優秀的交互體驗。
靈動會議、智能紀要,AI重塑會議體驗
隨著技術的發展,企業對會議安全、信息流和業務流的傳遞產生了更多的訴求。未來,云視頻會議融合、深入企業業務流、AI 深入會議場景或將成為會議行業發展的三個趨勢。
在此次的 RTE2024 產品論壇上,聲網靈動會議產品經理邰倫裕分享了提供豐富UI 組件、支持快速UI集成的聲網靈動會議。邰倫裕介紹到,開發者借助靈動會議僅通過4個方法和回調,就可快速實現UI定制,幫助企業大幅度降低了開發投入與集成時間。目前,靈動會議的功能覆蓋率已經實現了與行業標桿對齊,會中功能覆蓋率超過90%。能夠滿足包含遠程協作、在線教育、大規模企業會議在內到各種類型的會議需求。
“未來通過智能體、多模態的發展,或許可以更加充分地把會議基礎信息提煉出來,形成會議和 AI 的雙向匹配。或許未來有一天不用本人開會,會議就已經開完了。”邰倫裕展望到。
會議紀要產出作為開會過程中一個耗時耗力的問題,如何更快更好更低成本的產出成了行業面臨的共同挑戰。聲網AI云平臺產品經理楊超陽指出,可以幫助會議瘦身、助力決策高效的“聲網智能紀要”解決了行業中聽、寫和整理三個環節里核心面臨的問題。
聲網智能紀要采用了可插拔的靈活架構,兼容行業頭部和自研的自動語音識別(ASR)技術和大語言模型(LLM),結合高質量的實時通信技術與前沿的音頻采集算法,實現了高品質、低成本、超好用的會議紀要能力。相較于其他紀要服務提供商,聲網智能紀要還解決了用戶擔心的安全隱私問題,通過傳輸鏈路加密協議保障用戶數據私有,采用高可用框架保障客戶的數據安全和高可用。
他指出,聲網“智能紀要”已在內部投入使用近一年,后續將會以“會議場景集成接入”的形式開放給更多客戶使用。
實時數據質量透明和實時應用快速構建
解決實時數據行業的質量透明、幫助RTE領域快速構建實時互動應用是聲網兩個重要的探索方向,在此次的產品論壇上,聲網AI云平臺產品經理楊超陽和聲網后端產品經理孟小玉分別分享了聲網在這兩方面的進展。
楊超陽指出,質量透明是實時數據行業的生命線,服務狀態同步是質量透明的必經之路。為了守住這一生命線,聲網一直在質量體驗優化和質量透明方面持續重點投入,并成功推出了集中展示聲網重要產品及服務實時運行狀態、用戶體驗質量及影響可用性故障事件、維護通知的聲網健康看板(Status Page)。
相比于傳統的 Status Page,聲網健康看板在狀態展示上根據國際電信級質量評估標準,構建了 QoE 指標體系,可以更加客觀的反映當前服務是否可用、好用。在實時性上,更是超越了傳統云服務。在高效同步上,從告警發生,到事件過濾、處理、同步,可以做到15min內完成。與此同時,聲網健康看板還具備支持回查十年后的當前事件,并提供了7*24小時全球運維保障等優勢。
在實時應用的快速構建上,孟小玉帶來了聲網 RTM2.0產品的分享。他指出,聲網 RTM 現在已經成為 RTE 領域最重要、最不可或缺的基礎組件產品,以及快速構建實時互動應用的必備產品。在行業應用上,RTM2.0覆蓋范圍也涉及到了在線醫療、智能設備、多人游戲、物流與運輸等領域。
私有化平臺2.0助力數字化轉型
數字化轉型近年來一直是 RTE 大會的焦點。在今年的產品論壇上,聲網私有化平臺產品經理任政再次帶來了新的思考。他指出,在傳統 IT 架構進入轉型升級期、國家對特殊行業嚴格監管要求提升等大背景下,私有化將成為數字化轉型浪潮里不可或缺的重要能力底座。一套支持軟硬解耦、開源兼容、可持續演進式的架構體系對于企業數字化轉型來說尤為重要。目前,聲網 RTC 私有化平臺就具備標準化產品、輕量化運維、可持續演進的優勢,并在各種規模架構支持上進行了全面的覆蓋與成功案例實踐。
任政表示,要真正實現數字化轉型的期待,就必須推動私有化平臺從1.0邁入2.0,解決過去定制化、重運維、煙囪林立以及業務封閉等問題。新一代私有化平臺不僅要具備產品標準化、服務普適化,還需要把私有化平臺作為政企統一管理底座的其中一環去做整體設計,才能滿足不同部署方式的靈活切換,與各種平臺和終端的適配,最終支撐起海量的業務場景。
關于私有化平臺下 AI 的發展方向,任政認為,通用模型的訓練方式肯定不足以應對各種各樣的場景,私有化部署的數據庫、私有化下的 Infra 設計最終一定都會落地到私有化平臺。
可以看到,無論是 AI 的爆發,還是泛娛樂、教育、數字化轉型、IoT 等場景的演進,聲網持續在 RTE 領域做出革新和深耕。未來,在生成式 AI 能力的加持下,聲網持續的產品迭代與創新將助力各行各業邁上新的臺階。
【免責聲明】【廣告】本文僅代表作者本人觀點,與和訊網無關。和訊網站對文中陳述、觀點判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。郵箱:news_center@staff.hexun.com
最新評論