12月11日,由量子位舉辦的MEET2025智能未來大會在北京圓滿落幕,大會也同步公布了2024人工智能年度評選,聲網憑借在 RTE+AI 領域的杰出探索,榮膺2024人工智能年度領航企業、2024人工智能年度杰出解決方案兩項大獎。
本次評選于今年9月啟動,在3個月時間里,共有數百家企業、機構和個人報名參與評選。最終,以真實數據為基礎,結合量子位對數百家 AI 公司的深入調研,以及數十位行業知名專家的意見,得出最終榜單結果。
在Gen AI 的浪潮下,實時多模態成為大勢所趨,聲網作為全球實時互動云行業的開創者,在音視頻領域積累了深厚的技術優勢與場景實踐,通過將 RTE 與 生成式AI 結合,推出了聲網 Conversational AI Agents ,該方案以語音為核心,支持視頻擴展,實現文本/音頻/圖像/視頻的組合輸入&輸出,具備500ms超低延時、對話更自然擬真、框架靈活可拓展等一系列特性,幫助開發者與企業快速構建適配自己業務場景的 AI 實時語音對話服務。
AI語音對話延遲低至500ms支持智能打斷
超低延時語音對話是聲網 Conversational AI Agents 解決方案的一大核心優勢,通過在客戶端進行低延遲的音頻采集和播放,借助聲網自研的 SD-RTN? 實時傳輸網絡實現全球范圍的低延時 RTC 傳輸,語音對話延遲低至 500ms,并進一步通過更快速的 LLM 推理首字耗時、低延遲流式 TTS、同機部署等一系列技術手段,保證對話的實時性與流暢性,達到近似人與人之間日常對話停頓與間隔。
在真實的語音對話中,打斷對方并提出新疑問是很常見的現象,而在 Gen AI 場景,能否支持隨時打斷也成為衡量大模型智能化的重要指標。聲網自研的 AI VAD 技術,適應人類對話的停頓、語氣和對話節奏,支持 AI 對話過程中隨時打斷。
領先的音頻處理讓AI 對話更“聽得清”
在人與人音視頻通話的過程中,經常會遭遇環境噪音,影響溝通效率。在Gen AI 場景中,環境噪音同樣無法避免。聲網的解決方案具備業界領先的音頻3A能力,即使在嘈雜的環境中,也能通過 AI 噪聲抑制、背景人聲過濾、音樂檢測/過濾等算法,確保人與 AI 的對話不受環境干擾,始終保持順暢,AI 也更聽得清人說的話。
靈活可擴展的AI Agent架構支持快速接入
AI Agent 作為大模型的應用框架,其重要性不言而喻。而開發者經常會根據自身的喜好或者業務場景選擇不同的組件搭配 AI Agent。對此,聲網的解決方案采用了靈活可擴展的 AI Agent架構,兼容市場主流的 ASR、LLM 和 TTS 技術,并具備工作流編排能力,幫助開發者與企業根據特定需求定制和擴展 AI 驅動的實時互動體驗。
同時,這套方案支持 API 快速調用,提供開箱即用的場景化 Demo,最快 3h 即可實現方案快速驗證,并提供端到端 SDK,同樣適用于針對目標場景化業務開發,尋求整套技術方案的客戶。
聲網 Conversational AI Agents 架構圖
目前,聲網已與國內外多家 AI廠商展開了合作,借助 Conversational AI Agents 幫助客戶實現了對話式AI 在智能助手、虛擬陪伴、口語陪練、語音客服、同聲傳譯、智能硬件等多個場景的落地。例如虛擬陪伴場景,通過 AI 虛擬伴侶,在社交陪聊、親情陪伴、游戲 NPC 等場景中提供 7x24h 時刻在線服務,可自定義人設、聲音、形象等模擬真人聲音及情感,為用戶提供情感支持、心理慰藉以及陪伴。
口語陪練場景,通過擬人化的 AI口語老師,在外語考試、語法鞏固、語言學習等場景提供更高性價比的外教陪練服務,借助定制化的分級語料訓練,為不同流暢度的學員提供個性化的多語言發音指導。
【免責聲明】【廣告】本文僅代表作者本人觀點,與和訊網無關。和訊網站對文中陳述、觀點判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。郵箱:news_center@staff.hexun.com
最新評論