近日,全球語音、聲學頂級會議ICASSP 2022公布了論文入選名單,網易互娛AI Lab共3篇學術論文被接收,并受邀于會議上面向學術和工業界進行研究報告。ICASSP(International Conference on Acoustics, Speech and Signal Processing)即國際聲學、語音與信號處理會議,是IEEE主辦的全世界最大的,也是最全面的信號處理及其應用方面的頂級會議,在國際上享有盛譽并具有廣泛的學術影響力。
此次論文入選是網易互娛AI Lab繼INTERSPEECH 2020國際聲紋識別冠軍、第六屆OLR東方識別國際競賽雙賽道冠軍和被INTERSPEECH 2020&2021收錄3篇論文后在語音信號處理領域又一新的里程碑。在取得理論研究突破的同時,網易互娛AI Lab研發的語音合成、語音識別、語音控制以及語音變聲&轉換技術等相關技術,已成功在《夢幻西游》、《哈利波特:魔法覺醒》、《陰陽師》、《天下3》、《狼人殺》等多個游戲項目中落地,助力豐富游戲玩法并提升游戲體驗。
收錄論文概述
1、DATA AUGMENTATION FOR LONG-TAILED AND IMBALANCED POLYPHONE DISAMBIGUATION IN MANDARIN
業務應用:提升語音合成中發音的正確性。
多音字是中文的常見現象,為了正確合成文字發音,多音字消歧是必不可少的重要步驟。但在真實數據中,多音字讀音出現的頻率呈現明顯的長尾分布和非平衡現象(如上圖所示),導致多音字消歧模型在長尾數據上錯誤率通常較高而成為一件十分具有挑戰性的工作。
算法設計如下圖所示:
在論文中,我們提出了一種基于BERT預訓練模型對多音字數據進行增強的方法,通過mask原句并用BERT預測替換的方式,可以生成新的增強數據。結合有權重采樣(weighted sampling),可以得到類別平衡的數據,從而解決多音字長尾問題。同時,論文還提出了一種基于BERT的增強數據過濾策略,減少反復增強可能帶來的數據噪聲問題。最終的算法方案在不平衡讀音和長尾讀音的場景下相比基線有12%以上的提升。
2、DGC-VECTOR: A NEW SPEAKER EMBEDDING FOR ZERO-SHOT VOICE CONVERSION
業務應用:提升零資源音色轉換的說話人相似度,為公司內部提供音色轉換技術支持。
算法設計如下圖所示:
該論文結合了預訓練的說話人識別模型(Pre-trained ASV Model), 語音風格建模中的GSTs (Global Style Tokens)和說話人分類器,提出了一種適用于零資源語音音色轉換的說話人向量。實驗證明, 該方法對比常用的說話人表征向量D-vector在音色轉化后的說話人相似度方面有5%的提升,在跨說話人轉換的場景下提升達到12%。
3、IMPROVE FEW-SHOT VOICE CLONING USING MULTI-MODAL LEARNING
業務應用:提升少量數據音色克隆效果,為公司內部提供音色克隆技術支持。
算法設計如下圖所示:
該論文提出了使用多模態,多任務學習提升在少量數據的場景下音色克隆的效果。論文提出的模型主要包括兩個模塊:
(1)基于VQ-VAE(Vector-Quantized Variational Auto-encoder)的無監督語音表征模塊
(2)基于Tacotron 生成語音波形的模塊
實驗證明,在少量數據的音色克隆場景下,該模型融合了語音和文本兩個模態,對比單一模態的模型在語音合成和語音音色轉換中的自然度和說話人相似度上都有顯著的提升。另外,該模型也同時支持語音合成(Text-to-speech)和語音音色轉換(Voice Conversion)兩個任務,能夠適用于更多的應用場景,減少實際落地的工作量。
【免責聲明】本文僅代表合作供稿方觀點,不代表和訊網立場。投資者據此操作,風險請自擔。
最新評論