8月20-24日,全球最大的綜合性語音領(lǐng)域的科技盛會——INTERSPEECH 2023在愛爾蘭都柏林舉辦。網(wǎng)易易盾兩篇學(xué)術(shù)論文被INTERSPEECH官方錄用,與世界頂級學(xué)術(shù)圈層共享學(xué)術(shù)研究成果。
這是網(wǎng)易易盾AI團(tuán)隊繼ICASSP后,論文再次被國際性頂級學(xué)術(shù)會議錄用。至此,網(wǎng)易易盾已解鎖全球兩大語音學(xué)術(shù)頂會論文全部錄用的成就。
INTERSPEECH在國際上享有極高盛譽(yù)并具有廣泛的學(xué)術(shù)影響力,是由國際語音通訊協(xié)會(ISCA)創(chuàng)辦的旗艦級國際會議,也是全球最大的綜合性語音信號處理領(lǐng)域的科技盛會。它涵蓋了語音識別、語音合成、語音增強(qiáng)、自然語言處理等多個領(lǐng)域,每年都吸引了來自世界各地的數(shù)千名學(xué)者、工程師和企業(yè)家參與交流和展示。
(相關(guān)資料圖)
據(jù)INTERSPEECH 2023的統(tǒng)計數(shù)據(jù),有上千人參與了會議,這些參會者來自全球數(shù)十個國家/地區(qū),其中包括中國、美國、日本、英國、法國、德國、印度等。會議共收到來自全球頂級實驗室、頂級大學(xué)、頂級研究團(tuán)隊共3000篇以上論文投稿,網(wǎng)易易盾在INTERSPEECH 2023上有2篇論文入選,主題分別為《Enhancing the Unified Streaming and Non-streaming Model with Contrastive Learning》、《Language-Routing Mixture of Experts for Multilingual and Code-Switching Speech Recognition》。
同時,易盾AI算法研究團(tuán)隊也前往現(xiàn)場,與各研究人員會面,圍繞我們最新的語音技術(shù)進(jìn)行問答和演示。這有助于全球語音學(xué)術(shù)界的研究水平,為研究人員圈層的學(xué)術(shù)交流提供參考。
01.
“Hello,賈維斯”?語音AI可以實現(xiàn)!
"你好,賈維斯。”
“隨時為您效勞,先生?!?/p>
電影《復(fù)仇者聯(lián)盟》中鋼鐵俠與其AI智能管家賈維斯,為我們展示出一個充滿科技設(shè)想的未來智能家庭場景,彼時,我們或許驚嘆于電影的超現(xiàn)實概念描繪,但放眼到今天,隨著人工智能(AI,Artificial Intelligence)技術(shù)的不斷進(jìn)步,科幻電影的設(shè)想照進(jìn)現(xiàn)實并非遙不可及。
在電影中, 鋼鐵俠與其AI智能助手賈維斯的溝通協(xié)作全部都是通過語音對話實現(xiàn)。因此,如果想要盡早將這樣的未來場景搬入現(xiàn)實,語音識別與人工智能技術(shù)的結(jié)合與研究,是關(guān)鍵中的關(guān)鍵。語音識別是指將人類的語音信號轉(zhuǎn)換為文本或命令的技術(shù),它涉及到語音信號處理、自然語言處理等領(lǐng)域。語音識別技術(shù)可以讓我們通過語音來與電腦或手機(jī)等設(shè)備進(jìn)行交互,提高了輸入和操作的效率和便捷性。例如,我們可以通過語音來搜索信息、發(fā)送短信、打電話、控制智能家居等。像“賈維斯”這樣的AI語音助手就是一種基于語音識別技術(shù)的智能服務(wù),它可以理解用戶的語音指令,并根據(jù)用戶的需求提供相應(yīng)的服務(wù)或信息。
當(dāng)然,一種技術(shù)的突破與創(chuàng)新,應(yīng)用在個人生活場景中只是該技術(shù)價值中的一部分,將技術(shù)結(jié)合到企業(yè)服務(wù)方向的應(yīng)用可以讓價值最大化。
02.
對比學(xué)習(xí)、語種轉(zhuǎn)碼與數(shù)字內(nèi)容風(fēng)控
以網(wǎng)易易盾的兩篇論文為例,我們將解釋,語音AI技術(shù)是如何應(yīng)用到數(shù)字內(nèi)容風(fēng)控服務(wù)場景并且為客戶服務(wù)提升價值。
在易盾智能語音檢測業(yè)務(wù)場景中,存在實時(流式)檢測需求和離線(非流式)檢測需求。流式\非流式一體化模型是指一個模型可以同時滿足流式場景和非流式場景的識別需求,它降低了模型開發(fā),訓(xùn)練和部署的成本。在實際的使用過程中模型性能仍然是易盾AI團(tuán)隊關(guān)注的重點,大多數(shù)場景下一體化模型往往存在兩個性能差距,如下圖所示。
(1)一體化模型的非流式識別性能優(yōu)于流式識別。
(2)完全非流式模式訓(xùn)練出來的純離線模型性能優(yōu)于一體化模型中的離線解碼模式。
易盾AI團(tuán)隊希望這兩個性能差距越小越好,一方面希望流式識別的效果能向非流式識別靠近,另一方面希望一體化模型的非流式識別和純離線模型相比沒有性能損失。如何進(jìn)一步提升一體化模型性能是一個具有挑戰(zhàn)的問題。從模型表征的角度出發(fā),如果流式表征能夠向非流式靠攏,那么流式識別內(nèi)容也會與非流式識別更相似,也就意味著流式識別的效果能向非流式識別靠近。
基于這個動機(jī),易盾AI算法團(tuán)隊提出利用對比學(xué)習(xí)方法來縮小流式和非流式模式之間的內(nèi)在表征差距,從而提升一體化模型的性能,如下圖所示。
易盾AI算法團(tuán)隊把每一幀的流式表示和非流式表示作為正樣本對,同時從非流式模式的其他幀隨機(jī)采樣多個負(fù)樣本,利用對比學(xué)習(xí)拉近正樣本之間的距離,同時加大負(fù)樣本之間的差異化。通過讓流式和非流式相互對比學(xué)習(xí),同時完成兩種模式的訓(xùn)練。
研究在開源數(shù)據(jù)集和易盾業(yè)務(wù)場景驗證了算法的有效性,結(jié)果表明基于對比學(xué)習(xí)的一體化模型取得了顯著的性能提升。在業(yè)務(wù)數(shù)據(jù)上,該方法短期內(nèi)幫助網(wǎng)易易盾取得了原本需要花一個季度數(shù)據(jù)積累才能獲得的效果提升。
此外,在多語言語音場景中,廣泛存在多種語言中的單語語音和包含兩種或以上語言的語碼轉(zhuǎn)換語音。因此,多語種語音識別系統(tǒng)需要同時支持以上兩種場景語音的識別。為此易盾AI團(tuán)隊設(shè)計了一種引入語種“路由”機(jī)制和混合專家系統(tǒng)(MOE)的混合語種識別方法,我們簡稱為LR-MoE。LR-MoE在混合專家模塊將不同語種交給相對應(yīng)的“專家”模塊進(jìn)行處理,在降低計算開銷的同時又提升了多語種和混合語種的識別效果。
實際業(yè)務(wù)中,用戶在使用多語種語音識別系統(tǒng)時往往存在以下需求:
1. 人工配置語種實現(xiàn)對特定語種的語音識別能力,如特定國家或地區(qū)的內(nèi)容平臺;
2. 未知語種信息時支持對任意語種語音的自動識別,如多語種內(nèi)容平臺。
結(jié)合實際業(yè)務(wù)需求和上述提出的方法,易盾AI團(tuán)隊設(shè)計了基于LR-MoE的多語種語音識別架構(gòu),通過模型內(nèi)置、靈活可配的幀級語種分類器,支持多語言多需求的智能語音內(nèi)容檢測。
上述架構(gòu)能同時支持多語言單語和語碼轉(zhuǎn)換語音的識別,減少語種間的混淆,在實際多語種業(yè)務(wù)中識別效果相對提升10%以上;并支持用戶主動配置語言和自適應(yīng)識別兩種使用模式,賦能出海企業(yè)的智能語音內(nèi)容風(fēng)控。
03.
學(xué)術(shù)頂會??停阂锥蹵I實驗室
網(wǎng)易易盾作為網(wǎng)易集團(tuán)旗下一站式數(shù)字內(nèi)容風(fēng)控品牌,為面向數(shù)字化業(yè)務(wù)的客戶提供專業(yè)可靠的安全服務(wù),涵蓋內(nèi)容安全、業(yè)務(wù)安全、移動安全三大領(lǐng)域,全方位保障客戶業(yè)務(wù)合規(guī)、穩(wěn)健和安全運(yùn)營。
網(wǎng)易易盾很早就認(rèn)識到技術(shù)的創(chuàng)新可以為產(chǎn)品和服務(wù)帶來呈幾何增長的價值提升,設(shè)立了網(wǎng)易易盾AI實驗室,此次入選的兩篇論文均出自于該團(tuán)隊。作為網(wǎng)易易盾下設(shè)的始終走在人工智能研究前沿的技術(shù)團(tuán)隊,易盾AI實驗室致力于圍繞精細(xì)化、輕量化、敏捷化打造全面嚴(yán)謹(jǐn)、安全可信的AI技術(shù)能力,不斷提升數(shù)字內(nèi)容風(fēng)控服務(wù)水平。在這之前,團(tuán)隊曾獲得多項 AI 算法競賽冠軍及重要獎勵榮譽(yù):
· 2019年第一屆中國人工智能大賽 旗幟識別賽道最高級A級證書;
· 2020年第二屆中國人工智能大賽 視頻深度偽造檢測賽道最高級A級證書;
· 2021年第三屆中國人工智能大賽 視頻深度偽造檢測和音頻深度偽造檢測賽道兩項最高級A級證書;
· 2021年中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟“創(chuàng)新之星”、“創(chuàng)新人物”;
· 2021年第十六屆全國人機(jī)語音通訊學(xué)術(shù)會議(NCMMSC2021)“長短視頻多語種多模態(tài)識別競賽”—漢語長短視頻直播語音關(guān)鍵詞(VKW)雙賽道冠軍;
· 2021年獲得浙江省政府頒發(fā)的科學(xué)技術(shù)進(jìn)步獎一等獎;
· 2022年ICPR多模態(tài)字幕識別比賽(Multimodal Subtitle Recognition, 簡稱 MSR 競賽,國內(nèi)首個多模態(tài)字幕識別大賽)賽道三“融合視覺和音頻的多模態(tài)字幕識別系統(tǒng)”冠軍;
· 2023年,《Improving CTC-based ASR Models with Gated Interplayer Collaboration(基于 CTC 的模型改進(jìn),實現(xiàn)更強(qiáng)的模型結(jié)構(gòu))》論文入選ICASSP。
已成為頂級學(xué)術(shù)會議??偷木W(wǎng)易易盾AI實驗室,還將在包括語音AI在內(nèi)的等各AI方向上深入研究,持續(xù)用技術(shù)為服務(wù)創(chuàng)造更大的空間。
“賈維斯”在彼時2008年《鋼鐵俠》上映之時,看似觸不可及。此時回頭再看,也許“賈維斯”都顯得稍欠想象力。可以確定的是,我們正處在科技大爆炸的前夕,5G、人工智能、物聯(lián)網(wǎng)、大數(shù)據(jù)、云計算等等這一切底層技術(shù)的研究都將在未來的數(shù)年內(nèi)不斷誕生各種可以應(yīng)用在生活中的產(chǎn)品和服務(wù)。
在數(shù)字內(nèi)容風(fēng)控領(lǐng)域的語音AI研究和應(yīng)用,網(wǎng)易易盾并不只追求快,我們更加希望我們的步伐是穩(wěn)健和堅定的,以及切實為客戶創(chuàng)造價值。
(免責(zé)聲明:此文內(nèi)容為廣告,相關(guān)素材由廣告主提供,廣告主對本廣告內(nèi)容的真實性負(fù)責(zé)。本網(wǎng)發(fā)布目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點和對其真實性負(fù)責(zé),請自行核實相關(guān)內(nèi)容。廣告內(nèi)容僅供讀者參考。)
(責(zé)任編輯:周文凱 )關(guān)鍵詞: