首頁 > 熱點 > > 正文

              Facebook開源世界上最大多語言語音數據 共涵蓋23種語言

              2021-08-26 15:32:48    來源:量子位

              最近,Facebook 開源了目前世界上最大的多語言語音數據集,VoxPopuli:這一數據集共涵蓋了 23 種語言,時長超過 40 萬小時。其中,每種語言都有 9000 到 18000 小時的無標簽語音數據。此外,還包括了共 1800 小時,16 種語言的轉錄語音數據,以及 17300 小時,15 種目標語言的口譯語音數據。

              國外網友很快為這一行為點贊:

              顯然,如果數據集已經存在,那么它應該被利用,并以一種道德的方式來改善人類社會。這一數據集龐大的無標簽數據量和廣泛的語言覆蓋率,對改進自監督模型有著很大的幫助。而 Facebook 也希望能夠幫助提高語音數據集的質量和魯棒性,使訓練語音轉換神經網絡更加可靠。最終加速新的 NLP 系統的開發,使 AI 翻譯的效果越來越好。

              而數據集的名字,VoxPopuli 的直譯“人民的心聲”也表示了其原始數據的來源 ——即源語音全都收集自 2009-2020 年歐洲議會的活動錄音。

              來自 10 年歐會的語料庫

              在歐洲議會的各自活動,如全體會議、委員會會議和其他活動上,發言者都會以不同的歐盟語言輪流發表演講。Facebook 就是從歐會官網上抓取了每個演講的文字記錄、演講者信息、開始/結束時間戳。

              然后,將所有的原始演講數據進行處理,大致分為以下 3 類:共 40 萬小時,23 種語言的無標簽語音數據每種語言都有 8 千到 2 萬多的原始語音數據。因此,Facebook 基于能量的語音激活檢測(VAD)算法,將完整音頻分割成 15-30 秒的短片段。

              最終得到沒有太多的數據不平衡,也不需要調整數據采樣策略的數據集。因此非常適合多語言模型的訓練。而上表中除了無標簽數據,也有轉錄的語音數據,這也就是第二種:共 1800 小時,16 種語言的轉錄語音數據。歐會官方的時間戳雖然可以用來在會議中定義演講者,但常常會被截斷,或混合前后演講的片段,因此并不完全準確。所以 Facebook 對全會話音頻采用了聲紋分割聚類(SD)。這時的語音段落平均時長為 197 秒,再利用語音識別(ASR)系統,將其細分為 20 秒左右的短片段。觀察上表,可以看到最終得到的數據中,有包括各語言的持續時間、發言人數量、女性發言人百分比、標記數量等多種屬性。17300 小時的 15 種目標語言的口譯語音數據:

              每個原始語音都有相對應的同聲傳譯,并互相關聯。但要使這個數據集可用,必須經過大量的預處理和過濾。因此,Facebook 使用了語音識別(ASR)系統在句子層面上對齊源語音和目標語音。

              在域外環境的半監督學習下具有通用性

              那么這一數據集用起來到底怎么樣?首先,是使用包含了域外語言(out-of-domain out-of-language)的無監督預訓練,進行少樣本的語音識別:

              可以從表中看到,VP-Mono5K 在 5 種 VoxPopuli 語言上,都優于 XLSR-Mono 和 XLSR-10。而 VP-100K 則在 10 種語言中的 8 種上的都比 XLSR-10 的表現更好。并且,雖然 XLSR-53 涵蓋了 Zh 語言,但與 VP-100K(Large)在 Zh 上的表現相距甚遠。這表明 VP-100K 所學的語音表征具有高度的通用性。然后是使用 VoxPopuli 數據集進行自我訓練或弱監督的語言翻譯(ST)和語音識別(ASR):

              從表中可以看到,不管是對于域內語言還是域外語言,對 VoxPopuli 的自我訓練在大多數時候都能夠提高性能。而在翻譯上,也不用再增加昂貴的標簽數據。通過自我訓練,就能夠縮小端到端模型和級聯模型之間的差距。

              相關熱詞搜索: Facebook 語音 數據 開源

              上一篇:5G需要持續演進 滿足更多樣性更復雜全場景物聯需求
              下一篇:移動公示5G通用模組產品集采中標結果 共9家企業中標

              熱點話題

              熱點推薦

              頭條

              ? 亚洲一级特黄大片在线观看| 日韩精品亚洲专区在线影视| 国产啪亚洲国产精品无码| 亚洲色大18成人网站WWW在线播放| 亚洲同性男gay网站在线观看| 亚洲国产天堂在线观看| 亚洲AV本道一区二区三区四区| 国产亚洲成av片在线观看| 亚洲乳大丰满中文字幕| 亚洲人成影院在线无码按摩店| 国产成人A亚洲精V品无码| 国产亚洲大尺度无码无码专线| 中文国产成人精品久久亚洲精品AⅤ无码精品 | 亚洲av成人无码久久精品| 亚洲va久久久噜噜噜久久天堂 | 亚洲精品中文字幕无码蜜桃| 亚洲一区二区三区无码中文字幕| 亚洲中文字幕无码日韩| 好看的电影网站亚洲一区 | 亚洲色大成网站www| 亚洲AV成人片无码网站| 国产AV无码专区亚洲AV蜜芽| 国产av无码专区亚洲av毛片搜| 亚洲成a人片在线观看久| 国产偷窥女洗浴在线观看亚洲 | 亚洲伊人久久精品| 一本色道久久综合亚洲精品蜜桃冫 | 亚洲综合一区无码精品| 亚洲妇女无套内射精| 亚洲AⅤ视频一区二区三区| 亚洲人成无码网站久久99热国产| 狠狠综合久久综合88亚洲| 国产精一品亚洲二区在线播放| 久久精品国产亚洲香蕉| 亚洲视频手机在线| 亚洲精品123区在线观看| 色天使色婷婷在线影院亚洲| 亚洲精品国产成人影院| 亚洲精品无码久久久影院相关影片| 久久精品国产亚洲夜色AV网站| 亚洲码一区二区三区|