Meta 的新翻譯器使用單一模型可以講 100 種語言。一項重要的、非常有前景的開源創新。
現代人工智慧翻譯方法現在已經足夠先進,可以在大約 6,500 個口頭和書面通訊系統中進行對話和切換。問題在於,這些模型通常只能很好地完成一兩個任務——將文本翻譯和轉換為語音,將語音轉換為文本,將文本轉換為文本,或將語音轉換為語音。事實上,我們最終得到了許多模型,一個在另一個之上,建立通用工具作為Google翻譯或語言服務Facebook。
這需要大量的運算資源。這就是為什麼元開發了一個可以完成這一切的單一模型。我們在 Meta 部落格文章中讀到,SeamlessM4T 是一種「翻譯和轉錄語音和文本的多語言、多任務基礎模型」。它可以翻譯成近100種語言,實現語音轉文字和文字轉文字功能。語音到語音和文字轉語音支援這些相同的語言作為輸入,並且可以以包括英語在內的 36 種語言輸出。
在部落格文章中,Meta 研究團隊表示,SeamlessM4T“顯著提高了我們支持的低資源語言和低資源語言的性能”,同時保持“高資源語言的高性能,例如英語、西班牙語和德語。 » Meta 從基於 PyTorch 的多任務 UnitY 模型架構構建了 SeamlessM4T,該架構已經允許原生多種模式翻譯以及自動語音識別。它使用 BERT 2.0 系統進行音訊編碼,將輸入分離為標記進行分析,並使用 HiFi-GAN 聲碼器產生語音回應。
一項重要的、非常有前景的開源創新
Meta 還組裝了一個大規模並行語音到語音和語音到文字資料集,稱為 SeamlessAlign。據介紹,該公司從公開來源中抓取了“數百億個句子”和“四百萬小時”的音頻,“自動將超過443,000 小時的語音與相應的文本對齊,並創建大約29,000 小時的語音到語音對齊」。部落格。在評估系統穩健性時,SeamlessM4T 在背景噪音和敘述者風格變化方面的表現分別比其前身高出 37% 和 48%。
就像他之前所有的翻譯工作一樣,無論是駱駝2、大規模多語言語音 (MMS)、通用語音翻譯器 (UST) 或雄心勃勃的無語言落後 (NLLB) 項目,SeamlessM4T 現已開源。 「我們相信,SeamlessM4T 是人工智慧社群尋求創建通用多任務系統的一項重要創新,」該團隊寫道。 “保持我們的開放科學態度,我們期待公開分享我們的模型,使研究人員和開發人員能夠在這項技術的基礎上進行開發。” » 若您有興趣親自使用 SeamlessM4T,請前往GitHub 下載模板、培訓資料和文件。