世界熱訊:規(guī)模性能雙殺OpenAI,Meta語音達(dá)LLaMA級里程碑!開源MMS模型可識別1100+語言
在語音方面,Meta又達(dá)到了另一個LLaMA級的里程碑。
今天,Meta推出了一個名為MMS的大規(guī)模多語言語音項目,它將徹底改變語音技術(shù)。
MMS支持1000多種語言,用圣經(jīng)訓(xùn)練,錯誤率僅為Whisper數(shù)據(jù)集的一半。
(資料圖)
只憑一個模型,Meta就建起了一座巴別塔。
并且,Meta選擇將所有模型和代碼開源,希望為保護(hù)世界語種的多樣性做出貢獻(xiàn)。
在此之前的模型可以覆蓋大約100種語言,而這次,MMS直接把這個數(shù)字增加了10-40倍!
具體來說,Meta開放了1100多種語言的多語種語音識別/合成模型,以及4000多種語言的語音識別模型。
與OpenAI Whisper相比,多語言ASR模型支持11倍以上的語言,但在54種語言上的平均錯誤率還不到FLEURS的一半。
而且,將ASR擴(kuò)展到如此多語言之后,只造成了非常小的性能下降。
論文地址:https://research.facebook.com/publications/scaling-speech-technology-to-1000-languages/
保護(hù)消失語種,MMS把語音識別增加40倍
然而,為這些任務(wù)生成高質(zhì)量的機(jī)器學(xué)習(xí)模型,就需要大量的標(biāo)記數(shù)據(jù),比如數(shù)千小時的音頻以及轉(zhuǎn)錄——對于大多數(shù)語言來說,這種數(shù)據(jù)根本就不存在。
現(xiàn)有的語音識別模型,只涵蓋了大約100種語言,在地球上的7000多種已知語言中,這只占很小一部分。令人擔(dān)憂的是,在我們有生之年,這些語言中有一半都面臨著消失的危險。
在Massively Multilingual Speech(MMS)項目中,研究者通過結(jié)合wav2vec 2.0(Meta在自監(jiān)督學(xué)習(xí)方面的開創(chuàng)性工作)和一個新的數(shù)據(jù)集來克服了一些挑戰(zhàn)。
這個數(shù)據(jù)集提供了超過1100種語言的標(biāo)記數(shù)據(jù),和近4000種語言的未標(biāo)記數(shù)據(jù)。
通過跨語言訓(xùn)練,wav2vec 2.0學(xué)習(xí)了多種語言中使用的語音單元
其中一些語言,如Tatuyo語,只有幾百個使用者,而數(shù)據(jù)集中的大多數(shù)語言,以前根本就不存在語音技術(shù)。
而結(jié)果顯示,MMS模型的性能優(yōu)于現(xiàn)有的模型,覆蓋語言的數(shù)量是現(xiàn)有模型的10倍。
Meta一向?qū)W⒂诙嗾Z言工作:在文本上,Meta的NLLB項目將多語言翻譯擴(kuò)展到了200種語言,而MMS項目,則將語音技術(shù)擴(kuò)展到更多語言。
MMS支持1,107種語言的語音轉(zhuǎn)文本和文本轉(zhuǎn)語音,支持4,000多種語言的識別
圣經(jīng)解決語音數(shù)據(jù)集難題
要知道,現(xiàn)有的最大語音數(shù)據(jù)集最多也只涵蓋了100種語言。為了克服這個問題,研究人員轉(zhuǎn)向了宗教文本,如《圣經(jīng)》。
這類文本已經(jīng)被翻譯成許多不同的語言,被用于廣泛的研究,還有各種公開的錄音。
為此,Meta的研究者專門創(chuàng)建了一個超過1100種語言的《新約》閱讀數(shù)據(jù)集,平均每種語言提供32小時的數(shù)據(jù)。
再加上其他各種宗教讀物的無標(biāo)簽錄音,研究者將可用的語言數(shù)量增加到了4000多種。
在MMS數(shù)據(jù)上訓(xùn)練的自動語音識別模型,在FLEURS基準(zhǔn)測試中,對男性和女性說話者具有相似的錯誤率
這些數(shù)據(jù)通常是由男性朗讀的,但模型對男性和女性的聲音表現(xiàn)得同樣好。
并且,雖然錄音的內(nèi)容是宗教性的,但這并沒有使模型過度偏向于產(chǎn)生更多的宗教語言。
研究人員分析認(rèn)為,這是因?yàn)樗麄兪褂昧诉B接主義時間分類方法,與用于語音識別的大語言模型或序列對序列模型相比,它的約束性要大得多。
模型越大,越能打?
為此,研究人員在100多種語言的現(xiàn)有數(shù)據(jù)上訓(xùn)練了一個對齊模型,并將這個模型與一個高效的強(qiáng)制對齊算法一起使用,而該算法可以處理大約20分鐘或更長時間的錄音。
研究人員多次重復(fù)了這個過程,并根據(jù)模型的準(zhǔn)確性進(jìn)行了最后的交叉驗(yàn)證過濾步驟,為的是去除潛在的錯誤對齊數(shù)據(jù)。
為了使其他研究人員能夠創(chuàng)建新的語音數(shù)據(jù)集,研究人員將對齊算法添加到了PyTorch中并發(fā)布了對齊模型。
目前,每種語言都有32小時的數(shù)據(jù),但這并不足以訓(xùn)練傳統(tǒng)的監(jiān)督式語音識別模型。
這也就是為什么研究人員在wav2vec 2.0上訓(xùn)練模型,這樣可以大大減少訓(xùn)練一個模型所需的標(biāo)注數(shù)據(jù)量。
具體來說,研究人員在超過1400種語言的約50萬小時的語音數(shù)據(jù)上訓(xùn)練了自監(jiān)督模型——這個量比過去多了近5倍。
然后針對特定的語音任務(wù),如多語言語音識別或語言識別,研究人員再對模型進(jìn)行微調(diào)即可。
為了更好地了解在大規(guī)模多語言語音數(shù)據(jù)上訓(xùn)練的模型的表現(xiàn),研究人員在現(xiàn)有的基準(zhǔn)數(shù)據(jù)集上對它們進(jìn)行了評估。
研究人員使用一個1B參數(shù)的wav2vec 2.0模型對超過1100種語言進(jìn)行多語言語音識別模型的訓(xùn)練。
隨著語言數(shù)量的增加,性能確實(shí)有所下降,但這種下降比較輕微——從61種語言到1107種語言,字符錯誤率只增加了約0.4%,但語言覆蓋率卻增加了18倍以上。
將每個系統(tǒng)支持的語言數(shù)量從61增加到1,107 時,使用MMS數(shù)據(jù)訓(xùn)練的多語言識別系統(tǒng)的61種FLEURS語言的錯誤率。錯誤率越高表示性能越低
在與OpenAI的Whisper進(jìn)行同類比較時,研究人員發(fā)現(xiàn),在Massively Multilingual Speech數(shù)據(jù)上訓(xùn)練的模型有將近一半的單詞錯誤率,但Massively Multilingual Speech涵蓋的語言是Whisper的11倍。
從數(shù)據(jù)中我們可以看出,與目前最好的語音模型相比,Meta的模型表現(xiàn)的真的非常不錯。
OpenAI Whisper與Massively Multilingual Speech在54種FLEURS語言上的單詞錯誤率對比
接下來,研究人員使用自己的以及現(xiàn)有的數(shù)據(jù)集,如FLEURS和CommonVoice,為超過4000種語言訓(xùn)練了一個語言識別(LID)模型,并在FLEURS LID任務(wù)上對其進(jìn)行了評估。
事實(shí)證明,哪怕支持了將近40倍的語言數(shù)量,性能依然很能打。
在現(xiàn)有工作的VoxLingua-107基準(zhǔn)上的語言識別準(zhǔn)確性,支持的語言剛剛超過100種,而MMS則支持超過4000種語言
研究人員還為超過1100種語言建立了文本轉(zhuǎn)語音的系統(tǒng)。
大規(guī)模多語種語音數(shù)據(jù)有一個局限性,那就是對于許多語言來說,它包含的不同說話者數(shù)量相對較少,通常只有一個說話者。
然而,這個特點(diǎn)對于建立文本到語音系統(tǒng)來說是一個優(yōu)勢,因此研究人員為超過1100種語言訓(xùn)練了類似系統(tǒng)。
結(jié)果表明,這些系統(tǒng)產(chǎn)生的語音質(zhì)量還算不錯。
未來屬于單一模型
比方說,語音到文本模型可能會誤寫選定的單詞或短語,可能會導(dǎo)致冒犯性的或者不準(zhǔn)確的輸出結(jié)果。
同時,Meta認(rèn)為,AI巨頭的合作對于負(fù)責(zé)任的AI技術(shù)的發(fā)展至關(guān)重要。
世界上的許多語言都有消失的危險,而目前語音識別和語音生成技術(shù)的局限性只會加速這一趨勢。
研究人員設(shè)想一個技術(shù)產(chǎn)生相反效果的世界,鼓勵人們保持其語言的活力,因?yàn)樗麄兛梢酝ㄟ^說自己喜歡的語言來獲取信息和使用技術(shù)。
大規(guī)模多語言語音項目是朝著這個方向邁出的重要一步。
在未來,研究人員希望進(jìn)一步增加語言的覆蓋面,支持更多的語言,甚至還會想辦法搞定方言。要知道,方言對現(xiàn)有的語音技術(shù)來說可不簡單。
Meta的最終目標(biāo)是讓人們能更容易地用自己喜歡的語言獲取信息、使用設(shè)備。
最后,Meta的研究人員還設(shè)想了這樣一個未來場景——靠一個單一的模型就可以解決所有語言的幾個語音任務(wù)。
目前雖然Meta為語音識別、語音合成和語言識別訓(xùn)練了單獨(dú)的模型,但研究人員相信,在未來,只需一個模型就能完成所有這些任務(wù),甚至不止。
本文來源:新智元,原文標(biāo)題:《規(guī)模性能雙殺OpenAI,Meta語音達(dá)LLaMA級里程碑!開源MMS模型可識別1100+語言》
風(fēng)險提示及免責(zé)條款 市場有風(fēng)險,投資需謹(jǐn)慎。本文不構(gòu)成個人投資建議,也未考慮到個別用戶特殊的投資目標(biāo)、財務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見、觀點(diǎn)或結(jié)論是否符合其特定狀況。據(jù)此投資,責(zé)任自負(fù)。關(guān)鍵詞: