視點(diǎn)!能聽(tīng)懂口音的開(kāi)源語(yǔ)音系統(tǒng)來(lái)了:OpenAI出品 支持99種語(yǔ)言

來(lái)源:量子位

逼近人類水平的語(yǔ)音識(shí)別系統(tǒng)來(lái)了?沒(méi)錯(cuò),OpenAI新開(kāi)源了一個(gè)名為「Whisper」的新語(yǔ)音識(shí)別系統(tǒng),據(jù)稱在英文語(yǔ)音識(shí)別方面擁有接近人類水平的魯棒性和準(zhǔn)確性!不僅如此,對(duì)于不同口音專業(yè)術(shù)語(yǔ)的識(shí)別效果也是杠杠的!一經(jīng)發(fā)布就在推特上收獲4800+點(diǎn)贊1000+轉(zhuǎn)發(fā)

訪問(wèn):

Parallels Desktop 18 今年首次促銷:限時(shí)75折


【資料圖】


網(wǎng)友們紛紛對(duì)它意料之外的強(qiáng)大功能表示驚訝。

不僅是英文,有人用法國(guó)詩(shī)人波德萊爾的《惡之花》進(jìn)行了語(yǔ)音測(cè)試,得到的文本幾乎與原文一致


OpenAI聯(lián)合創(chuàng)始人&首席科學(xué)家Ilya Sutskever就表示:

終于有一個(gè)靠譜的語(yǔ)音識(shí)別系統(tǒng)能聽(tīng)懂我的口音了。


前任特斯拉人工智能總監(jiān)Andrej Karpathy甚至轉(zhuǎn)發(fā)評(píng)論:OpenAI正處于最好的狀態(tài)中。


話不多說(shuō),讓我們看看這個(gè)被“好評(píng)如潮”的語(yǔ)音系統(tǒng)究竟是怎么回事。

逼近人類水平的語(yǔ)音識(shí)別系統(tǒng)

首先,Whisper最大特點(diǎn)是它使用的超大規(guī)模訓(xùn)練集

它使用從網(wǎng)絡(luò)上收集的68萬(wàn)小時(shí)的多語(yǔ)言、多任務(wù)監(jiān)督數(shù)據(jù)進(jìn)行訓(xùn)練。

這導(dǎo)致數(shù)據(jù)集的內(nèi)容非常多元化,涵蓋了許多不同環(huán)境、不同錄音設(shè)備下、不同語(yǔ)言的音頻。

具體而言,65%(438218小時(shí))是英語(yǔ)音頻和匹配的英語(yǔ)文本,大約18%(125739小時(shí))是非英語(yǔ)音頻和英語(yǔ)文本,而最后17%(117113小時(shí))則是非英語(yǔ)音頻和相應(yīng)的文本。

其中,非英語(yǔ)部分共包含98種不同語(yǔ)言。


不過(guò),雖然音頻質(zhì)量的多樣性可以幫助提高訓(xùn)練模型的魯棒性,但轉(zhuǎn)錄文本質(zhì)量的多樣性并不是同樣有益的。

初步檢查顯示,原始數(shù)據(jù)集中有大量不合格的、現(xiàn)有自動(dòng)語(yǔ)音識(shí)別(ASR)系統(tǒng)生成的轉(zhuǎn)錄文本。

而以往的研究表明,在人工和機(jī)器混合生成的數(shù)據(jù)集上進(jìn)行訓(xùn)練,會(huì)顯著損害翻譯系統(tǒng)的性能。

為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)開(kāi)發(fā)了幾種自動(dòng)過(guò)濾方法來(lái)識(shí)別和刪除低質(zhì)量的數(shù)據(jù)源。

但值得一提的是,沒(méi)有說(shuō)話內(nèi)容的片段會(huì)被留下,作為語(yǔ)音活動(dòng)檢測(cè)的訓(xùn)練數(shù)據(jù)。

其次,Whisper體系結(jié)構(gòu)是一種簡(jiǎn)單的端到端方法,具體來(lái)說(shuō)就是Transformer的編碼器-解碼器格式。


輸入音頻被分成30秒的片段,再轉(zhuǎn)換成log-Mel譜圖,然后傳入編碼器。

解碼器被訓(xùn)練來(lái)預(yù)測(cè)相應(yīng)的文本標(biāo)題,并混合特殊標(biāo)記,指示單一模型執(zhí)行諸如語(yǔ)言識(shí)別、多語(yǔ)言語(yǔ)音轉(zhuǎn)錄和英語(yǔ)語(yǔ)音翻譯等任務(wù)。


除此之外,研究人員還為Whisper設(shè)置了5種不同的型號(hào),以下是各模型大致的內(nèi)存需求和相對(duì)速度,使用者可以自行選擇。

但需要注意的是,只有“l(fā)arge”型號(hào)支持多語(yǔ)言,前4個(gè)模型都只支持英語(yǔ)。


不過(guò)不需要擔(dān)心,與其他模型相比,英文語(yǔ)音識(shí)別正是Whisper的核心競(jìng)爭(zhēng)力。

實(shí)驗(yàn)結(jié)果證明,Whisper在Librispeech test-clean測(cè)試的錯(cuò)誤率達(dá)到2.7%。

雖然這一數(shù)值與Wav2vec 2.0一樣,但在零樣本性能上,Whisper明顯更穩(wěn)健,平均誤差減少了55%


甚至零樣本W(wǎng)hisper模型還縮小了與人類魯棒性之間的差距

可以看出,與人類Alec相比,LibriSpeech模型的錯(cuò)誤率大約是人類的兩倍,而Whisper模型的魯棒性邊界則包括Alec95%的置信區(qū)間。


研究團(tuán)隊(duì)

Whisper的研究團(tuán)隊(duì)來(lái)自O(shè)penAI,共同一作有兩位:Alec Radford、Jong Wook Kim。


Alec Radford,OpenAI的機(jī)器學(xué)習(xí)研究員,也是indico.io的聯(lián)合創(chuàng)始人。


Jong Wook Kim,在紐約大學(xué)獲得了音樂(lè)技術(shù)專業(yè)的博士學(xué)位,研究方向包括多模態(tài)深度學(xué)習(xí)和音樂(lè)理解,目前是OpenAI的研究人員。


值得一提的是,研究團(tuán)隊(duì)指出,雖然目前Whisper還沒(méi)有實(shí)時(shí)功能,但它的運(yùn)行速度和內(nèi)存大小表明,在這一基礎(chǔ)上搭建實(shí)時(shí)語(yǔ)音識(shí)別和翻譯功能是可行的。

他們希望Whisper的高精度和易用性,將允許開(kāi)發(fā)人員將語(yǔ)音接口添加到更廣泛的應(yīng)用程序中。

論文和GitHub鏈接附在文末,感興趣的小伙伴們可以自取~

論文鏈接:

https://cdn.openai.com/papers/whisper.pdf

GitHub鏈接:

https://github.com/openai/whisper#approach

參考鏈接:

[1]https://colab.research.google.com/github/openai/whisper/blob/master/notebooks/LibriSpeech.ipynb

[2]https://techcrunch.com/2022/09/21/openai-open-sources-whisper-a-multilingual-speech-recognition-system/?guccounter

[3]https://news.ycombinator.com/item?id=32927360

[4]https://twitter.com/alecrad

[5]https://jongwook.kim/

關(guān)鍵詞: 人工智能 能聽(tīng)懂口音的開(kāi)源語(yǔ)音系統(tǒng)來(lái)了OpenAI出品

推薦

直播更多》

關(guān)閉

資訊更多》

焦點(diǎn)

久久久久亚洲AV成人片| 亚洲国产综合无码一区二区二三区| 亚洲第一页日韩专区| 亚洲精品国产精品| 亚洲小说图区综合在线| 中文字幕亚洲精品无码| 亚洲中文字幕久久无码| 亚洲中文字幕无码久久| 亚洲日韩国产AV无码无码精品| 亚洲综合av一区二区三区不卡| 色在线亚洲视频www| 亚洲依依成人亚洲社区| 亚洲精品无码少妇30P| 色婷婷亚洲一区二区三区| mm1313亚洲精品国产| 亚洲精品A在线观看| 曰韩亚洲av人人夜夜澡人人爽| 国产亚洲欧洲Aⅴ综合一区| 亚洲日韩精品无码专区网址| 国产v亚洲v天堂无码网站| 亚洲欧洲免费视频| 91亚洲精品自在在线观看| 亚洲国产综合精品中文第一| 亚洲中文字幕无码爆乳| 色噜噜的亚洲男人的天堂| 亚洲乱码国产一区网址| 亚洲乱码国产乱码精品精| 亚洲第一福利视频| 91午夜精品亚洲一区二区三区| 亚洲成年网站在线观看| 亚洲AV无码XXX麻豆艾秋| 偷自拍亚洲视频在线观看| 亚洲女同成人AⅤ人片在线观看| 久久久无码精品亚洲日韩软件| 国产亚洲综合网曝门系列| 亚洲福利视频导航| 亚洲av永久无码嘿嘿嘿| 亚洲国产成人久久精品大牛影视| 亚洲国产精品成人久久蜜臀| 亚洲色精品vr一区二区三区| 日产亚洲一区二区三区|