視點(diǎn)!能聽(tīng)懂口音的開(kāi)源語(yǔ)音系統(tǒng)來(lái)了:OpenAI出品 支持99種語(yǔ)言
逼近人類水平的語(yǔ)音識(shí)別系統(tǒng)來(lái)了?沒(méi)錯(cuò),OpenAI新開(kāi)源了一個(gè)名為「Whisper」的新語(yǔ)音識(shí)別系統(tǒng),據(jù)稱在英文語(yǔ)音識(shí)別方面擁有接近人類水平的魯棒性和準(zhǔn)確性!不僅如此,對(duì)于不同口音、專業(yè)術(shù)語(yǔ)的識(shí)別效果也是杠杠的!一經(jīng)發(fā)布就在推特上收獲4800+點(diǎn)贊,1000+轉(zhuǎn)發(fā)。
訪問(wèn):
Parallels Desktop 18 今年首次促銷:限時(shí)75折
【資料圖】
網(wǎng)友們紛紛對(duì)它意料之外的強(qiáng)大功能表示驚訝。
不僅是英文,有人用法國(guó)詩(shī)人波德萊爾的《惡之花》進(jìn)行了語(yǔ)音測(cè)試,得到的文本幾乎與原文一致。
OpenAI聯(lián)合創(chuàng)始人&首席科學(xué)家Ilya Sutskever就表示:
終于有一個(gè)靠譜的語(yǔ)音識(shí)別系統(tǒng)能聽(tīng)懂我的口音了。
前任特斯拉人工智能總監(jiān)Andrej Karpathy甚至轉(zhuǎn)發(fā)評(píng)論:OpenAI正處于最好的狀態(tài)中。
話不多說(shuō),讓我們看看這個(gè)被“好評(píng)如潮”的語(yǔ)音系統(tǒng)究竟是怎么回事。
逼近人類水平的語(yǔ)音識(shí)別系統(tǒng)
首先,Whisper最大特點(diǎn)是它使用的超大規(guī)模訓(xùn)練集:
它使用從網(wǎng)絡(luò)上收集的68萬(wàn)小時(shí)的多語(yǔ)言、多任務(wù)監(jiān)督數(shù)據(jù)進(jìn)行訓(xùn)練。
這導(dǎo)致數(shù)據(jù)集的內(nèi)容非常多元化,涵蓋了許多不同環(huán)境、不同錄音設(shè)備下、不同語(yǔ)言的音頻。
具體而言,65%(438218小時(shí))是英語(yǔ)音頻和匹配的英語(yǔ)文本,大約18%(125739小時(shí))是非英語(yǔ)音頻和英語(yǔ)文本,而最后17%(117113小時(shí))則是非英語(yǔ)音頻和相應(yīng)的文本。
其中,非英語(yǔ)部分共包含98種不同語(yǔ)言。
不過(guò),雖然音頻質(zhì)量的多樣性可以幫助提高訓(xùn)練模型的魯棒性,但轉(zhuǎn)錄文本質(zhì)量的多樣性并不是同樣有益的。
初步檢查顯示,原始數(shù)據(jù)集中有大量不合格的、現(xiàn)有自動(dòng)語(yǔ)音識(shí)別(ASR)系統(tǒng)生成的轉(zhuǎn)錄文本。
而以往的研究表明,在人工和機(jī)器混合生成的數(shù)據(jù)集上進(jìn)行訓(xùn)練,會(huì)顯著損害翻譯系統(tǒng)的性能。
為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)開(kāi)發(fā)了幾種自動(dòng)過(guò)濾方法來(lái)識(shí)別和刪除低質(zhì)量的數(shù)據(jù)源。
但值得一提的是,沒(méi)有說(shuō)話內(nèi)容的片段會(huì)被留下,作為語(yǔ)音活動(dòng)檢測(cè)的訓(xùn)練數(shù)據(jù)。
其次,Whisper體系結(jié)構(gòu)是一種簡(jiǎn)單的端到端方法,具體來(lái)說(shuō)就是Transformer的編碼器-解碼器格式。
輸入音頻被分成30秒的片段,再轉(zhuǎn)換成log-Mel譜圖,然后傳入編碼器。
解碼器被訓(xùn)練來(lái)預(yù)測(cè)相應(yīng)的文本標(biāo)題,并混合特殊標(biāo)記,指示單一模型執(zhí)行諸如語(yǔ)言識(shí)別、多語(yǔ)言語(yǔ)音轉(zhuǎn)錄和英語(yǔ)語(yǔ)音翻譯等任務(wù)。
除此之外,研究人員還為Whisper設(shè)置了5種不同的型號(hào),以下是各模型大致的內(nèi)存需求和相對(duì)速度,使用者可以自行選擇。
但需要注意的是,只有“l(fā)arge”型號(hào)支持多語(yǔ)言,前4個(gè)模型都只支持英語(yǔ)。
不過(guò)不需要擔(dān)心,與其他模型相比,英文語(yǔ)音識(shí)別正是Whisper的核心競(jìng)爭(zhēng)力。
實(shí)驗(yàn)結(jié)果證明,Whisper在Librispeech test-clean測(cè)試的錯(cuò)誤率達(dá)到2.7%。
雖然這一數(shù)值與Wav2vec 2.0一樣,但在零樣本性能上,Whisper明顯更穩(wěn)健,平均誤差減少了55%。
甚至零樣本W(wǎng)hisper模型還縮小了與人類魯棒性之間的差距。
可以看出,與人類Alec相比,LibriSpeech模型的錯(cuò)誤率大約是人類的兩倍,而Whisper模型的魯棒性邊界則包括Alec95%的置信區(qū)間。
研究團(tuán)隊(duì)
Whisper的研究團(tuán)隊(duì)來(lái)自O(shè)penAI,共同一作有兩位:Alec Radford、Jong Wook Kim。
Alec Radford,OpenAI的機(jī)器學(xué)習(xí)研究員,也是indico.io的聯(lián)合創(chuàng)始人。
Jong Wook Kim,在紐約大學(xué)獲得了音樂(lè)技術(shù)專業(yè)的博士學(xué)位,研究方向包括多模態(tài)深度學(xué)習(xí)和音樂(lè)理解,目前是OpenAI的研究人員。
值得一提的是,研究團(tuán)隊(duì)指出,雖然目前Whisper還沒(méi)有實(shí)時(shí)功能,但它的運(yùn)行速度和內(nèi)存大小表明,在這一基礎(chǔ)上搭建實(shí)時(shí)語(yǔ)音識(shí)別和翻譯功能是可行的。
他們希望Whisper的高精度和易用性,將允許開(kāi)發(fā)人員將語(yǔ)音接口添加到更廣泛的應(yīng)用程序中。
論文和GitHub鏈接附在文末,感興趣的小伙伴們可以自取~
論文鏈接:
https://cdn.openai.com/papers/whisper.pdf
GitHub鏈接:
https://github.com/openai/whisper#approach
參考鏈接:
[1]https://colab.research.google.com/github/openai/whisper/blob/master/notebooks/LibriSpeech.ipynb
[2]https://techcrunch.com/2022/09/21/openai-open-sources-whisper-a-multilingual-speech-recognition-system/?guccounter
[3]https://news.ycombinator.com/item?id=32927360
[4]https://twitter.com/alecrad
[5]https://jongwook.kim/
關(guān)鍵詞: 人工智能 能聽(tīng)懂口音的開(kāi)源語(yǔ)音系統(tǒng)來(lái)了OpenAI出品
推薦
-
健康的肥胖不存在 脂肪含量和全因死亡之間具有線性因果關(guān)系
從重慶醫(yī)科大學(xué)附屬第一醫(yī)院獲悉,該院內(nèi)分泌科李啟富教授團(tuán)隊(duì)基于基因分析探討了脂肪含量與死亡風(fēng)險(xiǎn)的...
來(lái)源:科技日?qǐng)?bào) -
與亞馬遜Audible展開(kāi)競(jìng)爭(zhēng) Spotify在美國(guó)推出有聲讀物服務(wù)
已在美國(guó)推出有聲讀物服務(wù),此舉欲與亞馬遜的 Audible 展開(kāi)競(jìng)爭(zhēng)。Spotify 稱,用戶可在 Spotify Ap...
來(lái)源:TechWeb -
YouTube視頻網(wǎng)站中“不感興趣”按鈕幾乎沒(méi)有任何作用 類似相關(guān)視頻還會(huì)出現(xiàn)
有一項(xiàng)新的研究發(fā)現(xiàn),即使用戶對(duì) YouTube 中某些類型視頻選擇了不感興趣,但是類似相關(guān)的視頻還會(huì)出現(xiàn)...
來(lái)源:鳳凰科技 -
阿里巴巴將在核心科技上持續(xù)投入 助力全球產(chǎn)業(yè)鏈供應(yīng)鏈韌性與穩(wěn)定
阿里巴巴集團(tuán)董事會(huì)主席兼首席執(zhí)行官?gòu)堄卤硎荆瑖?guó)際地緣政治沖突加劇、逆全球化思潮涌現(xiàn)等因素給全球產(chǎn)...
來(lái)源:網(wǎng)易科技 -
為獲得稅收抵免資格 特斯拉打算讓電池回歸美國(guó)制造
知情人士稱,特斯拉公司暫停了在德國(guó)生產(chǎn)電池芯的計(jì)劃,因?yàn)樵摴菊诳紤]獲得美國(guó)電動(dòng)汽車和電池制造...
來(lái)源:鳳凰科技 -
Instagram短視頻功能發(fā)展正趨于停滯 觀看時(shí)長(zhǎng)不及TikTok十分之一
幾個(gè)月來(lái) Instagram 一直在努力發(fā)展其短視頻項(xiàng)目 Reels,但據(jù)一份內(nèi)部報(bào)告顯示,短視頻功能的發(fā)展正...
來(lái)源:TechWeb -
5G高空瞭望智能“監(jiān)督員”24小時(shí)在崗 鶴壁打造5G智慧社區(qū)
守在大屏前,小區(qū)各處安全狀況一覽無(wú)余;不用跑醫(yī)院,5G健康小屋幫你體檢;在公園座椅休息時(shí),可以同時(shí)充...
來(lái)源:人民郵電報(bào) -
筑牢網(wǎng)絡(luò)安全防線 中國(guó)工業(yè)互聯(lián)網(wǎng)研究院設(shè)立“網(wǎng)絡(luò)安全宣傳角”
在第九屆國(guó)家網(wǎng)絡(luò)安全宣傳周活動(dòng)中,中國(guó)工業(yè)互聯(lián)網(wǎng)研究院依托門戶網(wǎng)站、微信公眾號(hào)發(fā)布《2022網(wǎng)絡(luò)安全...
來(lái)源:人民郵電報(bào) -
美國(guó)特斯拉車主提交了上千份投訴 抱怨特斯拉維修問(wèn)題頻出
近期,美國(guó)特斯拉車主提交了上千份投訴,抱怨特斯拉維修問(wèn)題頻出,包括服務(wù)中心數(shù)量不足、更換零件庫(kù)存...
來(lái)源:鳳凰科技 -
提升城鎮(zhèn)一體化醫(yī)療服務(wù)能力 安溪升級(jí)智慧醫(yī)療云
近日,福建安溪電信在成功打造全縣醫(yī)療云服務(wù)的基礎(chǔ)上,依托EC產(chǎn)業(yè)園醫(yī)療云平臺(tái),聯(lián)手安溪衛(wèi)健局開(kāi)展醫(yī)...
來(lái)源:人民郵電報(bào)
直播更多》
-
2022無(wú)錫(北京)科技合作洽談會(huì)74個(gè)重大項(xiàng)目簽約 總金額達(dá)到202.34億
在近日舉行的2022無(wú)錫(北京)科技合作洽...
-
2022無(wú)錫(北京)科技合作洽談會(huì)74個(gè)重大項(xiàng)目簽約 總金額達(dá)到202.34億
在近日舉行的2022無(wú)錫(北京)科技合作洽...
-
構(gòu)建網(wǎng)絡(luò)安全保障體系 天津?yàn)I海高新區(qū)在信創(chuàng)安全領(lǐng)域持續(xù)發(fā)力
9月上旬,天津?yàn)I海高新區(qū)內(nèi)企業(yè)麒麟軟件...
-
解放大量人力物力 智慧漁政網(wǎng)絡(luò)為執(zhí)法插上科技翅膀
有人正在長(zhǎng)江非法垂釣!近日,武漢市農(nóng)業(yè)...
-
將加強(qiáng)政策引導(dǎo) 廣西管局推進(jìn)自貿(mào)區(qū)工業(yè)企業(yè)工業(yè)互聯(lián)網(wǎng)建設(shè)
近日,廣西信息通信業(yè)與中國(guó)(廣西)自由...
-
快手高級(jí)副總裁帶隊(duì)國(guó)際化業(yè)務(wù)一個(gè)多月 對(duì)部門組織架構(gòu)進(jìn)行調(diào)整
快手高級(jí)副總裁馬宏彬在帶隊(duì)國(guó)際化業(yè)務(wù)...
資訊更多》
-
全力打造西部數(shù)谷...
-
把“軟知產(chǎn)”變“...
-
高校迎來(lái)開(kāi)學(xué)季 ...
-
8月電動(dòng)車市“真實(shí)...
-
貝索斯前妻捐贈(zèng)兩...
-
福建元代海船水下...
焦點(diǎn)
- 補(bǔ)齊訓(xùn)練短板 科學(xué)組訓(xùn)助力獵鯊海天
- 廈門國(guó)家火炬高新區(qū)專精特新企業(yè)培育項(xiàng)目開(kāi)班 50名備企業(yè)高管開(kāi)啟研學(xué)之旅
- 為禁捕退捕裝上“數(shù)字眼” 中國(guó)聯(lián)通助力長(zhǎng)江黃河流域水域治理
- 順豐同城寄丟20克黃金保價(jià)8000元只賠2000元 當(dāng)事人質(zhì)疑保價(jià)意義何在
- SK明年將在韓國(guó)投資73萬(wàn)億韓元提升產(chǎn)能 未來(lái)5年還將投入25萬(wàn)億韓元
- 大理州首個(gè)文旅行業(yè)5G應(yīng)用 5G智慧文旅項(xiàng)目落戶銀都水鄉(xiāng)
- 德國(guó)柏林國(guó)際消費(fèi)電子展全面恢復(fù)線下舉辦 大量“智慧家居”類產(chǎn)品吸引眼球
- 中俄邊境地區(qū)無(wú)線電頻率協(xié)調(diào)工作組及專家組會(huì)談 近日以線上視頻形式召開(kāi)
- 浙江移動(dòng)物聯(lián)網(wǎng)連接數(shù)突破1億 率先邁入萬(wàn)物智聯(lián)時(shí)代
- 全力構(gòu)建數(shù)據(jù)出境的“安全屏障” 9月1日起《數(shù)據(jù)出境安全評(píng)估辦法》正式施行