新聞動态
行業資訊
 您的(de)位置:首頁 > 新聞動态> 行業資訊
華裔科學家汪德亮:我用(yòng)深度學習(xí)颠覆了(le)助聽(tīng)技術
作者:  更新時(shí)間:2017/4/12 10:53:52

編者按:本文最早刊登于美(měi)國科技雜(zá)志《IEEE Spectrum》,其作者是俄亥俄州立大(dà)學感知與神經動力學實驗室的(de)主任汪德亮。他(tā)同時(shí)還(hái)擔任人(rén)工智能領域頂尖期刊《Neural Networks》的(de)聯合主編。

在我離家讀大(dà)學期間,我母親的(de)聽(tīng)力越來(lái)越差。我回家聊起大(dà)學生活時(shí),她湊近了(le)才能聽(tīng)清楚我說什(shén)麽。不久後,如果同時(shí)有不止一個(gè)人(rén)在說話(huà),她就很難聽(tīng)清。現在,即使戴著(zhe)助聽(tīng)器,她也(yě)難以區(qū)分(fēn)每個(gè)人(rén)的(de)聲音(yīn),所以一家人(rén)團聚時(shí)要輪流說話(huà)才能讓她聽(tīng)明(míng)白。

母親的(de)苦處反映了(le)助聽(tīng)器制造商面臨的(de)一個(gè)典型問題。人(rén)類聽(tīng)覺系統能夠在擁擠的(de)房(fáng)間裏,輕易辨别每個(gè)人(rén)的(de)聲音(yīn),但幾十年來(lái),信号處理(lǐ)專家、人(rén)工智能專家和(hé)聽(tīng)力學家竭盡所能,也(yě)無法讓助聽(tīng)器具備這(zhè)種能力。1953年,英國認知科學家科林(lín)·切瑞(Colin Cherry)首次将其稱爲“雞尾酒會問題”。

六十多(duō)年後的(de)今天,在需要助聽(tīng)器的(de)人(rén)之中,隻有不到25%的(de)人(rén)真正使用(yòng)了(le)助聽(tīng)器。最令潛在用(yòng)戶失望的(de)地方在于,助聽(tīng)器無法在多(duō)個(gè)聲音(yīn)之間作出區(qū)分(fēn),比如說話(huà)聲和(hé)同時(shí)有汽車經過的(de)聲音(yīn)。遇到這(zhè)種情況,助聽(tīng)器隻會調高(gāo)兩個(gè)聲音(yīn)的(de)音(yīn)量,結果就變成了(le)混亂的(de)嘈雜(zá)聲。

7.66億人(rén)的(de)市場(chǎng)

到了(le)必須解決這(zhè)個(gè)問題的(de)時(shí)候了(le)。爲了(le)改善助聽(tīng)器佩戴者的(de)體驗,近一段時(shí)期,我在俄亥俄州立大(dà)學的(de)實驗室利用(yòng)了(le)基于深度神經網絡的(de)機器學習(xí)技術,用(yòng)它來(lái)分(fēn)離聲音(yīn)。我們測試了(le)多(duō)個(gè)版本的(de)數字濾音(yīn)器,這(zhè)些濾音(yīn)器不僅能放大(dà)聲音(yīn),還(hái)能将說話(huà)聲從背景噪音(yīn)中分(fēn)離出來(lái),并自動調節每個(gè)聲音(yīn)的(de)音(yīn)量。

我們相信,這(zhè)種方法最終能恢複聽(tīng)力受損者對(duì)聲音(yīn)的(de)理(lǐ)解能力,使之達到、甚至超過正常人(rén)的(de)聽(tīng)力水(shuǐ)平。事實上,我們的(de)一個(gè)早期模型大(dà)幅增強了(le)某些受試者在噪音(yīn)中聽(tīng)清話(huà)語的(de)能力,準确率從10%提高(gāo)到90%。

如果沒有更好的(de)助聽(tīng)器,全世界的(de)聽(tīng)力狀況将惡化(huà)。據世界衛生組織估計,15%的(de)成年人(rén)(約爲7.66億人(rén))存在聽(tīng)力受損。而随著(zhe)人(rén)口增長(cháng)以及老齡人(rén)口的(de)比重增加,這(zhè)個(gè)數字正在上升。先進助聽(tīng)器的(de)潛在市場(chǎng)不僅限于聽(tīng)力受損者。研發人(rén)員(yuán)可(kě)以利用(yòng)這(zhè)項技術改善智能手機的(de)語音(yīn)識别功能,企業主可(kě)以用(yòng)它幫助員(yuán)工在嘈雜(zá)的(de)工廠裏工作,軍隊可(kě)以把它作爲軍事裝備,讓士兵(bīng)能夠在震耳欲聾的(de)戰場(chǎng)上,聽(tīng)清戰友的(de)話(huà)語。

這(zhè)構成了(le)一個(gè)龐大(dà)的(de)潛在市場(chǎng)。市場(chǎng)調研公司MarketsandMarkets估計,到2020年前,全球助聽(tīng)器行業(目前規模爲60億美(měi)元)将以每年6%的(de)速度增長(cháng)。但若想滿足所有那些新用(yòng)戶的(de)需求,就必須想辦法解決“雞尾酒會問題”,而深度神經網絡爲我們指明(míng)了(le)前進的(de)方向。

 

0 (3).jpg

 

清晰語音(yīn):爲了(le)分(fēn)離語音(yīn)和(hé)噪聲,機器學習(xí)軟件把帶有噪聲的(de)語音(yīn)樣本分(fēn)解成一個(gè)個(gè)時(shí)頻(pín)單元,然後分(fēn)析這(zhè)些單元,提取出用(yòng)以區(qū)分(fēn)語音(yīn)和(hé)其他(tā)聲音(yīn)的(de)85個(gè)已知特征,接著(zhe),把這(zhè)些特征輸入深度神經網絡。經過訓練的(de)深度神經網絡會根據以前處理(lǐ)類似樣本的(de)經驗,對(duì)單元進行分(fēn)類,區(qū)别出哪些是語音(yīn),哪些是噪聲。最後,軟件使用(yòng)數字濾音(yīn)器,排除掉所有的(de)非語音(yīn)單元,隻留下(xià)分(fēn)離出來(lái)的(de)語音(yīn)。

幾十年來(lái),電子和(hé)計算(suàn)機工程師一直都著(zhe)眼于通(tōng)過信号處理(lǐ)來(lái)實現語音(yīn)分(fēn)離,但每每以失敗告終。最常見的(de)方法是利用(yòng)語音(yīn)活動探測器,識别人(rén)們在說話(huà)時(shí)的(de)發音(yīn)間隔。按照(zhào)這(zhè)種方法,系統會把間隔期間捕捉到的(de)聲音(yīn)認定爲“噪音(yīn)”。然後,計算(suàn)機算(suàn)法再從原始錄音(yīn)中去除這(zhè)些噪音(yīn),從理(lǐ)論上來(lái)說,隻留下(xià)了(le)沒有噪聲的(de)語音(yīn)。

隻是,這(zhè)種被稱爲“譜減法”的(de)技術,效果很差,要麽去除了(le)太多(duō)的(de)語音(yīn),要麽去除的(de)噪音(yīn)太少。即使經過多(duō)年的(de)發展,毛病依然很多(duō),事實證明(míng)它能提供的(de)幫助很有限。

我意識到,我們必須另辟蹊徑。于是,我們從加拿大(dà)麥吉爾大(dà)學心理(lǐ)學家阿爾伯特·布雷格曼(Albert Bregman)的(de)理(lǐ)論著(zhe)手。1990年,布雷格曼提出,人(rén)類聽(tīng)覺系統将聲音(yīn)組織成不同的(de)聲音(yīn)流。從本質上說,一個(gè)聲音(yīn)流對(duì)應一個(gè)聲音(yīn)源,比如身邊的(de)某位朋友。每個(gè)聲音(yīn)流的(de)音(yīn)調、音(yīn)量和(hé)方向來(lái)源都是獨一無二的(de)。

 

0.jpg

 

嘈雜(zá)的(de)世界:人(rén)類的(de)耳朵能同時(shí)捕捉到很多(duō)聲音(yīn)流,這(zhè)在一定程度上歸因于其奇特的(de)形狀。一個(gè)聲音(yīn)流是指一種聲音(yīn)源發出的(de)所有聲波,比如一隻狗。所有這(zhè)些聲音(yīn)流彙聚在一起,構成了(le)聽(tīng)覺場(chǎng)景(犬吠聲+警笛聲+說話(huà)聲)。

衆多(duō)聲音(yīn)流(比如在喧鬧的(de)球場(chǎng)裏說話(huà))彙聚在一起,就構成了(le)布雷格曼所說的(de)“聽(tīng)覺場(chǎng)景”。如果多(duō)個(gè)聲音(yīn)同時(shí)出現在同一個(gè)頻(pín)段,場(chǎng)景中最響亮的(de)聲音(yīn)便會掩蓋其他(tā)聲音(yīn),這(zhè)個(gè)原理(lǐ)被稱爲“聽(tīng)覺遮蔽”。比如,當雨(yǔ)水(shuǐ)滴答(dá)落在屋頂上時(shí),你可(kě)能不會注意到房(fáng)間角落裏鐘(zhōng)表發出的(de)聲音(yīn)。MP3文件就是利用(yòng)這(zhè)個(gè)原理(lǐ)及其他(tā)技術,通(tōng)過去除被掩蓋的(de)聲音(yīn),将文件壓縮至原始大(dà)小的(de)十分(fēn)之一。

按照(zhào)布雷格曼的(de)理(lǐ)論,我們想知道,可(kě)不可(kě)以打造一種濾音(yīn)器,能夠在特定時(shí)刻、特定頻(pín)段内,确定一個(gè)聲音(yīn)流是否強于其他(tā)聲音(yīn)流。我們希望這(zhè)款濾音(yīn)器能告訴我們,在特定時(shí)刻,一個(gè)包含語音(yīn)或者噪聲的(de)聲音(yīn)流,是否會在其頻(pín)段内處于更加強勢的(de)地位,以此作爲分(fēn)離語音(yīn)和(hé)噪聲的(de)第一步。

什(shén)麽是理(lǐ)想二元掩模?

2001年,我的(de)實驗室率先設計出了(le)這(zhè)樣一種濾音(yīn)器,它能夠把聲音(yīn)流标記爲兩種:以語音(yīn)爲主,或者以噪聲爲主。有了(le)這(zhè)種濾音(yīn)器,我們又開發了(le)一款機器學習(xí)軟件,它能根據振幅(音(yīn)量)、諧波結構(音(yīn)調的(de)特定排列)以及開始時(shí)刻(一個(gè)聲音(yīn)相對(duì)于其他(tā)聲音(yīn)開始的(de)時(shí)間)等特征,把語音(yīn)與其他(tā)聲音(yīn)分(fēn)離開來(lái)。

最初開發的(de)這(zhè)種濾音(yīn)器就是我們所說的(de)理(lǐ)想二元掩模。它從名爲“時(shí)頻(pín)單元”的(de)聲音(yīn)片段中,找出噪聲和(hé)語音(yīn),并加以标記。通(tōng)過時(shí)頻(pín)單元,我們可(kě)以得(de)知各個(gè)頻(pín)段獨有的(de)發音(yīn)間隔。濾音(yīn)器會分(fēn)析每個(gè)時(shí)頻(pín)單元帶有噪音(yīn)的(de)樣本,用(yòng)1或0來(lái)标記。

如果“目标”聲音(yīn)(在此例中是語音(yīn))比噪聲更響亮,則标記爲1;如果目标聲音(yīn)更柔和(hé),則标記爲0。其結果就是一連串1和(hé)0,它們代表了(le)噪聲或語音(yīn)在樣本中的(de)主導地位。然後,濾音(yīn)器去掉所有标記爲0的(de)單元,再把那些标記爲1的(de)單元重新組織起來(lái)。爲了(le)從帶噪語音(yīn)中重新構建出可(kě)理(lǐ)解的(de)句子,必須有一定比例的(de)時(shí)頻(pín)單元被标記爲1。

2006年,我們在美(měi)國空軍研究實驗室開始測試理(lǐ)想二元掩模。同時(shí),雪(xuě)城(chéng)大(dà)學的(de)一支研究團隊對(duì)理(lǐ)想二元掩模進行了(le)獨立評估。在試驗中,這(zhè)種濾音(yīn)器不僅對(duì)聽(tīng)覺受損者有幫助,而且也(yě)有助于聽(tīng)力正常者更好地理(lǐ)解帶有噪音(yīn)的(de)句子。

我們創造的(de)濾音(yīn)器在實驗室中表現完美(měi),但必須要指出,現實環境并沒有實驗室那般理(lǐ)想。在實驗室中,對(duì)于每個(gè)樣本中語音(yīn)和(hé)背景噪音(yīn)誰強誰弱,我們是事先知道答(dá)案的(de)(“理(lǐ)想”指的(de)就是這(zhè)個(gè))。但在實際應用(yòng)中,濾音(yīn)器必須完全靠自己的(de)能力,将語音(yīn)從噪聲中分(fēn)離出來(lái)。

 

0 (1).jpg

 

仔細傾聽(tīng):在2013年拍(pāi)攝的(de)這(zhè)張照(zhào)片中,俄亥俄州立大(dà)學的(de)研究人(rén)員(yuán)正在測試一款基于深度神經網絡、用(yòng)來(lái)分(fēn)離語音(yīn)的(de)機器學習(xí)軟件。左二穿藍色上衣的(de)年長(cháng)者正是本文作者汪德亮。

盡管如此,理(lǐ)想二元掩模能爲理(lǐ)解語音(yīn)提供極大(dà)幫助,這(zhè)一事實具有重大(dà)意義。它表明(míng),分(fēn)類技術(監督學習(xí)的(de)一種形式)可(kě)以被用(yòng)來(lái)模拟理(lǐ)想二元掩模,以此作爲一種分(fēn)離語音(yīn)與噪聲的(de)方法。依靠分(fēn)類,機器通(tōng)過完成訓練、接收反饋、從實踐中吸取和(hé)牢記經驗教訓,來(lái)模拟人(rén)類的(de)學習(xí)過程。從本質上來(lái)說,我們小時(shí)候也(yě)是通(tōng)過同樣的(de)方法學會分(fēn)辨蘋果和(hé)橘子的(de)。

随後幾年,我的(de)實驗室首先是嘗試通(tōng)過分(fēn)類來(lái)模拟理(lǐ)想二元掩模。大(dà)約在我們開發初代分(fēn)類器的(de)同時(shí),卡内基梅隆大(dà)學的(de)一支團隊利用(yòng)機器學習(xí)技術,發明(míng)了(le)他(tā)們自己的(de)時(shí)頻(pín)單元分(fēn)類方法,但目的(de)有所不同,是用(yòng)來(lái)改善自動語音(yīn)識别。後來(lái),德克薩斯大(dà)學的(de)一支團隊采用(yòng)了(le)一種不同的(de)分(fēn)類方法,在使用(yòng)單聲道特征來(lái)提高(gāo)語音(yīn)理(lǐ)解方面第一次實現了(le)重要進展——這(zhè)與雙耳捕捉到的(de)雙聲道特征有很大(dà)區(qū)别。

但這(zhè)些早期機器學習(xí)方法使用(yòng)的(de)分(fēn)類技術仍然不夠強大(dà)或準确,還(hái)無法真正讓助聽(tīng)器佩戴者受益。在現實世界中,噪聲和(hé)語音(yīn)的(de)混合毫無規律可(kě)言,對(duì)于這(zhè)樣的(de)複雜(zá)場(chǎng)景,這(zhè)些實驗室方法根本無能爲力。因此,我們需要一種更加強大(dà)的(de)分(fēn)類技術。

理(lǐ)想二元掩模+深度學習(xí)

我們的(de)早期分(fēn)類算(suàn)法取得(de)了(le)比較理(lǐ)想的(de)初步結果,于是我們決定接著(zhe)走下(xià)去,對(duì)它進行改良,讓它在嘈雜(zá)的(de)現實環境中也(yě)能發揮作用(yòng)。這(zhè)個(gè)挑戰促使我們去做(zuò)以前從未做(zuò)過的(de)事:打造一款基于神經網絡的(de)機器學習(xí)軟件,經過複雜(zá)的(de)訓練過程後,可(kě)以将語音(yīn)和(hé)噪聲分(fēn)離。該軟件利用(yòng)理(lǐ)想二元掩模,來(lái)引導對(duì)神經網絡的(de)訓練。效果很不錯。在一項涉及24個(gè)測試對(duì)象的(de)研究中,這(zhè)款軟件使聽(tīng)覺受損者的(de)語音(yīn)理(lǐ)解能力提高(gāo)了(le)大(dà)約50%。

可(kě)以說,神經網絡就是一種軟件系統,由衆多(duō)相對(duì)簡單的(de)單元構成,通(tōng)過這(zhè)些單元的(de)協同工作,達到複雜(zá)的(de)處理(lǐ)水(shuǐ)平(系統的(de)結構大(dà)緻上模拟了(le)大(dà)腦(nǎo)神經元網絡的(de)工作方式)。在面對(duì)新的(de)樣本時(shí),神經網絡像人(rén)腦(nǎo)一樣,通(tōng)過調整連接線的(de)權重來(lái)“學習(xí)”。

 0 (2).jpg

 

智能層:深度神經網絡包含兩個(gè)或以上的(de)處理(lǐ)層,位于輸入層和(hé)輸出層之間。信息通(tōng)過輸入層輸入系統(左),輸出層輸出結果(右)。爲了(le)提高(gāo)性能,研究人(rén)員(yuán)可(kě)以調整系統的(de)參數和(hé)層與層之間的(de)連接。

神經網絡有多(duō)種形态和(hé)大(dà)小,複雜(zá)程度不一。深度神經網絡擁有至少兩個(gè)“隐藏的(de)”處理(lǐ)層,它們不是直接與系統的(de)輸入和(hé)輸出相連。每個(gè)隐藏層分(fēn)析前幾層傳遞而來(lái)的(de)結果,根據先驗知識,加入新的(de)考慮因素。

爲了(le)打造我們自己的(de)深度神經網絡,我們先編寫算(suàn)法,根據聲波的(de)振幅、頻(pín)率和(hé)聲調的(de)常見變化(huà),提取出可(kě)以用(yòng)來(lái)區(qū)分(fēn)語音(yīn)和(hé)噪聲的(de)特征。我們識别出的(de)特征有85個(gè),最重要的(de)特征包括聲音(yīn)的(de)頻(pín)率和(hé)強度(響亮還(hái)是輕柔)。

然後,我們對(duì)深度神經網絡進行訓練,讓它利用(yòng)這(zhè)85個(gè)特征來(lái)區(qū)分(fēn)語音(yīn)和(hé)噪聲。訓練分(fēn)成兩個(gè)階段:在第一階段,我們通(tōng)過無監督學習(xí),設定程序的(de)參數。也(yě)就是說,我們把特征的(de)很多(duō)例子載入程序,好讓它事先了(le)解以後會遇到的(de)信号類型。

接下(xià)來(lái),我們利用(yòng)帶噪語音(yīn)樣本及其理(lǐ)想二元掩模的(de)相應結果,來(lái)完成第二階段的(de)訓練,即監督學習(xí)。那些“1和(hé)0”分(fēn)類結果就如同考試題,用(yòng)來(lái)不斷磨練程序區(qū)的(de)能力。

如果神經網絡輸出結果與理(lǐ)想二元掩模之間存在差異,就會被判爲錯誤。經過計算(suàn)和(hé),我們會相應地調整神經網絡連接線的(de)權重,以便再次進行同樣的(de)分(fēn)類時(shí),使偏差縮小。對(duì)神經網絡的(de)訓練要經過成千上萬次這(zhè)樣周而複始的(de)考試。

在這(zhè)個(gè)過程中有一個(gè)重要的(de)改進,就是建立了(le)第二個(gè)深度神經網絡,對(duì)第一個(gè)網絡的(de)結果進行調整。第一個(gè)網絡專注于标記各個(gè)時(shí)頻(pín)單元的(de)特征,而第二個(gè)網絡會檢查特定單元附近幾個(gè)單元的(de)特征。

爲什(shén)麽這(zhè)個(gè)改進效果很好?可(kě)以打個(gè)比方來(lái)解釋:如果說第一個(gè)網絡著(zhe)眼于一套待售住宅的(de)各個(gè)房(fáng)間,那麽第二個(gè)網絡就是用(yòng)來(lái)考察住宅周邊的(de)環境。換句話(huà)說,第二個(gè)網絡向第一個(gè)網絡提供了(le)有關語音(yīn)和(hé)噪聲的(de)額外背景,從而進一步提高(gāo)了(le)分(fēn)類的(de)準确性。

讓人(rén)欣喜的(de)考試成績

監督訓練結束時(shí),深度神經網絡分(fēn)類器在分(fēn)離語音(yīn)和(hé)噪聲方面明(míng)顯優于以前的(de)方法。事實上,在依靠單聲道技術的(de)所有算(suàn)法中,這(zhè)種算(suàn)法在幫助聽(tīng)障者理(lǐ)解帶噪語音(yīn)方面首次取得(de)重大(dà)進步。

接下(xià)來(lái)我們進行了(le)人(rén)類實測。我們請12位聽(tīng)障者和(hé)12位聽(tīng)覺正常者通(tōng)過耳機聽(tīng)取嘈雜(zá)環境中的(de)句子樣本。樣本成對(duì)出現:首先是語音(yīn)和(hé)噪聲同時(shí)發生,然後是用(yòng)我們基于深度神經網絡打造的(de)程序處理(lǐ)同一個(gè)樣本。句子中有兩種噪音(yīn),一種是持續的(de)嗡嗡聲,另一種是很多(duō)人(rén)同時(shí)說話(huà)的(de)叽叽喳喳聲。

在經過程序處理(lǐ)後,兩組實驗對(duì)象的(de)聽(tīng)力理(lǐ)解能力均出現大(dà)幅提升。在沒有經過程序處理(lǐ)的(de)情況下(xià),聽(tīng)力受損者在嗡嗡聲的(de)環境中隻能懂(dǒng)36%的(de)單詞,經過程序處理(lǐ)後,這(zhè)個(gè)比例提高(gāo)到86%。在叽叽喳喳的(de)嘈雜(zá)環境中,他(tā)們一開始隻能理(lǐ)解29%的(de)單詞,而經過程序處理(lǐ)後,能理(lǐ)解的(de)單詞提升到84%。

對(duì)于聽(tīng)力正常者,在第一種噪音(yīn)環境中,他(tā)們的(de)理(lǐ)解力從37%提高(gāo)到80%;第二種環境中,這(zhè)個(gè)數字從42%提高(gāo)到78%。

在我們的(de)實驗中,最引人(rén)注目的(de)一個(gè)結果是,聽(tīng)力受損者在程序的(de)幫助下(xià),理(lǐ)解能力甚至可(kě)以超過聽(tīng)力正常者。憑借這(zhè)些結果,可(kě)以自豪地說,我們這(zhè)套基于深度神經網絡打造的(de)程序,是迄今爲止最接近于解決雞尾酒會問題的(de)一種技術。

當然,該程序的(de)能力也(yě)存在局限性。例如,在我們的(de)樣本中,掩蓋語音(yīn)的(de)噪音(yīn)類型非常類似于程序在訓練過程中分(fēn)類的(de)噪音(yīn)類型。想要在現實生活中發揮作用(yòng),程序需要迅速學會濾除很多(duō)的(de)噪音(yīn)類型,包括不同于它已經碰到過的(de)類型。例如,通(tōng)風系統的(de)嘶嘶聲不同于冰箱壓縮機的(de)嗡嗡聲。另外,我們使用(yòng)的(de)帶噪樣本中,并沒有将回聲包括進去,而回聲會使雞尾酒會問題變得(de)更加複雜(zá)。

在得(de)到那些早期研究結果後,我們又購(gòu)買了(le)一個(gè)爲電影(yǐng)制片人(rén)設計的(de)聲效數據庫,用(yòng)其中的(de)1萬種噪音(yīn),進一步訓練我們的(de)程序。2016年,我們發現,重新訓練後的(de)程序可(kě)以對(duì)抗全新的(de)噪音(yīn),顯著改善理(lǐ)解能力。目前,我們正在更多(duō)的(de)環境中運行該程序,讓更多(duō)的(de)聽(tīng)覺受損者測試它。

最終,我們相信該程序可(kě)以在性能強大(dà)的(de)計算(suàn)機上進行訓練,直接嵌入助聽(tīng)器或者通(tōng)過藍牙等無線連接方式與智能手機協同工作,向耳機提供經過處理(lǐ)的(de)實時(shí)信号。而且制造商還(hái)可(kě)以通(tōng)過發布加強版的(de)軟件補丁來(lái)不斷提高(gāo)助聽(tīng)器的(de)性能。

有了(le)這(zhè)種方法,雞尾酒會問題不再像幾年前那樣令人(rén)怯步。通(tōng)過在更多(duō)的(de)噪音(yīn)環境中進行更廣泛的(de)訓練,我們和(hé)其他(tā)人(rén)現在開發的(de)軟件有望最終克服這(zhè)一難題。這(zhè)個(gè)過程就像小孩學習(xí)分(fēn)離語音(yīn)和(hé)噪聲的(de)過程,也(yě)就是不斷地暴露于各種各樣的(de)語音(yīn)和(hé)噪聲環境中。通(tōng)過更多(duō)的(de)練習(xí),這(zhè)種方法隻會越來(lái)越好。這(zhè)就是其魅力所在。

翻譯:于波

來(lái)源:IEEE Spectrum