麻省理工學(xué)院 | 用聲音模擬世界——這個機(jī)器學(xué)習(xí)系統(tǒng)可以模擬聽眾如何從房間的任何一點(diǎn)聽到聲音。
指南者留學(xué)
2022-11-02 14:51:06
閱讀量:1219
<p>想象一下管風(fēng)琴發(fā)出的轟隆隆的和弦在巨大的石頭大教堂的海綿狀圣殿中回蕩。</p>
<p> </p>
<p>去大教堂的人會聽到的聲音受許多因素的影響,包括管風(fēng)琴的位置、聽眾站立的位置、它們之間是否有任何柱子、長椅或其他障礙物、墻壁是由什么制成的、窗戶或門口等。聽到聲音可以幫助人們想象他們的環(huán)境。</p>
<p> </p>
<p>麻省理工學(xué)院和 MIT-IBM 沃森人工智能實(shí)驗(yàn)室的研究人員也在探索使用空間聲學(xué)信息來幫助機(jī)器更好地想象他們的環(huán)境。他們開發(fā)了一種機(jī)器學(xué)習(xí)模型,可以捕捉房間中的任何聲音如何在空間中傳播,從而使模型能夠模擬聽眾在不同位置聽到的聲音。</p>
<p> </p>
<p>通過準(zhǔn)確地模擬場景的聲學(xué)效果,系統(tǒng)可以從錄音中學(xué)習(xí)房間的基本 3D 幾何形狀。研究人員可以使用他們的系統(tǒng)捕獲的聲學(xué)信息來構(gòu)建房間的準(zhǔn)確視覺渲染,類似于人類在估計(jì)物理環(huán)境屬性時使用聲音的方式。</p>
<p> </p>
<p>除了在虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)中的潛在應(yīng)用外,這項(xiàng)技術(shù)還可以幫助人工智能代理更好地了解他們周圍的世界。例如,通過對其環(huán)境中聲音的聲學(xué)特性進(jìn)行建模,水下探索機(jī)器人可以感知比僅靠視覺更遠(yuǎn)的事物,電氣工程與計(jì)算機(jī)科學(xué)系的研究生 Yilun Du 說。 EECS)和描述該模型的論文的合著者。</p>
<p> </p>
<p>“到目前為止,大多數(shù)研究人員只關(guān)注視覺建模。但作為人類,我們有多模態(tài)感知。不僅視覺很重要,聲音也很重要。我認(rèn)為這項(xiàng)工作為更好地利用聲音來模擬世界開辟了一個令人興奮的研究方向,”杜說。</p>
<p> </p>
<p>與 Du 一起發(fā)表論文的是主要作者 Andrew Luo,他是卡內(nèi)基梅隆大學(xué) (CMU) 的研究生;Michael J. Tarr,CMU 認(rèn)知與腦科學(xué) Kav?i?-Moura 教授;和資深作者 Joshua B. Tenenbaum,麻省理工學(xué)院腦與認(rèn)知科學(xué)系教授,計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室 (CSAIL) 成員;Antonio Torralba,Delta Electronics 電氣工程和計(jì)算機(jī)科學(xué)教授,CSAIL 成員;以及 MIT-IBM Watson AI Lab 的首席研究人員 Chuang Gan。該研究將在神經(jīng)信息處理系統(tǒng)會議上發(fā)表。</p>
<p> </p>
<p><strong><span class="h1">聲音和視覺</span></strong></p>
<p> </p>
<p>在計(jì)算機(jī)視覺研究中,一種稱為隱式神經(jīng)表示模型的機(jī)器學(xué)習(xí)模型已被用于從圖像中生成平滑、連續(xù)的 3D 場景重建。這些模型利用神經(jīng)網(wǎng)絡(luò),其中包含互連節(jié)點(diǎn)或神經(jīng)元的層,它們處理數(shù)據(jù)以完成任務(wù)。</p>
<p> </p>
<p>麻省理工學(xué)院的研究人員使用相同類型的模型來捕捉聲音如何在場景中連續(xù)傳播。</p>
<p> </p>
<p>但他們發(fā)現(xiàn)視覺模型受益于一種稱為光度一致性的特性,該特性不適用于聲音。如果一個人從兩個不同的位置看同一個物體,這個物體看起來大致相同。但是對于聲音,改變位置和聽到的聲音可能會因障礙物、距離等而完全不同。這使得預(yù)測音頻非常困難。</p>
<p> </p>
<p>研究人員通過將聲學(xué)的兩個特性納入他們的模型來克服這個問題:聲音的互惠性質(zhì)和局部幾何特征的影響。</p>
<p> </p>
<p>聲音是相互的,這意味著如果聲音的來源和聽者交換位置,則人聽到的內(nèi)容不會改變。此外,人們在特定區(qū)域聽到的聲音很大程度上受當(dāng)?shù)靥卣鞯挠绊?,例如聽眾和聲源之間的障礙物。</p>
<p> </p>
<p>為了將這兩個因素整合到他們的模型中,稱為神經(jīng)聲場 (NAF),他們用一個網(wǎng)格來增強(qiáng)神經(jīng)網(wǎng)絡(luò),該網(wǎng)格可以捕捉場景中的物體和建筑特征,如門口或墻壁。該模型隨機(jī)采樣該網(wǎng)格上的點(diǎn)以學(xué)習(xí)特定位置的特征。</p>
<p> </p>
<p>“如果你想象站在門口附近,最能影響你聽到的聲音的是那個門口的存在,不一定是房間另一邊離你很遠(yuǎn)的幾何特征。我們發(fā)現(xiàn),與簡單的全連接網(wǎng)絡(luò)相比,這些信息能夠?qū)崿F(xiàn)更好的泛化,”羅說。</p>
<p> </p>
<p><strong><span class="h1">從預(yù)測聲音到可視化場景</span></strong></p>
<p> </p>
<p>研究人員可以向 NAF 提供有關(guān)場景的視覺信息和一些頻譜圖,這些頻譜圖顯示了當(dāng)發(fā)射器和聽者位于房間周圍的目標(biāo)位置時一段音頻的聲音。然后,該模型會預(yù)測如果聽者移動到場景中的任何點(diǎn),該音頻聽起來會是什么樣子。</p>
<p> </p>
<p>NAF 輸出一個脈沖響應(yīng),它捕捉聲音在場景中傳播時應(yīng)該如何變化。然后,研究人員將這種脈沖響應(yīng)應(yīng)用于不同的聲音,以了解當(dāng)一個人穿過房間時這些聲音應(yīng)該如何變化。</p>
<p> </p>
<p>例如,如果房間中央的揚(yáng)聲器正在播放一首歌曲,他們的模型會顯示當(dāng)一個人靠近揚(yáng)聲器時聲音如何變大,然后當(dāng)他們走進(jìn)相鄰的走廊時聲音變得沉悶。</p>
<p> </p>
<p>當(dāng)研究人員將他們的技術(shù)與其他模擬聲學(xué)信息的方法進(jìn)行比較時,它在每種情況下都生成了更準(zhǔn)確的聲音模型。而且因?yàn)樗鼘W(xué)習(xí)了局部幾何信息,他們的模型能夠比其他方法更好地泛化到場景中的新位置。</p>
<p> </p>
<p>此外,他們發(fā)現(xiàn)將他們的模型學(xué)習(xí)到的聲學(xué)信息應(yīng)用于計(jì)算機(jī)視覺模型可以更好地重建場景的視覺效果。</p>
<p> </p>
<p>“例如,當(dāng)您只有一組稀疏的視圖時,使用這些聲學(xué)特征可以讓您更清晰地捕捉邊界。這可能是因?yàn)橐獪?zhǔn)確渲染場景的聲學(xué)效果,您必須捕捉該場景的底層 3D 幾何圖形,”Du 說。</p>
<p> </p>
<p>研究人員計(jì)劃繼續(xù)增強(qiáng)該模型,使其可以推廣到全新的場景。他們還希望將此技術(shù)應(yīng)用于更復(fù)雜的脈沖響應(yīng)和更大的場景,例如整個建筑物甚至城鎮(zhèn)或城市。</p>
<p> </p>
<p>“這項(xiàng)新技術(shù)可能會為在元節(jié)應(yīng)用程序中創(chuàng)建多模態(tài)沉浸式體驗(yàn)開辟新的機(jī)會,”Gan 補(bǔ)充道。</p>
<p> </p>
<p>“我的團(tuán)隊(duì)在使用機(jī)器學(xué)習(xí)方法加速聲學(xué)仿真或模擬真實(shí)世界場景的聲學(xué)方面做了大量工作。Chuang Gan 和他的合著者的這篇論文顯然是朝著這個方向邁出的重要一步,”馬里蘭大學(xué)計(jì)算機(jī)科學(xué)和電氣與計(jì)算機(jī)工程教授 Dinesh Manocha 說工作。“特別是,本文介紹了一種很好的隱式表示,它可以通過使用線性時不變系統(tǒng)對其進(jìn)行建模來捕捉聲音在現(xiàn)實(shí)世界場景中的傳播方式。這項(xiàng)工作可以在 AR/VR 以及現(xiàn)實(shí)世界場景理解方面有很多應(yīng)用。”</p>
<p> </p>
<p>這項(xiàng)工作部分得到了 MIT-IBM Watson AI 實(shí)驗(yàn)室以及天橋和陳慧嫻研究所的支持。</p>
<p> </p>
<p><span style="color: #666666;">注:本文由院校官方新聞直譯,僅供參考,不代表指南者留學(xué)態(tài)度觀點(diǎn)。</span></p>