麻省理工學(xué)院 | 一種有遠(yuǎn)見的機(jī)器學(xué)習(xí)方法
指南者留學(xué)
2022-11-24 23:42:34
閱讀量:1167
<p>想象兩支球隊(duì)在足球場(chǎng)擺好架勢(shì)。玩家可以為了達(dá)成一個(gè)目標(biāo)而合作,也可以與其他利益沖突的玩家競(jìng)爭(zhēng)。游戲就是這么玩的。</p>
<p> </p>
<p>創(chuàng)造能夠像人類一樣學(xué)習(xí)競(jìng)爭(zhēng)和合作的人工智能代理仍然是一個(gè)棘手的問題。一個(gè)關(guān)鍵的挑戰(zhàn)是,當(dāng)人工智能智能體同時(shí)學(xué)習(xí)時(shí),如何使它們能夠預(yù)測(cè)其他智能體的未來行為。</p>
<p> </p>
<p>由于這一問題的復(fù)雜性,目前的方法往往是短視的;代理只能猜測(cè)隊(duì)友或競(jìng)爭(zhēng)者接下來的幾個(gè)動(dòng)作,這導(dǎo)致了長(zhǎng)期的糟糕表現(xiàn)。</p>
<p> </p>
<p>來自麻省理工學(xué)院、MIT- ibm沃森人工智能實(shí)驗(yàn)室和其他地方的研究人員開發(fā)了一種新的方法,使人工智能代理具有遠(yuǎn)見。</p>
<p> </p>
<p>他們的機(jī)器學(xué)習(xí)框架使合作或競(jìng)爭(zhēng)的AI代理能夠在時(shí)間接近無窮大時(shí)考慮其他代理將做什么,而不僅僅是考慮接下來的幾個(gè)步驟。然后,代理相應(yīng)地調(diào)整自己的行為,以影響其他代理的未來行為,并達(dá)到一個(gè)最佳的、長(zhǎng)期的解決方案。</p>
<p> </p>
<p>這一框架可以被一組自動(dòng)駕駛無人機(jī)用來在茂密的森林中尋找走失的徒步旅行者,也可以被自動(dòng)駕駛汽車用來通過預(yù)測(cè)在繁忙的高速公路上行駛的其他車輛的未來動(dòng)向來努力保證乘客的安全。</p>
<p> </p>
<p>“當(dāng)人工智能代理在合作或競(jìng)爭(zhēng)時(shí),最重要的是它們的行為何時(shí)在未來的某個(gè)時(shí)刻趨于一致。在這個(gè)過程中有很多短暫的行為,從長(zhǎng)遠(yuǎn)來看并沒有太大影響。達(dá)到這種聚合行為是我們真正關(guān)心的,我們現(xiàn)在有一個(gè)數(shù)學(xué)方法來實(shí)現(xiàn)它,”麻省理工學(xué)院信息和決策系統(tǒng)實(shí)驗(yàn)室(LIDS)的研究生Dong-Ki Kim說,他是描述該框架的一篇論文的主要作者。</p>
<p> </p>
<p>資深作者喬納森·p·豪,理查德·c·麥克勞林航空航天教授,麻省理工學(xué)院- ibm沃森人工智能實(shí)驗(yàn)室成員。共同作者包括來自麻省理工-IBM沃森人工智能實(shí)驗(yàn)室、IBM研究中心、米拉-魁北克人工智能研究所和牛津大學(xué)的其他人。這項(xiàng)研究將在神經(jīng)信息處理系統(tǒng)會(huì)議上發(fā)表。</p>
<p> </p>
<p>代理越多,問題就越多</p>
<p> </p>
<p>研究人員專注于一個(gè)被稱為多主體強(qiáng)化學(xué)習(xí)的問題。強(qiáng)化學(xué)習(xí)是一種機(jī)器學(xué)習(xí)形式,AI代理通過試錯(cuò)進(jìn)行學(xué)習(xí)。研究人員對(duì)幫助其實(shí)現(xiàn)目標(biāo)的“良好”行為給予獎(jiǎng)勵(lì)。代理會(huì)調(diào)整自己的行為以最大化獎(jiǎng)勵(lì),直到最終成為某項(xiàng)任務(wù)的專家。</p>
<p> </p>
<p>但當(dāng)許多合作或競(jìng)爭(zhēng)主體同時(shí)學(xué)習(xí)時(shí),事情就會(huì)變得越來越復(fù)雜。隨著代理考慮其他代理的更多未來步驟,以及它們自己的行為如何影響其他代理,這個(gè)問題很快就需要太多的計(jì)算能力來有效解決。這就是為什么其他方法只關(guān)注短期。</p>
<p> </p>
<p>“人工智能確實(shí)想要考慮游戲的結(jié)局,但他們不知道游戲什么時(shí)候結(jié)束。他們需要思考如何不斷調(diào)整自己的行為,以便在未來的某個(gè)遙遠(yuǎn)時(shí)刻贏得勝利。我們的論文實(shí)質(zhì)上提出了一個(gè)新的目標(biāo),使人工智能能夠思考無限,”金說。</p>
<p> </p>
<p>但由于不可能在算法中插入無窮大,研究人員設(shè)計(jì)了他們的系統(tǒng),讓代理關(guān)注未來的一個(gè)點(diǎn),在這個(gè)點(diǎn)上,它們的行為將與其他代理的行為收斂,這被稱為平衡。一個(gè)平衡點(diǎn)決定了智能體的長(zhǎng)期性能,在多智能體的情況下可以存在多個(gè)平衡。因此,一個(gè)有效的agent會(huì)積極地影響其他agent的未來行為,使它們從agent的角度達(dá)到一個(gè)理想的平衡。如果所有的因素相互影響,它們就會(huì)趨同于一個(gè)研究人員稱之為“主動(dòng)平衡”的一般概念。</p>
<p> </p>
<p>他們開發(fā)的機(jī)器學(xué)習(xí)框架被稱為FURTHER(代表“充分加強(qiáng)主動(dòng)影響與平均獎(jiǎng)勵(lì)”),使代理能夠?qū)W習(xí)如何在與其他代理交互時(shí)調(diào)整自己的行為,以實(shí)現(xiàn)這種主動(dòng)平衡。</p>
<p> </p>
<p>FURTHER使用兩個(gè)機(jī)器學(xué)習(xí)模塊來實(shí)現(xiàn)這一點(diǎn)。第一個(gè)是推理模塊,它使一個(gè)代理能夠猜測(cè)其他代理的未來行為和它們使用的學(xué)習(xí)算法,僅基于它們之前的行為。</p>
<p> </p>
<p>這些信息被輸入到強(qiáng)化學(xué)習(xí)模塊中,代理使用該模塊來調(diào)整其行為并影響其他代理,使其獲得的獎(jiǎng)勵(lì)最大化。</p>
<p> </p>
<p>“挑戰(zhàn)在于思考無限。我們必須使用許多不同的數(shù)學(xué)工具來實(shí)現(xiàn)這一點(diǎn),并做一些假設(shè)以使其在實(shí)踐中工作,”Kim說。</p>
<p>贏得長(zhǎng)期的勝利</p>
<p> </p>
<p>他們?cè)趲讉€(gè)不同的場(chǎng)景中,用其他多智能體強(qiáng)化學(xué)習(xí)框架測(cè)試了他們的方法,包括一對(duì)機(jī)器人進(jìn)行相撲式的比賽,以及兩個(gè)25智能體團(tuán)隊(duì)之間的戰(zhàn)斗。在這兩種情況下,使用FURTHER的AI代理更容易贏得游戲。</p>
<p> </p>
<p>由于他們的方法是分散的,這意味著代理獨(dú)立學(xué)習(xí)贏得游戲,它也比其他需要中央計(jì)算機(jī)來控制代理的方法更具可擴(kuò)展性,Kim解釋道。</p>
<p> </p>
<p>研究人員使用游戲來測(cè)試他們的方法,但FURTHER可以用來解決任何類型的多主體問題。例如,當(dāng)許多相互作用的主體的行為和利益隨時(shí)間而變化時(shí),經(jīng)濟(jì)學(xué)家可以應(yīng)用它來尋求制定合理的政策。</p>
<p> </p>
<p>經(jīng)濟(jì)學(xué)是金特別感興趣的一門學(xué)科。他還希望更深入地挖掘主動(dòng)均衡的概念,并繼續(xù)加強(qiáng)FURTHER框架。</p>
<p> </p>
<p>這項(xiàng)研究的部分資金來自麻省理工學(xué)院- ibm沃森人工智能實(shí)驗(yàn)室。</p>
<p> </p>
<blockquote>
<p>注:本文由院校官方新聞直譯,僅供參考,不代表指南者留學(xué)態(tài)度觀點(diǎn)。</p>
</blockquote>