麻省理工學院 | 確保人工智能以適當?shù)暮闷嫘墓ぷ?
指南者留學 2022-11-15 14:18:07 閱讀量:1181
<p><img src="https://info.compassedu.hk/sucai/content/1668493307016/1668493307016.png" width="808" height="539" /></p> <p>這是一個和時間一樣古老的困境。周五晚上到了,你正試著選一家餐廳吃晚餐。你是去你最喜歡的酒吧,還是去一家新的餐館,希望能發(fā)現(xiàn)一些更好的東西?有可能,但這種好奇心也有風險:如果你嘗試新的選擇,食物可能會更糟糕。另一方面,如果你堅持你所知道的行之有效的方法,你就不會走出自己狹窄的道路。</p> <p>&nbsp;</p> <p>好奇心驅使人工智能去探索世界,現(xiàn)在有無限的用例&mdash;&mdash;自主導航、機器人決策、優(yōu)化健康結果等等。在某些情況下,機器使用&ldquo;強化學習&rdquo;來完成一個目標,即AI代理迭代地從良好行為的獎勵和不良行為的懲罰中學習。就像人類在選擇餐廳時所面臨的困境一樣,這些代理也在努力平衡花在發(fā)現(xiàn)更好的行動(探索)和花在過去導致高回報的行動(開發(fā))上的時間。太多的好奇心會分散代理做出好的決策的注意力,而太少的好奇心則意味著代理永遠不會發(fā)現(xiàn)好的決策。</p> <p>&nbsp;</p> <p>為了讓人工智能代理具備適當?shù)暮闷嫘?,麻省理工學院(MIT)不可思議人工智能實驗室(impossible AI Laboratory)和計算機科學與人工智能實驗室(CSAIL)的研究人員創(chuàng)建了一種算法,克服了人工智能過于&ldquo;好奇&rdquo;和被給定任務分心的問題。當需要的時候,他們的算法會自動增加好奇心,而如果代理從環(huán)境得到足夠的監(jiān)督,知道該做什么,就會抑制好奇心。</p> <p>&nbsp;</p> <p>在對60多款電子游戲進行測試后,該算法能夠成功地完成困難和簡單的探索任務,而之前的算法只能單獨解決一個困難或簡單的領域。通過這種方法,人工智能代理使用更少的數(shù)據(jù)來學習決策規(guī)則,使激勵最大化。</p> <p>&nbsp;</p> <p>&ldquo;如果你很好地掌握了探索和利用之間的平衡,你就能更快地學會正確的決策規(guī)則&mdash;&mdash;如果你做得不夠好,就需要大量的數(shù)據(jù),這可能意味著次優(yōu)的醫(yī)療,網(wǎng)站的利潤更低,以及機器人不會學習做正確的事情,&rdquo;麻省理工學院電子工程和計算機科學(EECS)助理教授Pulkit Agrawal說,他是不可可能人工智能實驗室的主任,也是監(jiān)督該研究的CSAIL下屬機構。&ldquo;想象一下,一個網(wǎng)站試圖找出其內容的設計或布局,以最大化銷售。如果勘探開發(fā)做得不好,收斂到正確的網(wǎng)站設計或正確的網(wǎng)站布局將需要很長時間,這意味著利潤的損失。或者在衛(wèi)生保健環(huán)境中,比如Covid-19,可能需要做出一系列決定來治療患者,如果你想使用決策算法,它們需要快速有效地學習&mdash;&mdash;你不想在治療大量患者時得到一個次優(yōu)解決方案。我們希望這項工作能應用于現(xiàn)實世界中類似的問題。&rdquo;</p> <p>&nbsp;</p> <p>很難囊括好奇心心理基礎的細微差別;挑戰(zhàn)尋求行為的潛在神經(jīng)關聯(lián)是一個知之甚少的現(xiàn)象。對這種行為進行分類的嘗試跨越了多個研究,這些研究深入研究了我們的沖動、剝奪敏感性、社交和壓力耐受力。</p> <p>&nbsp;</p> <p>在強化學習中,這一過程在情感上被&ldquo;修剪&rdquo;,剝離到最基本的部分,但在技術方面很復雜。從本質上說,代理應該只在沒有足夠的監(jiān)督來嘗試不同的事物時才感到好奇,如果有監(jiān)督,它必須調整好奇心并降低好奇心。</p> <p>&nbsp;</p> <p>因為大部分游戲都是在奇幻環(huán)境中奔跑,尋找獎勵并執(zhí)行一系列行動以實現(xiàn)某些目標的小代理,所以這似乎是研究人員算法的邏輯試驗臺。在實驗中,研究人員將《馬里奧賽車》和《蒙特祖瑪?shù)膹统稹愤@類游戲分為兩類:一類是監(jiān)管較少的游戲,這意味著代理人的指導較少,被認為是&ldquo;難&rdquo;探索游戲;另一類是監(jiān)管較密集的游戲,被認為是&ldquo;容易&rdquo;探索游戲。</p> <p>&nbsp;</p> <p>假設在《馬里奧賽車》中,你只移除所有獎勵,所以你不知道敵人何時會消滅你。當你收集硬幣或跳過管道時,你不會得到任何獎勵。代理最終只會被告知它做得有多好。這將是一個監(jiān)管稀疏的例子。在這種情況下,激發(fā)好奇心的算法表現(xiàn)得非常好。</p> <p>&nbsp;</p> <p>但是現(xiàn)在,假設代理被提供了嚴格的監(jiān)督&mdash;&mdash;跳過管道、收集硬幣和消滅敵人的獎勵。在這里,一個沒有好奇心的算法表現(xiàn)得非常好,因為它經(jīng)常得到獎勵。但如果你采用同樣使用好奇心的算法,它會學習得很慢。這是因為好奇的代理可能會嘗試以不同的方式快速奔跑,四處跳舞,去到游戲屏幕的每個部分&mdash;&mdash;這些事情很有趣,但無助于代理在游戲中取得成功。然而,該團隊的算法始終表現(xiàn)良好,不管它在什么環(huán)境中。</p> <p>&nbsp;</p> <p>未來的工作可能涉及到多年來讓心理學家既高興又困擾的探索:好奇心的合適度量標準&mdash;&mdash;沒有人真正知道用數(shù)學定義好奇心的正確方法。</p> <p>&nbsp;</p> <p>&ldquo;在一個新問題上獲得一致的良好表現(xiàn)是極具挑戰(zhàn)性的&mdash;&mdash;因此,通過改進探索算法,我們可以節(jié)省您為您感興趣的問題調優(yōu)算法的精力,&rdquo;EECS博士生、CSAIL會員張衛(wèi)紅(音譯)說,他與Eric Chen ' 20,孟' 21共同撰寫了一篇關于這項工作的新論文。&ldquo;我們需要好奇心來解決極具挑戰(zhàn)性的問題,但在某些問題上,好奇心會影響表現(xiàn)。我們提出了一種算法,消除了調整勘探和開發(fā)平衡的負擔。以前要花一周時間才能成功解決的問題,有了這個新算法,我們可以在幾個小時內得到滿意的結果。&rdquo;</p> <p>&ldquo;當前人工智能和認知科學面臨的最大挑戰(zhàn)之一是如何平衡探索和利用&mdash;&mdash;搜索信息與搜索獎勵。加州大學伯克利分校(University of California at Berkeley)的心理學教授兼哲學副教授艾莉森&middot;戈普尼克(Alison Gopnik)指出,&ldquo;孩子們可以無縫地做到這一點,但在計算上存在挑戰(zhàn)。&rdquo;她沒有參與該項目。&ldquo;這篇論文使用了令人印象深刻的新技術來自動完成這一任務,設計了一個可以系統(tǒng)地平衡對世界的好奇心和對獎勵的渴望的代理,(因此)向讓人工智能代理(幾乎)像孩子一樣聰明又邁進了一步。&rdquo;</p> <p>&nbsp;</p> <p>&ldquo;像好奇心這樣的內在獎勵是引導代理發(fā)現(xiàn)有用的多樣化行為的基礎,但這不應該以完成給定任務為代價。這是人工智能中的一個重要問題,這篇論文提供了一種平衡這種權衡的方法,&rdquo;卡內基梅隆大學的助理教授迪帕克&middot;帕塔克補充說,他也沒有參與這項工作。&ldquo;看到這種方法如何從游戲擴展到現(xiàn)實世界的機器人代理將是很有趣的。&rdquo;</p> <p>&nbsp;</p> <p>陳、洪和阿格拉瓦爾與阿爾托大學助理教授、達姆施塔特大學智能自主系統(tǒng)小組研究負責人Joni Pajarinen共同撰寫了這篇論文。該研究部分得到了MIT-IBM沃森人工智能實驗室、DARPA機器常識項目、美國空軍研究實驗室和美國空軍人工智能加速器的陸軍研究室的支持。該論文將在神經(jīng)信息與處理系統(tǒng)(NeurIPS) 2022上發(fā)表。</p> <p>&nbsp;</p> <blockquote> <p>注:本文由院校官方新聞直譯,僅供參考,不代表指南者留學態(tài)度觀點。</p> </blockquote>
預約咨詢
預約咨詢
猜你喜歡
微信咨詢
掃一掃立即咨詢
App下載
下載指南者留學App
在線客服
電話咨詢
400-183-1832
回到頂部
預約咨詢
現(xiàn)在來設置你的賬號吧
只需要花不到一分鐘,之后便可以獲得更精準的推薦~
1
留學意向
2
基本意向
3
詳細背景
4
了解途徑
1.1 您期望申請學歷是
1.2 您期待的留學地區(qū)是多選
2.1 您的身份狀態(tài)是
2.2 您的目前學歷是
3.1 您的本科學校是
大陸本科
海外本科
3.2 您的學校名稱是
沒有查詢到相關的學校
查詢中...
3.3 您的專業(yè)名稱是
沒有查詢到相關的專業(yè)
查詢中...
4. 您了解到我們的途徑是
取消