close

AI 網紅 Andrej Karpathy:為什麼 AlphaGo很難應用到圍棋以外的世界?

AI 網紅 Andrej Karpathy:為什麼 AlphaGo很難應用到圍棋以外的世界?新智元???2017-06-02???36氪評論AlphaGo 在AI算法方面並沒有根本性的突破,隻是狹義AI的一個例子,但卻象征著 Alphabet 的AI 能力:公司的人才數量/質量、掌握的計算資源,以及公司高層對AI的關註編者按:本文由新智元編譯 ,來源:medium.com,作者:Andrej Karpathy,編譯:劉小芹 弗格森;36氪經授權發佈。

Karpathy在文章中談到瞭AlphaGo技術中一些很酷的部分,以及,從圍棋的7大屬性出發,談到瞭AlphaGo常常被人忽視的一些局限性。

我最近有幸跟幾個人聊到瞭AlphaGo與柯潔等棋手的比賽。特別是,大多數的報道都是大眾科學+PR的混合體,所以,最常見的問題就變成瞭“AlphaGo的突破性表現在什麼地方?”“AI研究者如何看待AlphaGo的勝利”以及“ 勝利的意義在哪?”

我想,針對這些問題,我有一些自己的想法。

一些很酷的部分AlphaGo 是由一系列相對來說比較基礎(standard)的技術組成的:行為復制(對人類所展示的數據進行有監督式的學習),強化學習,價值函數和蒙特卡洛樹搜索(MCTS)。不過,這些“組件”的組合形式是極具創新性的。

具體說來,AlphaGo使用瞭一個SL(監督學習)策略,來把在自我對弈中變得越來越完美的強化學習策略激活。這也是隨後他們評估價值函數的來源,接著他們會把價值函數嵌入到蒙特卡洛樹搜索中(從某處程度上來說這很令人意外),蒙特卡洛樹搜索會使用(更爛!但是更多樣化)的監督學習策略來對rollouts進行抽樣。

此外,策略/價值網絡是一些深度神經網絡,所以,要讓所有的事情都正常工作,這意味著其本身也會面臨一些獨特的挑戰(例如,價值函數的訓練使用的是一種狡猾的方法,以預防過擬合)。在所有的這些方面,DeepMind都執行得非常好。他們曾說,在解決強化學習的難題上,AlphaGo本身並沒有使用任何具有基礎性的、算法的突破。

狹義AlphaGo縮小來看,總的來說AlphaGo 還隻是一個狹義的AI系統,會下圍棋,但是也僅此而已。DeepMind用來玩 ATARI 遊戲的智能體使用的並不是AlphaGo慣用的技術方法。神經圖靈機與AlphaGo沒有什麼關系。

谷歌搜索引擎也不會使用AlphaGo。所以,AlphaGo不會推廣到除圍棋以外的任何問題上。但是,研究AlphaGo的人和神經網絡技術可以擴展,它們比舊時代的AI 具有更高的效率,因為以前的AI,每一詞demo都需要儲備專門化的、具體的代碼。

我希望通過列舉圍棋的一些特殊屬性,來擴展AlphaGo的狹義意義。這能有利於我們瞭解AlphaGo可以或者不可以擴展到什麼地方。圍棋是:

完全確定性的。在圍棋的規則中,不存在任何不清晰的地方。如果對弈雙方采取的是相同的一系列動作,那麼,他們可以達到的狀態就通常就是確定的。

可以完全觀察的。每一個玩傢都擁有完全的信息,並且不存在隱藏的變量。例如,德州撲克就不符合這一屬性,因為你不能看到對手的牌。

行動空間是不連續的。有一些獨特的下法是可以施展。作為對比,在機器人身上,你可能會希望在每一個節點都需要連續具有連續性的控制。

能夠獲得一個完美的模擬器(遊戲本身),所以每一步能取得的效果都是可以精確預測的。這一前提是AlphaGo強烈依賴的,但是,這種情形在現實世界中是非常稀缺的。

每一盤棋都很短,隻有大約200手。相對於強化學習的階段,這是一段相當短的時間。因為在自我對弈階段,每一盤棋可能包含的是上萬或者更多手。

評估是清晰、快速的,允許大量的試錯。換句話說,智能體能數百萬次的體驗勝利和失敗,這能讓它們進行學習,雖然緩慢但是很確定,正如深度神經網絡中常見的優化那樣。

有大量的人類棋譜數據,所以AlphaGo不需要從頭開始進行學習。

舉個例子:AlphaGo應用在機器人上?以上列舉瞭圍棋的一些魅力,下面我們再來看機器人問題,以及我們可以如何將AlphaGo 應用到機器人中,比如說 Amazon 的機器人揀選挑戰賽(Picking Challenge)。這個問題隻是想想就有點滑稽。

首先,你的動作(高維度,連續動作)由機器人的電機笨拙/吵鬧地執行(違反瞭1和3)。

機器人可能必須要環顧四周以便找到需要移動的物品,因此它並不能總是感知到所有相關信息,有時候它隻是根據需要收集信息(違反瞭2)。

我們可能有一個物理模擬器,但這些模擬器是不完美的(尤其是模擬接觸壓力);這就帶來瞭一些挑戰(違反瞭4)。

靜電油煙處理機取決於你的行動空間的抽象程度(扭矩- 夾子的位置),一次成功可能要遠多於200個動作(也就營業用抽油煙機是說,第5點取決於設置)。更長的情節增加瞭信用分配的問題,這對學習算法在任何結果的行動中分配責任來說很困難。

由於我們是在現實世界中操作,機器人練習數百萬次某一動作(成功或失敗)會變得更加困難。一種解決方法是並行化機器人,但會相當昂貴。此外,機器人的失敗可能還包括機器人本身的損壞。另一種方法是使用模擬器,然後轉移到現實世界中,但在不同領域的轉移中又會帶來新的挑戰。(即違反瞭6)

最後,很少有數百萬的人類演示數據(違反瞭7)。

簡言之,基本上圍棋滿足的每一個假設,以及AlphaGo有優勢的地方都被違反瞭,每一個成功的方法看起來都完全不一樣瞭。更一般地說,上文的圍棋的一些屬性對當前的算法(例如1,2,3)並不是不可克服的,而且有些對於AlphaGo的訓練是非常關鍵的,但是很少存在於其他真實世界的應用(4,6)。

結論雖然 AlphaGo 在AI算法方面並沒有根本性的突破,雖然它仍然隻是狹義AI的一個例子,但 AlphaGo 仍然象征著 Alphabet 的AI 能力:該公司的人才數量/質量上,他們掌握的計算資源,以及公司高層對AI的關註。

Alphabet 在AI上下瞭大賭註,而且是安全的賭註。不過也許我的這篇文章是帶有偏見的

原創文章,作者:新智元。轉載或內容合作請聯系zhuanzai@36kr.com;違規轉載法律必究。尋求報道請加微信:report36Kr520。人工智能遊戲機器人谷歌網紅安全贊+1新智元特邀作者“點擊”盡享閱讀沉浸模式,

沉浸模式下點擊右上角按鈕返回

打開微信 掃一掃 ,

打開網頁後點擊屏幕

右上角 分享 按鈕

18+10參與討論提交評論登錄後參與討論相關文章機器靜電排油煙機人目標110分挑戰高考數學卷;監控機器人上崗高速公路|機器人日報

文/孫榕澤

摩根士丹利欲進行員工“半機器人”升級;歐盟高管反對征收機器人稅|機器人日報

文/孫榕澤

徹底擺脫人類,比戰勝柯潔還厲害的AlphaGo要來瞭

文/新智元

贊助商 加載中

台灣電動床工廠 電動床
台灣電動床工廠 電動床
AUGI SPORTS|重機車靴|重機車靴推薦|重機專用車靴|重機防摔鞋|重機防摔鞋推薦|重機防摔鞋
AUGI SPORTS|augisports|racing boots|urban boots|motorcycle boots
一川抽水肥清理行|台中抽水肥|台中市抽水肥|台中抽水肥推薦|台中抽水肥價格|台中水肥清運
X戰警多鏡頭行車記錄器專業網|多鏡頭行車記錄器|多鏡頭行車紀錄器比較|多鏡頭行車紀錄器推薦|多鏡頭行車紀錄器影片
台中抽水肥專業網|台中抽水肥|台中市抽水肥|台中抽水肥推薦|台中抽水肥價格|台中水肥清運
台灣靜電機批發工廠|靜電機|靜電機推薦|靜電油煙處理機|靜電油煙處理機推薦
優美環保科技工程-靜電機,靜電機推薦,靜電機保養,靜電機清洗,靜電油煙處理機


arrow
arrow
    創作者介紹
    創作者 iye846m8y8 的頭像
    iye846m8y8

    斬釘截鐵的訴說

    iye846m8y8 發表在 痞客邦 留言(0) 人氣()