顛覆圍棋后,DeepMind還想進(jìn)軍醫(yī)療、游戲領(lǐng)域
橫掃中日韓頂尖圍棋高手,豪取60連勝,神秘的Master已經(jīng)亮明身份,它就是AlphaGo。這樣的結(jié)果讓人意外也讓人不意外。
之所以說不意外是因?yàn),Master亮明身份前,外界普遍已經(jīng)猜測它就是AlphaGo。令人意外的是,在短短不到一年的時間里,比起AlphaGo,Master的表現(xiàn)更加搶眼,進(jìn)步神速,下棋快準(zhǔn)狠。
在Master宣布自己身份后,DeepMind創(chuàng)始人監(jiān)CEO德米斯·哈薩比斯(Demis Hassabis)也在其個人推特賬號上表達(dá)了自己的激動心情。這位有著“天才”和“工作狂”之稱的創(chuàng)始人,對于圍棋有著濃厚的興趣,13歲時獲得了國際象棋大師的稱號。1月3日,DeepMind發(fā)布的官方博文中透露,除了圍棋,公司還在和英國的當(dāng)?shù)蒯t(yī)療機(jī)構(gòu)合作,希望提供更好的醫(yī)療服務(wù)。同時,公司也在考慮挑戰(zhàn)《星際爭霸2》游戲。
在如此短的時間里,做出了如此驚人的成績,這家2010年初創(chuàng)于英國倫敦的人工智能公司,究竟有著什么樣的魔力?
Master強(qiáng)在哪里?
要知道Master變得有多強(qiáng),得先從AlphaGo的算法說起。
《經(jīng)濟(jì)學(xué)人》曾發(fā)文對AlphaGo的算法進(jìn)行解釋,認(rèn)為它得意的地方在于用新的方法,試著讓電腦發(fā)展出如何下棋的直覺——能自己發(fā)現(xiàn)人類選手理解卻無法解釋的原則。它采用深度學(xué)習(xí)的技術(shù),通過重復(fù)地復(fù)雜統(tǒng)計,讓電腦從巨大的無用數(shù)據(jù)中提取出通用的原則。
深度學(xué)習(xí)需要兩個東西:足夠多的處理單元及足夠多的可供學(xué)習(xí)的數(shù)據(jù)。DeepMind用了3000萬棋譜樣本來訓(xùn)練機(jī)器,這些棋譜來自業(yè)余和職業(yè)選手聚集下棋的在線服務(wù)器。另外AlphaGo還通過和自己對弈,進(jìn)行微調(diào),從而能快速產(chǎn)生更多的訓(xùn)練數(shù)據(jù)。
這些數(shù)據(jù)需要經(jīng)過深度學(xué)習(xí)的兩種算法處理。一是所謂的策略網(wǎng)絡(luò),用來訓(xùn)練模仿人類行為?催^數(shù)百萬計的對局后,它已學(xué)會提取特征、原則和經(jīng)驗(yàn)法則。它在對局中的工作就是觀察棋盤的狀態(tài),并產(chǎn)生一些看起來更有希望的步數(shù)提供給第二個算法考慮。
第二個算法叫做價值網(wǎng)絡(luò),用來評估一個步數(shù)的致勝概率。機(jī)器會根據(jù)策略網(wǎng)絡(luò)的建議,評估數(shù)以千計的走法。因?yàn)閲迦绱藦?fù)雜,所以將所有可能的走法都走完是不可能的。作為替代,價值網(wǎng)絡(luò)會評估數(shù)個步數(shù)后可能的棋盤狀態(tài),并與它之前見過的例子進(jìn)行比較。這種想法是找出統(tǒng)計意義上最像過去能夠獲勝的棋形。策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò)結(jié)合起來構(gòu)成了人類棋手需要通過幾年實(shí)踐才能累積的圍棋智慧。
值得一提的是,韓國棋手李世石在與AlphaGo進(jìn)行對決時,曾在第四局時贏過一盤。但這次Master直接取得了60連勝。
“目前DeepMind的具體改進(jìn)還沒公開,但我猜測經(jīng)過了半年多訓(xùn)練,數(shù)據(jù)量提升了不少。另外,針對上回第四盤棋的弱點(diǎn),估計在訓(xùn)練方法上也有改進(jìn),比如左右互搏,自己和自己下能增加數(shù)據(jù)量! 第四方式創(chuàng)始人兼CEO戴文淵告訴澎湃新聞(www.thepaper.cn)。
除此之外,比起AlphaGo,這次Master的下棋時長更短。這也被外界認(rèn)為是提升之一。但有多位人工智能領(lǐng)域?qū)<腋嬖V澎湃新聞,其實(shí)快棋對于人工智能系統(tǒng)來說更有利,因?yàn)槿嗽诰o張時會犯更多錯誤。
Master這次的表現(xiàn),讓國內(nèi)許多頂級的圍棋高手感嘆。世界冠軍古力九段在輸給Master后,在接受澎湃新聞(www.thepaper.cn)采訪時稱:“沒看過它下慢棋,但進(jìn)步肯定巨大,具體不知道該怎么衡量。原來覺得圍棋招法有限,現(xiàn)在覺得下棋可以更加自由!
“從上回的態(tài)勢看,其實(shí)趨勢上人類已經(jīng)沒有機(jī)會了。機(jī)器就像個怪獸,人未來可能可以僥幸戳到死穴贏一兩盤。”戴文淵在回答澎湃新聞關(guān)于人機(jī)對弈未來的意義時說。
對于DeepMind公司來說,新一年會繼續(xù)對圍棋項(xiàng)目進(jìn)行深入,但在其1月3日發(fā)表的博文中,Deepmind稱接下去會做的三件事:實(shí)現(xiàn)算法突破,提升社會影響,建立倫理規(guī)范。
“其實(shí)他們還想做醫(yī)療,但醫(yī)療的數(shù)據(jù)獲取成本比圍棋大太多了,完全是另一個問題。另外,實(shí)時對戰(zhàn)游戲會更難,例如星際爭霸,因?yàn)閺?fù)雜度比圍棋還大。”戴文淵說。
Master和AlphaGo背后的團(tuán)隊
無論是Master還是AlphaGo,它們的成功背后,都離不開DeepMind團(tuán)隊的努力。在外媒的描述中,創(chuàng)始人之一德米斯·哈薩比斯(Demis Hassabis)謙虛、認(rèn)真,對自己目前的工作抱有“解決智能問題,隨后利用這一技術(shù)去解決所有一切”的態(tài)度。
同時也能用天才來形容這位創(chuàng)始人。哈薩比斯,8歲時就編寫了自己的計算機(jī)游戲,13歲時獲得了國際象棋大師的稱號,17歲時開發(fā)了首款引入人工智能元素的電子游戲《主題公園》并大獲成功,20歲時在劍橋大學(xué)計算機(jī)科學(xué)系獲得了兩門學(xué)科優(yōu)等成績,擁有劍橋大學(xué)和倫敦大學(xué)學(xué)院的計算機(jī)科學(xué)和認(rèn)知神經(jīng)科學(xué)雙學(xué)位。不久后創(chuàng)建了自己的電子游戲公司Elixir并完成了關(guān)于大腦海馬體和情景記憶的前沿性學(xué)術(shù)研究。 2011年創(chuàng)立DeepMind,而在此之前,他在哈佛大學(xué)和麻省理工學(xué)院取得博士后。隨后,公司在2014年被谷歌(微博)收購,直到人工智能項(xiàng)目AlphaGo,引發(fā)全球關(guān)注。
被谷歌收購后,DeepMind的總部依舊維持在英國倫敦。DeepMind在倫敦大約有140名成員,也是目前英國最有趣的科技公司之一。DeepMind優(yōu)秀的人才隊伍也可能是谷歌2014年愿意斥資4億英鎊收購的主要原因之一。
相信智能程序?qū)⒛軌驇椭l(fā)掘出可以利用于社會福祉的新科學(xué)知識。在過去的幾年發(fā)展中,他們與谷歌的數(shù)據(jù)中心團(tuán)隊運(yùn)用了類似AlphaGo這樣的技術(shù)發(fā)現(xiàn)了管理制冷系統(tǒng)的新方法,使建筑節(jié)能到達(dá)了15%。如果把這些技術(shù)應(yīng)用在其他更大型的工業(yè)系統(tǒng)上,就會節(jié)省更多的能源開支從而保護(hù)生態(tài)環(huán)境。此外,DeepMind還在英國積極推進(jìn)了與兩家國家衛(wèi)生署醫(yī)院在深度學(xué)習(xí)科研方面的戰(zhàn)略合作,去探索如何讓科技更準(zhǔn)確地診斷、治療形形色色的疾;并和另兩家醫(yī)院合作研發(fā)了用于臨床的移動應(yīng)用和基礎(chǔ)設(shè)施,使病患得到更貼心的醫(yī)療護(hù)理。
“最終,我們想要將這些技術(shù)應(yīng)用到真實(shí)世界的重要問題中。因?yàn)槲覀冇玫姆椒ㄊ峭ㄓ玫,我們希望有一天,它們能延伸得更廣,幫助解決最緊迫的社會問題,從醫(yī)藥診斷到環(huán)境模型!惫_比斯說。
編輯:admin 最后修改時間:2018-01-05