日前,谷歌DeepMind推出了SIMA(全稱Scalable Instructable Multiworld Agent),顧名思義可擴(kuò)展、可指導(dǎo)、多世界。
據(jù)悉,這是首個(gè)能在廣泛3D虛擬環(huán)境和視頻游戲中遵循自然語(yǔ)言指令的通用AI智能體,號(hào)稱可以成為玩家拍檔、幫忙干活打雜。不過(guò),目前還處于研究階段。
例如,它可以在《模擬山羊3》(Goat Simulator 3)中當(dāng)司機(jī)開(kāi)開(kāi)車,在《幸福工廠》(Satisfactory)中挖礦石,在《瓦爾海姆》(Valheim)中尋找水源,在《無(wú)人深空》中(No Man's Sky)駕駛宇宙飛船射擊小行星收集資源。
參與該項(xiàng)目的谷歌DeepMind研究工程師Frederic Besse說(shuō)道:“SIMA能夠利用游戲中的共享概念,學(xué)習(xí)更好的技能,并學(xué)會(huì)更好地執(zhí)行指令。”
在這之前,谷歌DeepMind也在AI+游戲方面也做過(guò)許多工作,比如推出能和人類玩家打PK、會(huì)玩《星際爭(zhēng)霸II》的AlphaStar系統(tǒng)。而SIMA則被DeepMind稱作是一個(gè)“新的里程碑”,主打從適用單一游戲轉(zhuǎn)向通用多種游戲,且可遵循語(yǔ)言指令。
全新游戲方式
為了讓SIMA接觸到更多游戲環(huán)境,谷歌DeepMind團(tuán)隊(duì)與多家游戲工作室合作,收集了人類在3D環(huán)境下玩10種不同游戲的鍵盤和鼠標(biāo)數(shù)據(jù)。
然后,來(lái)自人類玩家的數(shù)據(jù)被輸入到為現(xiàn)代聊天機(jī)器人提供動(dòng)力的語(yǔ)言模型中,該模型通過(guò)消化巨大的文本數(shù)據(jù)庫(kù)獲得了處理語(yǔ)言的能力。然后,SIMA就可以根據(jù)鍵入的命令執(zhí)行操作。最后,人類評(píng)估了SIMA在不同游戲中的努力,生成用于微調(diào)其性能的數(shù)據(jù)。
經(jīng)過(guò)所有這些訓(xùn)練后,SIMA能夠響應(yīng)人類玩家發(fā)出的數(shù)百個(gè)命令來(lái)執(zhí)行操作,例如“向左轉(zhuǎn)”或“前往宇宙飛船”或“穿過(guò)大門”或“砍倒一棵樹(shù)”。
據(jù)悉,該程序可以執(zhí)行600多種動(dòng)作,從探索到戰(zhàn)斗再到工具使用。此外,研究人員避免了具有暴力行為的游戲,這符合谷歌的人工智能道德準(zhǔn)則。
“這在很大程度上仍然是一個(gè)研究項(xiàng)目,”谷歌DeepMind團(tuán)隊(duì)的另一位成員Tim Harley說(shuō):“然而,人們可以想象有一天,像SIMA這樣的AI智能體會(huì)和你一起玩游戲,與你和你的朋友一起玩。”
此外,即使是在未經(jīng)訓(xùn)練過(guò)的游戲中,SIMA的表現(xiàn)也能和專門使用該游戲數(shù)據(jù)集訓(xùn)練過(guò)的智能體表現(xiàn)一樣好。也就是說(shuō),SIMA在全新環(huán)境中具備泛化能力。
這是一個(gè)很有希望的初步結(jié)果,但是SIMA需要進(jìn)行更多的研究才能在已知和未知的游戲中達(dá)到人類水平。
研究人員表示,SIMA最終將學(xué)會(huì)如何玩任何電子游戲,甚至是沒(méi)有線性結(jié)束路徑的游戲和開(kāi)放世界游戲。雖然它并不是要取代現(xiàn)有的游戲AI,但你可以把它看作是另一個(gè)與你的團(tuán)隊(duì)配合得很好的玩家。
“SIMA并不是為了贏得游戲而訓(xùn)練的,”谷歌DeepMind研究員、SIMA聯(lián)合負(fù)責(zé)人Tim Harley 在一次記者招待會(huì)上說(shuō):“它接受過(guò)訓(xùn)練,可以運(yùn)行它,并按照指令行事。”