OpenAI成功的背后,鮮為人知的游戲訓(xùn)練史
2022年,OpenAI旗下ChatGPT橫空出世,人工智能再次成為全球矚目的焦點。ChatGPT的成功得益于OpenAI團(tuán)隊在人工智能大語言模型和強(qiáng)化學(xué)習(xí)領(lǐng)域持續(xù)不斷地投入、探索和創(chuàng)新。但鮮為人知的是,在OpenAI不斷迭代升級的過程中,電子游戲也曾發(fā)揮過舉足輕重的作用。早期的OpenAI 曾在2019年打造出名為OpenAI Five的游戲AI,并成功擊敗了兩屆DOTA2國際邀請賽的世界冠軍OG戰(zhàn)隊(恭喜OG?。?/p>
【資料圖】
前幾天,來自斯坦福大學(xué)和谷歌的研究人員也構(gòu)建了一個名為Smallville的2D虛擬游戲場景,并將25個基于ChatGPT的AI智能體置于該游戲場景中進(jìn)行訓(xùn)練,研究發(fā)現(xiàn)25個AI智能體實現(xiàn)了對人類行為的可信模擬,他們不僅能夠相互交談,還能夠與自身所處環(huán)境互動,記住并回憶它們所做的和觀察到的事情,并作出相應(yīng)決策。
那么,為什么OpenAI會選擇電子游戲作為訓(xùn)練和測試AI模型,電子游戲?qū)τ贏I的發(fā)展究竟意味著什么?
鮮為人知:Open AI團(tuán)隊為AI打造專屬“游戲訓(xùn)練”平臺
在展開OpenAI與DOTA2的故事之前,不妨簡要回顧下電子游戲與OpenAI那段鮮為人知的歷史,或許能夠幫助我們更好的理解電子游戲與OpenAI之間的關(guān)系。
成立于2015年12月美國舊金山,OpenAI最初是一個由小團(tuán)隊組成的非盈利性質(zhì)的人工智能實驗室,其目標(biāo)是通過與其他機(jī)構(gòu)和研究者的“自由合作”,向公眾開放AI專利和研究成果。OpenAI在成立之時并未獲得太多關(guān)注,在成立一年后(2016年12月),OpenAI對外發(fā)布了首款產(chǎn)品基于電子游戲的AI測試平臺“Universe”。這是一款能在幾乎所有環(huán)境中衡量和訓(xùn)練 AI 通用智能水平的開源平臺,其發(fā)布時間甚至早于第一代GPT(基于轉(zhuǎn)換器的生成式預(yù)訓(xùn)練模型)產(chǎn)品。
OpenAI 的Universe是一個訓(xùn)練 AI 通用智能水平的開源平臺,由微軟、英偉達(dá)等公司參與建設(shè),其中包含多達(dá)1000多種游戲訓(xùn)練環(huán)境,主要包括了各類Flash游戲、Atari 2600游戲,以及《GTA 5》等PC游戲。OpenAI研究人員介紹說,Universe平臺最初是從李飛飛等人創(chuàng)立的ImageNet數(shù)據(jù)庫項目中獲得啟發(fā),希望把ImageNet在降低圖像識別錯誤率上的成功經(jīng)驗引入到通用人工智能的研究上來,取得實質(zhì)進(jìn)展。
圖1 OpenAI Universe平臺
對于OpenAI而言,打造Universe的最終目標(biāo)是訓(xùn)練出一個“通用人工智能”,可以靈活地將在訓(xùn)練環(huán)境中積累和掌握的經(jīng)驗快速應(yīng)用到陌生、困難的環(huán)境。
當(dāng)時的人工智能發(fā)展已經(jīng)在“聽、說、看”感知智能取得了一定突破,基于強(qiáng)化學(xué)習(xí)的AlphaGo也剛剛擊敗了人類圍棋世界冠軍,但在OpenAI團(tuán)隊看來,這些突破依舊沒有跳出“弱人工智能(Narrow AI)”的范疇,并不具備理解問題的和解決問題的能力。
OpenAI團(tuán)隊認(rèn)為,要想讓人工智能具備這種能力,就必須將其置于更為廣泛和復(fù)雜的環(huán)境中進(jìn)行訓(xùn)練,只有通過不斷的訓(xùn)練,才能讓人工智能發(fā)展出可以有效遷移復(fù)用的知識和問題解決策略,而電子游戲就是這個“訓(xùn)練環(huán)境”的絕佳選擇。
最佳陪練:OpenAI從DOTA2中學(xué)到了什么?
事實上,早在2017年的DOTA2國際邀請賽上,OpenAI的智能體已經(jīng)能在1v1比賽中擊敗過頂尖人類職業(yè)選手;在2018年DOTA2國際邀請賽上嶄露頭角,與人類玩家組成的職業(yè)戰(zhàn)隊過招;而到了2019年4月,OpenAI對外宣布旗下的智能體項目OpenAI Five已經(jīng)能夠在5V5的比賽中擊敗DOTA2世界冠軍OG職業(yè)戰(zhàn)隊,成為了首個擊敗電子競技游戲世界冠軍戰(zhàn)隊的AI系統(tǒng)。
OpenAI團(tuán)隊為什么要選擇DOTA2作為訓(xùn)練環(huán)境呢?在開發(fā)OpenAI five之前,OpenAI團(tuán)隊一直在探尋如何讓AI在深度強(qiáng)化學(xué)習(xí)方向上實現(xiàn)突破,創(chuàng)造性地提升智能體的效率。當(dāng)時,一般強(qiáng)化學(xué)習(xí)(RL)的研究人員傾向于認(rèn)為,如果想讓智能體在長時間游戲中表現(xiàn)出色,就難免需要一些根本上的新突破,比如采用Hierarchical Reinforcement learning(分層強(qiáng)化學(xué)習(xí))的方式,即將復(fù)雜問題分解成若干子問題(sub-problem),通過分而治之(divide and conquer)的方法,逐個解決子問題從而最終解決一個復(fù)雜問題。
而以規(guī)則復(fù)雜、要素眾多、環(huán)境多變,同時也是全球擁有超高人氣的電子游戲DOTA2,順理成章地成為了OpenAI的首選,正如OpenAI團(tuán)隊所言“相比標(biāo)準(zhǔn)的RL開發(fā)環(huán)境,DOTA2顯得更加有趣,也更加困難。但是,如果一個AI能在像DOTA這樣復(fù)雜的游戲里超越人類水平,那這個AI本身就是一個里程碑?!毕噍^于AI之前在國際象棋和圍棋里取得的成就,像DOTA2這類復(fù)雜的游戲能更好地捕捉現(xiàn)實世界中的混亂和連續(xù)性,使其訓(xùn)練出的AI能夠擁有更好的通用性,使之更有可能應(yīng)用于游戲之外的人類社會。
為了戰(zhàn)勝DOTA2人類職業(yè)戰(zhàn)隊,OpenAI 團(tuán)隊進(jìn)行了長達(dá)數(shù)年的努力,詳細(xì)拆解游戲中各類復(fù)雜規(guī)則和問題,并依次不斷調(diào)整優(yōu)化AI模型。
DOTA2的游戲內(nèi)容十分豐富,而且還存在“戰(zhàn)爭迷霧”設(shè)定,即單位和建筑物只能看到它們周圍的區(qū)域,地圖的其余部分被迷霧所覆蓋,AI需要根據(jù)不完全信息進(jìn)行推斷,而國際象棋和圍棋則都是全信息游戲。下圖是OpenAI Five使用的觀察空間和動作空間的交互式演示,它把整張地圖看做一個有2萬個數(shù)據(jù)的列表,并通過8個列舉值的列表來采取行動:
圖2 OpenAI Five決策過程
在OpenAI戰(zhàn)勝DOTA2 Ti冠軍OG戰(zhàn)隊時,OpenAI Five團(tuán)隊使用的訓(xùn)練計算量比2018年的版本增加了8倍,并在10個實時月內(nèi)經(jīng)歷了大約4萬5千年的DOTA2游戲,平均每天的游戲量相當(dāng)于人類玩家250年的積累。
在戰(zhàn)勝人類世界冠軍之后的總結(jié)中,OpenAI團(tuán)隊提及他們在DOTA2中的訓(xùn)練環(huán)境中,學(xué)到了最重要的一點是:如果想要提升智能體的性能,其根本并非要實現(xiàn)訓(xùn)練方法的突破,而是要不斷擴(kuò)大規(guī)模。如果規(guī)模夠大、結(jié)構(gòu)夠合理,AI依舊可以表現(xiàn)出強(qiáng)大的能力。正如OpenAI首席科學(xué)家Ilya Sutskever 所言“我們堅信越大越好,OpenAI 的目標(biāo)就是擴(kuò)大規(guī)模?!?/p>
OpenAI在DOTA2上的嘗試,為AI強(qiáng)化學(xué)習(xí)效率提升提供了方向,這些都成為了ChatGPT的養(yǎng)分。在Ilya Sutskever看來,“通過DOTA2的訓(xùn)練,OpenAI的學(xué)習(xí)模式從“強(qiáng)化學(xué)習(xí)”轉(zhuǎn)變?yōu)榱恕盎谌祟惙答伒膹?qiáng)化學(xué)習(xí)(RLHF)”,而這些與GPT技術(shù)的結(jié)合,才最終塑造出了ChatGPT?!?/p>未來之路:AIGC 助力游戲內(nèi)容生產(chǎn)
如今,伴隨著以ChatGPT為代表的AIGC技術(shù)的成熟,AI也開始反向助力游戲的內(nèi)容生產(chǎn)。ChatGPT真的能輔助游戲制作嗎?首先,不妨讓我們來聽聽ChatGPT自己的回答:
GPT-4可以在多個方面輔助游戲制作。以下是一些具體的應(yīng)用場景:
1、游戲劇本和故事創(chuàng)作:GPT-4可以生成故事情節(jié)、角色設(shè)定和對話,為游戲制作提供創(chuàng)意靈感。
2、任務(wù)和關(guān)卡設(shè)計:GPT-4可以根據(jù)提供的游戲類型和主題生成任務(wù)、關(guān)卡設(shè)計和謎題,幫助設(shè)計師更高效地制作游戲內(nèi)容。
3、人工智能NPC:GPT-4可以生成自然的對話和反應(yīng),使得游戲內(nèi)的非玩家角色(NPC)更加真實、有趣。
4、自動生成游戲文檔:GPT-4可以幫助制作團(tuán)隊編寫設(shè)計文檔、技術(shù)文檔和測試用例等,提高生產(chǎn)效率。
5、游戲本地化:GPT-4支持多種語言,可以輔助游戲的翻譯和本地化工作,讓游戲能夠更好地適應(yīng)不同地區(qū)的市場。
6、社區(qū)管理和客戶支持:GPT-4可以幫助回答玩家的問題、解決技術(shù)問題并對玩家反饋進(jìn)行分類和總結(jié),提高客戶支持的效率和質(zhì)量。
7、游戲內(nèi)文本和資源生成:GPT-4可以幫助生成游戲內(nèi)的文本,如物品描述、任務(wù)說明等,減輕游戲開發(fā)者的負(fù)擔(dān)。
8、測試和質(zhì)量保證:GPT-4可以幫助分析游戲的錯誤報告,確定可能的問題來源,以及為開發(fā)團(tuán)隊提供修復(fù)建議。
9、創(chuàng)意概念和美術(shù)設(shè)計:雖然GPT-4主要以文本處理為主,但它可以為美術(shù)設(shè)計團(tuán)隊提供創(chuàng)意概念和設(shè)計建議,有助于創(chuàng)造獨特的游戲視覺效果。
看完以上GPT-4的回答,不禁會想問ChatGPT回答真的能夠在現(xiàn)實中實現(xiàn)嗎?目前來看,ChatGPT的確可以制作一些簡單的數(shù)字游戲,但對于制作3A游戲大作而言,顯然有些捉襟見肘。
Digital Trends的一份新報告詳細(xì)介紹了如何使用流行的對話和腳本生成器來創(chuàng)建可玩的PC游戲。報告指出,只需來自用戶的幾個簡單提示,ChatGPT就發(fā)明了自己的基于數(shù)學(xué)的邏輯益智游戲。不僅如此,它還生成了一些簡單的游戲代碼,后來變成了一款令人上癮的免費瀏覽器游戲,已經(jīng)在網(wǎng)上引起了一些轟動。但是,當(dāng)被問到是否可以制作出像《最后生還者》(The Last of US)這樣的3A游戲大作時,ChatGPT顯然有些“茫然”,只能夠簡單吐露出一些故事情節(jié),無法為游戲生成代碼。
圖3 ChatGPT自動生成簡單的數(shù)字游戲
雖然對于游戲復(fù)雜規(guī)則的設(shè)計、代碼的編寫等工作,在短期內(nèi)依舊需要依靠人工來解決,但是以ChatGPT為代表的人工智能,已經(jīng)能夠幫助游戲開發(fā)者們生成對話、腳本和其他數(shù)字資產(chǎn),提升游戲開發(fā)者的工作效率,幫助游戲開發(fā)者們簡單地填充虛擬的游戲空間,縮短游戲制作的周期。
而隨著AIGC技術(shù)發(fā)展,游戲AI智能體(決策智能)也會隨之不斷迭代升級。正如文章開頭提及的斯坦福和谷歌團(tuán)隊訓(xùn)練的AI智能體,其已經(jīng)能夠基于大模型實現(xiàn)一些簡單的決策,而生成式智能(AIGC)和決策智能的結(jié)合,將打開通用人工智能的大門。
可以預(yù)見的是,未來AI與游戲的發(fā)展勢必會更加緊密的聯(lián)系在一起?,F(xiàn)實中,已經(jīng)有越多越多的人們意識到游戲與人工智能的共生關(guān)系:2023年3月25日出版的最新一期《經(jīng)濟(jì)學(xué)人》刊文,認(rèn)為游戲在21世紀(jì)全球流行文化及國際競爭中扮演重要地位。在系列報道中,《經(jīng)濟(jì)學(xué)人》也為AI 技術(shù)的革命和普及,將會帶動“用戶自制游戲的興起”,“人工智能技術(shù)的發(fā)展將允許開發(fā)者用簡單的文本、語音指令創(chuàng)建交互式3D模型”,極大降低游戲制作的門檻。Omdia發(fā)布的2023年技術(shù)趨勢展望報告中,也將“游戲科技(GamesTech)”列為最值得關(guān)注的技術(shù)趨勢之一,并認(rèn)為游戲AI將成為2023年游戲開發(fā)中最受關(guān)注的熱門技術(shù)話題。此外,在中國音數(shù)協(xié)游戲工委、中國游戲產(chǎn)業(yè)研究院與多家單位合作推出《游戲科技能力與科技價值研究報告》中,面向游戲與電子通信、硬件制造等領(lǐng)域的行業(yè)調(diào)研數(shù)據(jù)顯示,81%的受訪者認(rèn)同游戲促進(jìn)了AI技術(shù)的發(fā)展。
在OpenAI Five之后,包括索尼、騰訊在內(nèi)的多家科技公司都開始基于游戲訓(xùn)練AI智能體。前者基于《GT賽車》游戲創(chuàng)新了AI強(qiáng)化學(xué)習(xí)算法,研究成果登上《Nature》雜志封面;后者基于《王者榮耀》游戲開發(fā)出AI開放研究平臺“開悟”,助力構(gòu)建產(chǎn)學(xué)研體系。
回到文章的開頭,OpenAI團(tuán)隊選擇游戲訓(xùn)練AI的初心是想要打造出“通用人工智能”。而對于通用人工智能的發(fā)展而言,目前以ChatGPT為代表的大語言訓(xùn)練模型,讓人們窺見到了AGI(通用人工智能)的未來圖景,而以游戲AI為代表的決策智能,以及游戲提供的絕佳AI訓(xùn)練場,也正在加快AI走向通用的進(jìn)程。
我們期待未來的AI能夠與游戲在實現(xiàn)“通用人工智能”的道路上攜手共進(jìn),為人類社會的發(fā)展帶來更多美好的期待。
本文來源于騰訊研究院,作者為王樞,原文標(biāo)題為《OpenAI成功的背后,鮮為人知的游戲訓(xùn)練史》
風(fēng)險提示及免責(zé)條款 市場有風(fēng)險,投資需謹(jǐn)慎。本文不構(gòu)成個人投資建議,也未考慮到個別用戶特殊的投資目標(biāo)、財務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見、觀點或結(jié)論是否符合其特定狀況。據(jù)此投資,責(zé)任自負(fù)。關(guān)鍵詞: