最資訊丨爆火論文打造《西部世界》雛形:25個AI智能體,在虛擬小鎮(zhèn)自由成長
我們能否創(chuàng)造一個世界?在那個世界里,機(jī)器人能夠像人類一樣生活、工作、社交,去復(fù)刻人類社會的方方面面。
(資料圖片)
這種想象,曾在影視作品《西部世界》的設(shè)定中被完美地還原出來:眾多預(yù)裝了故事情節(jié)的機(jī)器人被投放到一個主題公園內(nèi),它們可以像人類一樣行事,記得自己看到的東西、遇到的人、說過的話。每天,機(jī)器人都會被重置,回到它們的核心故事情節(jié)中。
《西部世界》劇照,左邊人物為預(yù)裝了故事情節(jié)的機(jī)器人。
再把想象力擴(kuò)張一下:放在今天,如果我們想把 ChatGPT 這樣的大語言模型變成西部世界的主人,又會怎么做?
在最近爆火的一篇論文中,研究者們成功地構(gòu)建了一個「虛擬小鎮(zhèn)」,25 個 AI 智能體在小鎮(zhèn)上生存,它們不僅能夠從事復(fù)雜的行為(比如舉辦情人節(jié)派對),而且這些行為比人類角色的扮演更加真實。
論文鏈接:https://arxiv.org/pdf/2304.03442v1.pdfDemo 地址:https://reverie.herokuapp.com/arXiv_Demo/從《模擬人生》這樣的沙盒游戲到認(rèn)知模型、虛擬環(huán)境等應(yīng)用,四十多年來,研究者們一直設(shè)想去創(chuàng)建能夠?qū)崿F(xiàn)可信人類行為的智能體。在這些設(shè)想中,由計算驅(qū)動的智能體的行為會與其過往經(jīng)驗一致,并對環(huán)境做出可信的反應(yīng)。這種人類行為的模擬可以用現(xiàn)實社會現(xiàn)象填充虛擬空間和社區(qū),訓(xùn)練「人們」去處理罕見但困難的人際關(guān)系、測試社會科學(xué)理論、制作理論和可用性測試的人類處理器模型、提供泛在計算應(yīng)用和社交機(jī)器人動力,還能為在開放世界(Open World)中駕馭復(fù)雜人類關(guān)系的 NPC 角色奠定基礎(chǔ)。
但人類行為的空間是巨大而復(fù)雜的。盡管在大型語言模型可以模擬單個時間點上的可信人類行為,但要想確保長期一致性,通用智能體需要一個架構(gòu)來管理不斷增長的記憶,因為新的互動、沖突和事件隨著時間推移而出現(xiàn)和消退,同時還要處理多個智能體之間展開的級聯(lián)社會動態(tài)。
如果一種方法能夠在很長一段時間內(nèi)檢索相關(guān)的事件和互動,對這些記憶進(jìn)行反思,并歸納和得出更高層次的推論,并應(yīng)用這種推理來創(chuàng)建對當(dāng)下和長期智能體行為有意義的計劃和反應(yīng),那么距離夢想實現(xiàn)就不遠(yuǎn)了。
這篇新論文介紹了「Generative Agents」(生成式智能體),一種利用生成模型來模擬可信人類行為的智能體,并證明它們能產(chǎn)生可信的個人和突發(fā)群體行為的模擬:
能夠?qū)ψ约?、其他智能體和環(huán)境進(jìn)行廣泛的推斷;能夠創(chuàng)建反映自身特點和經(jīng)驗的日常計劃,執(zhí)行這些計劃,做出反應(yīng),并在適當(dāng)?shù)臅r候重新計劃;能夠在終端用戶改變環(huán)境或用自然語言命令它們時做出反應(yīng)。「Generative Agents」背后是一個新的智能體架構(gòu),能夠存儲、合成和應(yīng)用相關(guān)的記憶,使用大型語言模型生成可信的行為。
舉個例子,「Generative Agents」如果看到它們的早餐正在燃燒,會關(guān)掉爐子;如果浴室有人,會在外面等待;如果遇到想交談的另一個智能體,會停下來聊天。一個充滿「Generative Agents」的社會是以新興的社會動態(tài)為標(biāo)志的,在這個社會中,新的關(guān)系被形成,信息被擴(kuò)散,并在智能體之間產(chǎn)生協(xié)調(diào)。
具體而言,研究者在這篇論文中公布了幾點重要細(xì)節(jié):?
Generative Agents,是對人類行為的可信模擬,它以智能體不斷變化的經(jīng)驗和環(huán)境為條件進(jìn)行動態(tài)調(diào)整;一個新穎的架構(gòu),使 Generative Agents 有可能記住、檢索、反思、與其他智能體互動,并通過動態(tài)演變的環(huán)境進(jìn)行規(guī)劃。該架構(gòu)利用了大型語言模型的強(qiáng)大 prompt 能力,并對這些能力進(jìn)行了補(bǔ)充,以支持智能體的長期一致性、管理動態(tài)演變的記憶能力,以及遞歸地產(chǎn)生更多的世代;兩項評估(對照評估和端到端評估),確定架構(gòu)各組成部分的重要性的因果關(guān)系,以及確定因記憶檢索不當(dāng)?shù)仍蚨a(chǎn)生的故障;討論了交互系統(tǒng)中 Generative Agents 的機(jī)會和倫理及社會風(fēng)險。研究者認(rèn)為應(yīng)該對這些智能體進(jìn)行調(diào)整,減輕用戶形成寄生社會關(guān)系的風(fēng)險,對其進(jìn)行記錄以減輕由 deepfake 和定制說服所帶來的風(fēng)險,并在設(shè)計過程中以補(bǔ)充而非取代人類利益相關(guān)者的方式進(jìn)行應(yīng)用。文章一經(jīng)發(fā)布,就引起了全網(wǎng)的熱議。本就看好「AutoGPT」方向的 Karpathy 連連贊嘆,認(rèn)為「Generative Agents」比之前玩概念的「Open World」高了不是一點半點:
更有研究者斷言,這項研究的發(fā)布,意味著「大型語言模型實現(xiàn)了新的里程碑式進(jìn)展」:
「Generative Agents」行為及其交互
為了使「Generative Agents」更加具體化,該研究將它們實例化為沙盒世界中的角色。
25 個智能體居住在名為 Smallville 的小鎮(zhèn),每個智能體由一個簡單的化身表示。所有的角色都可以:
與別人和環(huán)境交流;記住并回憶它們所做的和觀察到的事情;反思這些觀察結(jié)果;制定每天的計劃。研究者用自然語言描述了每個智能體的身份,包括它們的職業(yè)以及與其他智能體的關(guān)系,并將這些信息作為種子記憶。舉例來說,智能體 John Lin 有如下描述(本文截取了一段):
「John Lin 是一名藥店店主,他樂于助人。他一直在尋找使客戶更容易獲得藥物的方法。John Lin 的妻子是大學(xué)教授 Mei Lin ,它們和學(xué)習(xí)音樂理論的兒子 Eddy Lin 住在一起;John Lin 非常愛它的家人;John Lin 認(rèn)識隔壁的老夫婦 Sam Moore 和 Jennifer Moore 好幾年了……」
身份設(shè)定好之后,接著就是智能體如何與世界交互了。
在沙盒的每個 step 內(nèi),智能體都輸出一個自然語言語句,以描述它們當(dāng)前的動作,例如語句「Isabella Rodriguez 正在寫日記」、「Isabella Rodriguez 正在查看郵件」等。然后這些自然語言被轉(zhuǎn)化為影響沙盒世界的具體動作。動作以一組表情符號的形式顯示在沙盒界面上,這些表情符號提供了動作的抽象表征。
為了實現(xiàn)這一點,該研究采用了一種語言模型,可以將動作轉(zhuǎn)換為一組表情符號,這些表情符號出現(xiàn)在每個智能體化身上方的對話框中。除此以外,通過單擊智能體頭像可以訪問完整的自然語言描述。
智能體之間用自然語言進(jìn)行交流,假如智能體意識到在其周圍有其他智能體,它們會思考要不要走過去進(jìn)行聊天。例如 Isabella Rodriguez 和 Tom Moreno 就即將到來的選舉進(jìn)行了對話:
除此以外,用戶還可以指定智能體扮演什么角色,例如,指定其中一個智能體為記者,你就可以向該智能體咨詢新聞方面的內(nèi)容。
智能體與環(huán)境的交互
Smallville 小鎮(zhèn)有許多公共場景,包括咖啡館、酒吧、公園、學(xué)校、宿舍、房屋和商店。此外,每個公共場景還包括自身具有的功能以及對象,例如房子中有廚房、廚房中有爐子 (圖 2)。在智能體的生活空間中還有床、桌子、衣柜、架子,以及浴室和廚房。
智能體可以在 Smallville 內(nèi)隨處走動,進(jìn)入或離開一座建筑,導(dǎo)航前行,甚至去接近另一個智能體。智能體的移動由 Generative Agents 的架構(gòu)和沙盒游戲引擎控制:當(dāng)模型指示智能體移動到某個位置時,該研究會計算其在 Smallville 環(huán)境中到達(dá)目的地的步行路徑,然后智能體開始移動。
此外,用戶和智能體還可以影響該環(huán)境下其他物體的狀態(tài),例如,當(dāng)智能體睡覺時床是被占用的,當(dāng)智能體用完早餐冰箱可能是空的。最終用戶還可以通過自然語言重寫智能體環(huán)境。例如用戶在 Isabella 進(jìn)入浴室時將淋浴器狀態(tài)設(shè)置為漏水,之后 Isabella 會從客廳找到工具并嘗試修復(fù)漏水問題。
智能體一天的生活
從一段描述開始,智能體開始計劃一天的生活。隨著時間在沙盒世界中的流逝,智能體的行為隨著彼此之間的交互以及與世界的互動、自身建立的記憶等逐漸改變。下圖為藥店店主 John Lin 一天的行為。
在這個家庭中,John Lin 早上七點第一個起床,然后刷牙、洗澡、穿衣服、吃早餐,接著在客廳的餐桌旁瀏覽新聞。早上 8 點,John Lin 的兒子 Eddy 也跟著起床準(zhǔn)備上課。他臨出門時和 John 進(jìn)行對話,內(nèi)容為:
Eddy 出發(fā)后不久,他的媽媽 Mei 也醒了過來,Mei 問起兒子,John 回憶起它們剛剛的對話,然后有了下面對話
社交能力
除此以外,「Generative Agents」還表現(xiàn)出社會行為的涌現(xiàn)。通過相互交互,「Generative Agents」在 Smallville 環(huán)境下交換信息,形成新的關(guān)系。這些社會行為是自然產(chǎn)生的,而不是預(yù)先設(shè)定好的。例如當(dāng)智能體注意到對方的存在時,可能會進(jìn)行一場對話,對話信息可以在智能體之間傳播。
讓我們看幾個例子:
信息傳播。當(dāng)智能體注意到對方,它們可能會進(jìn)行對話。當(dāng)這樣做時,信息可以從智能體傳播到另一智能體。例如,在 Sam 和 Tom 在雜貨店的對話中,Sam 告訴了 Tom 他在當(dāng)?shù)剡x舉中的候選資格:
當(dāng)天晚些時候,在 Sam 離開后,從另一個渠道聽到消息的 Tom 和 John 討論了 Sam 贏得選舉的機(jī)會:
漸漸地,Sam 的候選資格成為了鎮(zhèn)上的話題,有人支持他,也有人猶豫不決。
關(guān)系記憶。隨著時間的推移,小鎮(zhèn)上的智能體形成了新的關(guān)系,并記住了它們與其他智能體的互動。例如,Sam 一開始并不認(rèn)識拉 Latoya Williams。在約翰遜公園散步時,Sam 碰到了 Latoya,互相做了自我介紹,Latoya 提到自己正在進(jìn)行一個攝影項目:「我在這里為正在進(jìn)行的一個項目拍攝照片?!乖诤髞淼幕又校琒am 與 Latoya 的互動表明了對這件事的記憶,Sam 問道:「Latoya,你的項目進(jìn)展如何?」Latoya 回答:「進(jìn)展得很好!」
協(xié)調(diào)能力。Isabella Rodriguez 經(jīng)營一家 Hobbs 咖啡館,打算在 2 月 14 日下午 5 點到 7 點舉辦一場情人節(jié)派對。從這個種子開始,當(dāng) Isabella Rodriguez 在 Hobbs 咖啡館或其他地方遇到朋友和顧客時,就會發(fā)出邀請。13 日下午,Isabella 開始裝飾咖啡館。Isabella 的??秃兔苡?Maria 來到咖啡館。Isabella 請求 Maria 幫忙布置派對,Maria 同意了。Maria 的角色描述是它喜歡 Klaus。那天晚上,Maria 邀請它的暗戀對象 Klaus 一起參加派對,Klaus 欣然接受。
情人節(jié)那天,包括 Klaus 和 Maria 在內(nèi)的五名智能體在下午 5 點出現(xiàn)在 Hobbs 咖啡館,它們享受著慶?;顒樱▓D 4)。在這個場景中,終端用戶只設(shè)置了 Isabella 舉辦派對的初始意圖和 Maria 對 Klaus 的迷戀:傳播信息、裝飾、約對方、到達(dá)派對以及在派對上互動的社交行為 ,由智能體架構(gòu)發(fā)起。
架構(gòu)
Generative Agents 需要一個框架來指導(dǎo)其在開放世界中的行為,旨在讓 Generative Agents 能夠與其他智能體進(jìn)行交互并對環(huán)境變化做出反應(yīng)。
Generative Agents 將其當(dāng)前環(huán)境和過去的經(jīng)驗作為輸入,生成行為作為輸出。Generative Agents 的架構(gòu)將大型語言模型和合成與檢索相關(guān)信息的機(jī)制結(jié)合到一起,以調(diào)節(jié)語言模型的輸出。
如果沒有合成與檢索機(jī)制,大型語言模型可以輸出行為,但 Generative Agents 可能不會根據(jù)智能體過去的經(jīng)驗做出反應(yīng),以至于無法做出重要的推理,也可能無法保持長期的連貫性。即使使用當(dāng)前性能最好的模型(例如 GPT-4),長期規(guī)劃和連貫性方面的挑戰(zhàn)仍然存在 。
由于 Generative Agents 會產(chǎn)生大量必須保留的事件和記憶流(memory stream),因此其架構(gòu)的核心挑戰(zhàn)是確保在需要時檢索和合成智能體記憶中最相關(guān)的部分。
Generative Agents 的架構(gòu)中心是記憶流 —— 一個全面記錄智能體經(jīng)驗的數(shù)據(jù)庫。智能體會從記憶流中檢索相關(guān)記錄,以規(guī)劃智能體的動作行為并對環(huán)境做出適當(dāng)反應(yīng),并且每次行為都會被記錄以遞歸合成更高級別的行為指導(dǎo)。Generative Agents 架構(gòu)中所有的內(nèi)容都被記錄下來并以自然語言描述的形式來進(jìn)行推理,從而使智能體能夠利用大型語言模型的推理功能。
當(dāng)前,該研究實現(xiàn)了使用 ChatGPT 的 gpt3.5-turbo 版本。研究團(tuán)隊預(yù)計 Generative Agents 的架構(gòu)基礎(chǔ) —— 記憶、規(guī)劃和反思 —— 可能會保持不變。較新的語言模型(例如 GPT-4)擁有更好的表達(dá)能力和性能,這會進(jìn)一步擴(kuò)展 Generative Agents。
記憶與檢索
Generative Agents 的架構(gòu)實現(xiàn)了一個檢索功能,該功能將智能體的當(dāng)前情況作為輸入并返回記憶流的一個子集以傳遞給語言模型。檢索功能有多種可能的實現(xiàn)方式,具體取決于智能體在決定如何行動時考慮的重要因素。
反思
該研究還引入了第二種類型的記憶,稱為「反思」。反思是由智能體生成的更高層次、更抽象的思想。反思是周期性產(chǎn)生的,在該研究中,只有當(dāng)智能體對最近事件的重要性分?jǐn)?shù)總和超過某個閾值,智能體才會開始反思。
實際上,該研究提出的 Generative Agents 每天大約反思兩到三次。反思的第一步是讓智能體確定要反思的內(nèi)容,方法是根據(jù)智能體最近的經(jīng)歷確定可以提出的問題。
規(guī)劃與反應(yīng)
規(guī)劃被用于描述智能體未來行動的順序,并幫助智能體隨著時間的推移保持行為一致。規(guī)劃應(yīng)該包含位置、開始時間和持續(xù)時間。
為了創(chuàng)建合理的規(guī)劃,Generative Agents 會自上而下遞歸地生成更多細(xì)節(jié)。第一步是制定一個計劃,粗略地概述當(dāng)天的「日程」。為了創(chuàng)建初始規(guī)劃,該研究向語言模型 prompt 智能體的總體描述(例如,姓名、特征和它們最近經(jīng)歷的摘要等等)。
在執(zhí)行規(guī)劃的過程中,Generative Agents 會感知周圍環(huán)境,感知到的觀察結(jié)果會存儲在它們的記憶流中。該研究用這些觀察 prompt 語言模型來決定智能體是應(yīng)該繼續(xù)它們的現(xiàn)有規(guī)劃,還是做出其他反應(yīng)。
實驗及評估
該研究對 Generative Agents 進(jìn)行了兩項評估:一項是控制評估,以測試智能體是否能獨立地產(chǎn)生可信的個體行為;另一項是端到端評估,其中多個 Generative Agents 在兩天的游戲時間內(nèi)開放式交互,這是為了了解智能體的穩(wěn)定性和涌現(xiàn)(emergent)社會行為。
比如,伊莎貝拉計劃舉辦一場情人節(jié)派對。她傳播了這個信息,在模擬結(jié)束時,12 個角色已經(jīng)知道了這件事。其中 7 個人「猶豫不決」——3 個人已有其他計劃,4 個人沒有表露想法,這和人類的相處一樣。
在技術(shù)評估層面,該研究通過用自然語言「采訪」智能體,來評估智能體保持「性格」、記憶、規(guī)劃、反應(yīng)和準(zhǔn)確反思的能力,并進(jìn)行了消融實驗。實驗結(jié)果表明,這些組成部分中的每一個對于智能體在任務(wù)中的出色表現(xiàn)都至關(guān)重要。
在實驗評估中,智能體出現(xiàn)的最常見錯誤包括:
其未能檢索相關(guān)記憶;對智能體記憶進(jìn)行捏造修飾;從語言模型中「繼承」過于正式的言語或行為。本文來源:ALLAI 行業(yè)瞭望,原文標(biāo)題:《爆火論文打造《西部世界》雛形:25個AI智能體,在虛擬小鎮(zhèn)自由成長》
風(fēng)險提示及免責(zé)條款 市場有風(fēng)險,投資需謹(jǐn)慎。本文不構(gòu)成個人投資建議,也未考慮到個別用戶特殊的投資目標(biāo)、財務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見、觀點或結(jié)論是否符合其特定狀況。據(jù)此投資,責(zé)任自負(fù)。關(guān)鍵詞: