OpenAI發(fā)布炸裂研究:讓AI解釋AI黑箱,人類無法理解,語言無法描述
就算在新產(chǎn)品滿天飛,商業(yè)文明正在被 AI 重建的當下,我們?nèi)匀徊恢?,這些令人驚嘆的技術(shù)是如何運作的。
AI,語言模型,它是個黑箱(black box),人類無法理解,我們甚至不知道怎樣研究才能夠理解。
但如果,研究這個黑箱的不是人類,而是 AI 自己呢?
(資料圖)
這是一個令人好奇但又非常危險的想法。因為你甚至不知道,這一研究方法產(chǎn)生的結(jié)果,是否會徹底顛覆多年來人類對人腦和 AI 的理解。
但是有人這樣做了。幾小時前,OpenAI 發(fā)布了最新的研究成果,他們用 GPT-4 解釋 GPT-2 的行為,獲得了初步的成果。
毫不夸張地說,人們震驚極了:「求求你們讓它離覺醒遠點吧!」
「AI 理解 AI,然后很快,AI 訓(xùn)練 AI,然后再過幾年,AI 創(chuàng)造新的 AI?!?/p>
但客觀來說,學(xué)術(shù)界為之感到興奮:「瘋了,OpenAI 剛剛搞定了可解釋性問題。」
人與機器之間是GPT-4
OpenAI 剛剛在官網(wǎng)發(fā)布博客文章《語言模型可以解釋語言模型中的神經(jīng)元》(Language models can explain neurons in language models)。
簡單來說,他們開發(fā)了一個工具,調(diào)用 GPT-4 來計算出其他架構(gòu)更簡單的語言模型上神經(jīng)元的行為,這次針對的是 GPT-2,發(fā)布于 4 年前的開源大模型。
大模型(LLM)和人腦一樣,由「神經(jīng)元」(neurons)組成,這些神經(jīng)元會觀察文本中的特定規(guī)律,進而影響到模型本身生產(chǎn)的文本。
舉例來說,如果有一個針對「漫威超級英雄」的神經(jīng)元,當用戶向模型提問「哪個超級英雄的能力最強」時,這個神經(jīng)元就會提高模型在回答中說出漫威英雄的概率。
OpenAI 開發(fā)的工具利用這種規(guī)則制定了一套評估流程。
開始之前,先讓 GPT-2 運行文本序列,等待某個特定神經(jīng)元被頻繁「激活」的情況。
然后有三個評估步驟:
第一步,讓 GPT-4 針對這段文本,生成解釋。比如在下面的案例中,神經(jīng)元主要針對漫威內(nèi)容。GPT-4 接收到文本和激活情況后,判斷這與電影、角色和娛樂有關(guān)。
第二步,用 GPT-4?模擬這個 GPT-2 的神經(jīng)元接下來會做什么。下圖就是 GPT-4 生成的模擬內(nèi)容。
最后一步,對比評估打分。對比 4 代模擬神經(jīng)元和 2 代真實神經(jīng)元的結(jié)果,看 GPT-4 猜的有多準。
通過這樣的方法,OpenAI 對每個神經(jīng)元的行為作出了初步的自然語言解釋,并對這種解釋和實際行為的匹配程度進行了評分。
最終他們對 GPT-2 中 307200 個神經(jīng)元全部進行了解釋,這些解釋匯編成數(shù)據(jù)集,與工具代碼一起在 GitHub 上發(fā)布。
超越語言的機器?人類無法理解的機器
據(jù) OpenAI 在博客文章中表示,目前 GPT-4 生成的解釋還不完美,尤其要解釋比 GPT-2 更大的模型時,表現(xiàn)效果很差,「可能是因為后面的 layer 更難解釋」。
對于 GPT-2 解釋的評分大多也非常低,僅有 1000 個左右的解釋獲得了較高的評分(0.8 以上)。
OpenAI 可拓展對齊團隊的 Jeff Wu 表示,「大多數(shù)解釋的得分很低,或者無法解釋實際神經(jīng)元那么多的行為。比如,許多神經(jīng)元以一種難以判斷的方式保持活躍,它們在五六件事上保持激活,但卻沒有可以辨別的模式。有時候存在明顯的模式,但 GPT-4 有無法找到它?!?/p>
雖然現(xiàn)階段成績不好,但是 OpenAI 卻比較有信心,他們認為可以使用機器學(xué)習(xí)的方式提高 GPT-4 產(chǎn)出解釋的能力。
比如通過反復(fù)產(chǎn)出解釋,并根據(jù)激活情況修改解釋;或者使用更大的模型作出解釋;以及調(diào)整解釋模型的結(jié)構(gòu)等等。
OpenAI 還提到,這一方法目前還有很多局限性。
使用簡短的自然語言進行解釋,也許并不匹配神經(jīng)元可能非常復(fù)雜的行為,不能簡潔地進行描述。神經(jīng)元可能會具備多個不同概念,也可能,會具備一個人類沒有語言描述甚至無法理解的概念。
最終 OpenAI 希望能夠自動化找到并解釋能夠?qū)崿F(xiàn)復(fù)雜行為的整個神經(jīng)回路,而目前的方法只解釋了神經(jīng)元的行為,并沒有涉及下游影響。
解釋了神經(jīng)元的行為,但沒有解釋產(chǎn)生這種行為的機制。這意味著即使是拿了高分的解釋,也只能描述相關(guān)性。
整個過程是計算密集型的。
在論文中,OpenAI 表示:「語言模型可能代表了人類無法用語言表達的陌生概念。這可能是因為語言模型關(guān)心不同的事情,比如統(tǒng)計結(jié)構(gòu)對下一個token預(yù)測任務(wù)有用,或者因為模型已經(jīng)發(fā)現(xiàn)了人類尚未發(fā)現(xiàn)的自然的抽象,例如在不同領(lǐng)域的類似概念家族?!?/p>
它把 LLM 的這種屬性,稱為?Alien Feature,在生物領(lǐng)域翻譯為「異類特征」。
把對齊問題也交給 AI
「我們正試圖開發(fā)預(yù)測『AI 系統(tǒng)會出現(xiàn)什么問題』的方法,」OpenAI 可解釋性團隊負責(zé)人 William Saunders 對媒體說,「我們希望能夠真正做到,讓這些模型的行為和生產(chǎn)的回答是可以被信任的?!?/p>
Sam Altman 也轉(zhuǎn)發(fā)博客文章稱:GPT-4 對 GPT-2 做了一些可解釋性工作。
可解釋性(interpretability)是機器學(xué)習(xí)的研究子領(lǐng)域,指的是對模型的行為有清晰的理解和對模型結(jié)果的理解能力。
簡單來說,目的就是解釋機器學(xué)習(xí)模型「如何做到」(how)。
2019 年開始,可解釋性成為機器學(xué)習(xí)的重要領(lǐng)域,相關(guān)研究有助于開發(fā)人員對模型進行優(yōu)化和調(diào)整。針對當下 AI 模型大規(guī)模應(yīng)用時,亟需解決的可信度(trust)、安全性(safety)和決策參考(decision making)等問題。
如果我們不知道 AI 是如何作出決策的,始終把它當做一個黑箱,那么就算 AI 在各種場景下表現(xiàn)得再完美,也無法解決部分人類的信任問題。
OpenAI 這次使用 GPT-4 來解決可解釋性的問題,就是希望能夠使用自動化的方式,讓機器完成 AI 研究。
「這是我們對齊研究的第三支柱的一部分:我們希望自動化對齊研究。令人期待的是,這一方向能讓它(對齊)與 AI 發(fā)展的步伐相匹配?!?/p>
在 2022 年夏天,OpenAI 曾發(fā)布文章《我們做對齊研究的方法》(Our approach to alignment research)。
文中提到,宏觀來看,OpenAI 的對齊研究將由三大支柱支撐:
1、利用人工反饋訓(xùn)練 AI
2、訓(xùn)練 AI 系統(tǒng)協(xié)助人類評估
3、訓(xùn)練 AI 系統(tǒng)進行對齊研究
「語言模型非常適合自動化對齊研究,因為它們通過閱讀互聯(lián)網(wǎng)『預(yù)裝』了大量有關(guān)人類價值觀的知識和信息。開箱即用,它們不是獨立代理,因此不會在世界上追求自己的目標?!?/strong>
太快了?連認知都范式革命了
雖然 OpenAI 本意很好,但是這樣的研究成果著實嚇壞了網(wǎng)友。
OpenAI 的推文下梗圖橫飛,有不少人在認真地建議 OpenAI 搞慢點。
「用我們不理解的東西,解釋另一個我們不理解的東西,這合理嗎?」
「護欄都被你撤了」
「這太迷人了,但也讓我感到極度不適?!?/p>
「自然創(chuàng)造了人類來理解自然。我們創(chuàng)造了 GPT-4 來理解自己?!?/p>
「我們要怎么判斷解釋者是好的?這就像... 誰監(jiān)督著監(jiān)督者?」(who watches the watchers)
還有人看到了更深的一層:
「大模型很快就能比人類更好地解釋他們自己的思維過程,我想知道我們未來要創(chuàng)造多少新的詞匯,來描述那些 AI 發(fā)現(xiàn)的概念(概念本身也不準確)?我們還沒有一個合適的詞描述它們?;蛘撸覀兪欠駮X得這些概念有意義?它們又能教會我們?nèi)绾握J識自己呢?」
另一網(wǎng)友回應(yīng)道:「人類本身對自己行為的解釋,大多是謊言、捏造、幻覺、錯誤的記憶、事后推理,就像 AI 一樣。」
本文來源:?Founder Park,原文標題:《OpenAI發(fā)布炸裂研究:讓AI解釋AI黑箱,人類無法理解,語言無法描述》
風(fēng)險提示及免責(zé)條款 市場有風(fēng)險,投資需謹慎。本文不構(gòu)成個人投資建議,也未考慮到個別用戶特殊的投資目標、財務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見、觀點或結(jié)論是否符合其特定狀況。據(jù)此投資,責(zé)任自負。關(guān)鍵詞: