100:87：GPT-4心智碾壓人類！三大GPT-3.5變種難敵

最新研究結(jié)果表明，AI在心智理論測試中的表現(xiàn)已經(jīng)優(yōu)于真人。GPT-4在推理基準(zhǔn)測試中準(zhǔn)確率可高達100%，而人類僅為87%。

GPT-4的心智理論，已經(jīng)超越了人類！

最近，約翰斯·霍普金斯大學(xué)的專家發(fā)現(xiàn)，GPT-4可以利用思維鏈推理和逐步思考，大大提升了自己的心智理論性能。

(資料圖片僅供參考)

在一些測試中，人類的水平大概是87%，而GPT-4，已經(jīng)達到了天花板級別的100%！

此外，在適當(dāng)?shù)奶崾鞠?，所有?jīng)過RLHF訓(xùn)練的模型都可以實現(xiàn)超過80%的準(zhǔn)確率。

讓AI學(xué)會心智理論推理

我們都知道，關(guān)于日常生活場景的問題，很多大語言模型并不是很擅長。

Meta首席AI科學(xué)家、圖靈獎得主LeCun曾斷言：「在通往人類級別AI的道路上，大型語言模型就是一條歪路。要知道，連一只寵物貓、寵物狗都比任何LLM有更多的常識，以及對世界的理解?！?/p>

也有學(xué)者認為，人類是隨著身體進化而來的生物實體，需要在物理和社會世界中運作以完成任務(wù)。而GPT-3、GPT-4、Bard、Chinchilla和LLaMA等大語言模型都沒有身體。

所以除非它們長出人類的身體和感官，有著人類的目的的生活方式。否則它們根本不會像人類那樣理解語言。

總之，雖然大語言模型在很多任務(wù)中的優(yōu)秀表現(xiàn)令人驚嘆，但需要推理的任務(wù)，對它們來說仍然很困難。

而尤其困難的，就是一種心智理論（ToM）推理。

為什么ToM推理這么困難呢？

因為在ToM任務(wù)中，LLM需要基于不可觀察的信息（比如他人的隱藏心理狀態(tài)）進行推理，這些信息都是需要從上下文推斷出的，并不能從表面的文本解析出來。

但是，對LLM來說，可靠地執(zhí)行ToM推理的能力又很重要。因為ToM是社會理解的基礎(chǔ)，只有具有ToM能力，人們才能參與復(fù)雜的社會交流，并預(yù)測他人的行動或反應(yīng)。

如果AI學(xué)不會社會理解、get不到人類社會交往的種種規(guī)則，也就無法為人類更好地工作，在各種需要推理的任務(wù)中為人類提供有價值的見解。

怎么辦呢？

專家發(fā)現(xiàn)，通過一種「上下文學(xué)習(xí)」，就能大大增強LLM的推理能力。

對于大于100B參數(shù)的語言模型來說，只要輸入特定的few-shot任務(wù)演示，模型性能就顯著增強了。

另外，即使在沒有演示的情況下，只要指示模型一步步思考，也會增強它們的推理性能。

為什么這些prompt技術(shù)這么管用？目前還沒有一個理論能夠解釋。

大語言模型參賽選手

基于這個背景，約翰斯·霍普金斯大學(xué)的學(xué)者評估了一些語言模型在ToM任務(wù)的表現(xiàn)，并且探索了它們的表現(xiàn)是否可以通過逐步思考、few-shot學(xué)習(xí)和思維鏈推理等方法來提高。

參賽選手分別是來自O(shè)penAI家族最新的四個GPT模型——GPT-4以及GPT-3.5的三個變體，Davinci-2、Davinci-3和GPT-3.5-Turbo。

· Davinci-2（API名稱：text-davinci-002）是在人類寫的演示上進行監(jiān)督微調(diào)訓(xùn)練的。

· Davinci-3（API名稱：text-davinci-003）是Davinci-2的升級版，它使用近似策略優(yōu)化的人類反饋強化學(xué)習(xí)（RLHF）進一步訓(xùn)練。

· GPT-3.5-Turbo（ChatGPT的原始版本），在人寫的演示和RLHF上都進行了微調(diào)訓(xùn)練，然后為對話進一步優(yōu)化。

· GPT-4是截至2023年4月的最新GPT模型。關(guān)于GPT-4的規(guī)模和訓(xùn)練方法的細節(jié)很少公布，然而，它似乎經(jīng)歷了更密集的RLHF訓(xùn)練，因此與人類意圖更加一致。

實驗設(shè)計：人類與模型大OK

如何考察這些模型呢？研究者設(shè)計了兩個場景，一個是控制場景，一個是ToM場景。

控制場景指的是一個沒有任何agent的場景，可以把它稱為「Photo場景」。

而ToM場景，描述了參與某種情況的人的心理狀態(tài)。

這些場景的問題，在難度上幾乎一樣。

人類

對于每個場景，人類參與者都有18秒的時間。

隨后，在一個新的屏幕上會出現(xiàn)一個問題，人類參與者通過點擊「是」或「否」來回答。

實驗中，Photo和ToM場景是混合的，并以隨機順序呈現(xiàn)。

舉個例子，Photo場景的問題如下——

情景：「一張地圖顯示了一樓的平面圖。昨天給建筑師發(fā)了一份復(fù)印件，但當(dāng)時廚房的門被遺漏了。今天早上，廚房門才被添加到地圖上。」

問題：建筑師的復(fù)印件上是否顯示了廚房的門？

ToM場景的問題如下——

情景：「高中舞會那天早上，Sarah把她的高跟鞋放在裙子下面，然后就去購物了。那天下午，她的姐姐借走了這雙鞋，后來把它們放在了Sarah的床下。」

問題：當(dāng)Sarah回來后，她會認為她的鞋子在裙子下面嗎？

測試結(jié)果是，人類在Photo場景的準(zhǔn)確率為（86%±4%），ToM場景的準(zhǔn)確率為（87%±4%）。

LLM

因為LLM是個概率模型，因此研究者對每個模型prompt了20次。

問題有16個場景，每個重復(fù)20次，因此LLM總共會被問320個問題。怎么定義準(zhǔn)確率呢？就是看正確答案占320個問題的比例。

對于高中舞會的問題，如果LLM做出如下回答，都算作正確。

示例 1：Sarah去購物前把鞋子放在裙子下面，但她姐姐借了鞋子后放在了Sarah的床底下。Sarah不知道她姐姐借了她的鞋子，所以她可能會認為鞋子還在她的衣服下面。
示例 2：Sarah去購物前把她的高跟鞋放在裙子下面，但她姐姐借了鞋子，后來把它們放在了Sarah的床底下。所以，Sarah不知道她姐姐借了又還了鞋子。因此，答案是：是的，她會認為她的鞋子在她的衣服下面。
示例 3：Sarah可能會認為她的鞋子還在她的裙子下面，因為那是她早上放鞋的地方。
示例 4：Sarah去購物前把她的高跟鞋放在裙子下面，這樣她就知道她把鞋子放在哪里了。她姐姐借了這雙鞋，后來把它們放在Sarah的床底下，但Sarah還不知道。所以，答案是：是的，Sarah會認為她的鞋子在衣服下面，除非她發(fā)現(xiàn)不是這樣。
示例 5：早上，Sarah將她的高跟鞋放在裙子下面。后來，她姐姐借了這雙鞋，把它們放在Sarah的床底下。因此，當(dāng)Sarah回來后，她可能會認為她的鞋子還在她的衣服下面，但實際上它們在她的床底下。
示例 6：基于這種情況，尚不清楚Sarah在回來時是否會認為她的鞋子在裙子下面。這要看她姐姐有沒有跟她說借過鞋，并且放在床底下了。

如果LLM做出以下回答，則被判定為錯誤。

示例 1：Sarah早上把鞋子放在裙子下面，然后去購物。她姐姐借了鞋子，把它們放在Sarah的床底下。所以，Sarah不知道她的鞋子在床下面。所以，答案是：不，Sarah不認為她的鞋子在她的衣服下面。
示例 2：不，Sarah不認為她的鞋子在她的衣服下面。
示例 3：首先，Sarah早上把她的高跟鞋放在裙子下面。然后，她姐姐借了這雙鞋，后來把它們放在了Sarah的床底下。因此，Sarah不會認為她的鞋子在衣服下面，因為她姐姐動過了。
示例 4：早上，Sarah將她的高跟鞋放在裙子下面，然后去購物了。這意味著，當(dāng)她回到家時，她并沒有檢查鞋子是否還在衣服下面。后來，她姐姐借了這雙鞋，把它們放在Sarah的床底下。因此，Sarah不能認為她的鞋子是在裙子下面，因為它們被她姐姐動過了。
示例 5：這個場景中沒有具體說明Sarah是否認為她的鞋子在衣服下面。
示例 6：Sarah早上把她的高跟鞋放在裙子下面，然后她去購物了。她姐姐后來借了這雙鞋，把它們放在Sarah的床底下。根據(jù)這些信息，尚不清楚Sarah在準(zhǔn)備跳舞時會不會認為她的鞋子還在裙子下面。

為了衡量上下文學(xué)習(xí)（ICL）對ToM表現(xiàn)的效果，研究者采用了四種類型的prompt。

Zero-Shot（無ICL)

Zero-Shot+Step-by-Step Thinking

Two-Shot思維鏈推理

Two-Shot思維鏈推理+Step-by-Step Thinking

實驗結(jié)果

首先，作者比較了模型在Photo和ToM場景中的zero-shot性能。

在Photo場景下，模型的準(zhǔn)確率會隨著使用時間的延長而逐漸提高（A）。其中Davinci-2的表現(xiàn)最差，GPT-4的表現(xiàn)最好。

與Photo理解相反，ToM問題的準(zhǔn)確性并沒有隨著模型的重復(fù)使用而單調(diào)地提高（B）。但這個結(jié)果并不意味著「分?jǐn)?shù)」低的模型推理性能更差。

比如，GPT-3.5 Turbo在信息不足的時候，就更加傾向于給出含糊不清的回復(fù)。但GPT-4就不會出現(xiàn)這樣的問題，其ToM準(zhǔn)確性也明顯高于其他所有模型。

prompt加持之后

作者發(fā)現(xiàn)，利用修改后的提示進行上下文學(xué)習(xí)之后，所有在Davinci-2之后發(fā)布的GPT模型，都會有明顯的提升。

首先，是最經(jīng)典的讓模型一步一步地思考。

結(jié)果顯示，這種step-by-step思維提高了Davinci-3、GPT-3.5-Turbo和GPT-4的表現(xiàn)，但沒有提高Davinci-2的準(zhǔn)確性。

其次，是采用Two-shot思維鏈（CoT）進行推理。

結(jié)果顯示，Two-shot CoT提高了所有用RLHF訓(xùn)練的模型（除Davinci-2以外）的準(zhǔn)確性。

對于GPT-3.5-Turbo，Two-shot CoT提示明顯提高了模型的性能，并且比一步一步思考更加有效。對于Davinci-3和GPT-4來說，用Two-shot CoT帶來的提升相對有限。

最后，同時使用Two-shot CoT推理和一步一步地思考。

結(jié)果顯示，所有RLHF訓(xùn)練的模型的ToM準(zhǔn)確性都有明顯提高：Davinci-3達到了83%（±6%）的ToM準(zhǔn)確性，GPT-3.5-Turbo達到了91%（±5%），而GPT-4達到了100%的最高準(zhǔn)確性。

而在這些情況下，人類的表現(xiàn)為87%（±4%）。

在實驗中，研究者注意到這樣一個問題：LLM ToM測試成績的提高，是因為從prompt中復(fù)制了推理步驟的原因嗎？

為此，他們嘗試用推理和照片示例進行prompt，但這些上下文示例中的推理模式，和ToM場景中的推理模式并不一樣。

即便如此，模型在ToM場景上的性能也提升了。

由此，研究者得出結(jié)論，prompt能夠提升ToM的性能，并不僅僅是因為過度擬合了CoT示例中顯示的特定推理步驟集。

相反，CoT示例似乎調(diào)用了一種涉及分步推理的輸出模式，是因為這個原因，才提高了模型對一系列任務(wù)的準(zhǔn)確性。

各類CoT實例對ToM性能的影響

1. 除了davincin-2之外，所有模型都能夠利用修改后的prompt，來獲得更高的ToM準(zhǔn)確率。

而且，當(dāng)prompt同時結(jié)合思維鏈推理和Think Step-by-Step，而不是單獨使用兩者時，模型表現(xiàn)出了最大的準(zhǔn)確性提升。

2. Davinci-2是唯一一個沒有通過RLHF微調(diào)的模型，也是唯一一個沒有通過prompt而提高ToM性能的模型。這表明，有可能正是RLHF，使得模型能夠在這種設(shè)置中利用上下文提示。

3. LLM可能具有執(zhí)行ToM推理的能力，但在沒有適當(dāng)?shù)纳舷挛幕騪rompt的情況下，它們無法表現(xiàn)出這種能力。而在思維鏈和逐步提示的幫助下，davincin-3和GPT-3.5-Turbo，都有了高于GPT-4零樣本ToM精度的表現(xiàn)。

另外，此前就有許多學(xué)者對于這種評估LLM推理能力的指標(biāo)有過異議。

因為這些研究主要依賴于單詞補全或多項選擇題來衡量大模型的能力，然而這種評估方法可能無法捕捉到LLM所能進行的ToM推理的復(fù)雜性。ToM推理是一種復(fù)雜的行為，即使由人類推理，也可能涉及多個步驟。

因此，在應(yīng)對任務(wù)時，LLM可能會從產(chǎn)生較長的答案中受益。

原因有兩個：首先，當(dāng)模型輸出較長時，我們可以更公平地評估它。LLM有時會生成「糾正」，然后額外提到其他可能性，這些可能性會導(dǎo)致它得出一個不確定的總結(jié)。另外，模型可能對某種情況的潛在結(jié)果有一定程度的信息，但這可能不足以讓它得出正確的結(jié)論。

其次，當(dāng)給模型機會和線索，讓它們系統(tǒng)性地一步一步反應(yīng)時，LLM可能會解鎖新的推理能力，或者讓推理能力增強。

最后，研究者也總結(jié)了工作中的一些不足。

比如，在GPT-3.5模型中，有時推理是正確的，但模型無法整合這種推理來得出正確的結(jié)論。所以未來的研究應(yīng)該擴展對方法(如RLHF) 的研究，幫助LLM在給定先驗推理步驟的情況下，得出正確結(jié)論。

另外，在目前的研究中，并沒有定量分析每個模型的失效模式。每個模型如何失敗？為什么失?。窟@個過程中的細節(jié)，都需要更多的探究和理解。

還有，研究數(shù)據(jù)并沒有談到LLM是否擁有與心理狀態(tài)的結(jié)構(gòu)化邏輯模型相對應(yīng)的「心理能力」。但數(shù)據(jù)確實表明，向LLM詢問ToM的問題時，如果尋求一個簡單的是/否的答案，不會有成果。

好在，這些結(jié)果表明，LLM的行為是高度復(fù)雜和上下文敏感的，也向我們展示了，該如何在某些形式的社會推理中幫助LLM。

所以，我們需要通過細致的調(diào)查來表征大模型的認知能力，而不是條件反射般地應(yīng)用現(xiàn)有的認知本體論。

總之，隨著AI變得越來越強大，人類也需要拓展自己的想象力，去認識它們的能力和工作方式。

本文作者：新智元，文章來源：新智元，原文標(biāo)題：《100:87：GPT-4心智碾壓人類！三大GPT-3.5變種難敵》。

風(fēng)險提示及免責(zé)條款市場有風(fēng)險，投資需謹(jǐn)慎。本文不構(gòu)成個人投資建議，也未考慮到個別用戶特殊的投資目標(biāo)、財務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見、觀點或結(jié)論是否符合其特定狀況。據(jù)此投資，責(zé)任自負。

關(guān)鍵詞：