人妻夜夜爽天天爽三区麻豆AV网站,水中色av综合,中国浓毛少妇毛茸茸,国产精品国产三级国产av剧情

您的位置：首頁 > 要聞 >

GPT-4數(shù)學(xué)能力大蹦極！OpenAI爆火研究「過程監(jiān)督」突破78.2%難題，干掉幻覺-今日熱文

來源：新智元公眾號 ? 2023-06-01 22:15:11

【新智元導(dǎo)讀】ChatGPT為人詬病的「數(shù)學(xué)智障」問題，有望徹底攻克!OpenAI最新研究發(fā)現(xiàn)，利用「過程監(jiān)督」可以大幅提升GPT模型的數(shù)學(xué)能力，干掉它們的幻覺。

ChatGPT自發(fā)布以來，數(shù)學(xué)能力飽受詬病。

【資料圖】

就連「數(shù)學(xué)天才」陶哲軒曾表示，GPT-4在自己的數(shù)學(xué)專業(yè)領(lǐng)域，并沒有太多的增值。

怎么辦，就一直讓ChatGPT做個「數(shù)學(xué)智障」么?

OpenAI在努力——為了提升GPT-4的數(shù)學(xué)推理能力，OpenAI團隊用「過程監(jiān)督」（PRM）訓(xùn)練模型。

論文地址:https://cdn.openai.com/improving-mathematical-reasoning-with-process-supervision/Lets_Verify_Step_by_Step.pdf

論文中，研究人員訓(xùn)練模型通過獎勵每一個正確的推理步驟，即「過程監(jiān)督」，而不僅僅是獎勵正確的最終結(jié)果（結(jié)果監(jiān)督），在數(shù)學(xué)問題解決方面取得最新SOTA。

具體來講， PRM解決了MATH測試集代表性子集中78.2%的問題。

此外，OpenAI發(fā)現(xiàn)「過程監(jiān)督」在對齊上有很大的價值——訓(xùn)練模型產(chǎn)生人類認(rèn)可的思維鏈。

最新研究當(dāng)然少不了Sam Altman的轉(zhuǎn)發(fā)，「我們的Mathgen團隊在過程監(jiān)督上取得了非常令人振奮的結(jié)果，這是對齊的積極信號。」

在實踐中，「過程監(jiān)督」因為需要人工反饋，對于大模型和各種任務(wù)來說成本都極其高昂。因此，這項工作意義重大，可以說能夠確定OpenAI未來的研究方向。

解決數(shù)學(xué)問題

實驗中，研究人員用MATH數(shù)據(jù)集中的問題，來評估「過程監(jiān)督」和「結(jié)果監(jiān)督」的獎勵模型。

讓模型為每個問題生成許多解決方案，然后挑選每個獎勵模型排名最高的解決方案。

如圖顯示了所選解決方案中，取得正確最終答案的百分比，作為所考慮解決方案數(shù)量的函數(shù)。

「過程監(jiān)督」獎勵模型不僅在整體上表現(xiàn)更好，而且隨著考慮每個問題的更多解決方案，性能差距也在擴大。

這表明，「過程監(jiān)督」獎勵模型更加可靠。

如下，OpenAI展示了模型的10個數(shù)學(xué)問題和解決方案，以及對獎勵模型優(yōu)缺點的評論。

從以下三類指標(biāo)，真正（TP）、真負(fù)(TN)、假正(FP)，對模型進行了評估。

真正（TP）

先來簡化個三角函數(shù)公式。

這個具有挑戰(zhàn)性的三角函數(shù)問題，需要以一種不明顯的順序應(yīng)用幾個恒等式。

但是大多數(shù)解決嘗試都失敗了，因為很難選擇哪些恒等式實際上是有用的。

雖然GPT-4通常不能解決這個問題，只有0.1%的解決方案嘗試實現(xiàn)正確答案，但獎勵模型正確地識別出這個解決方案是有效的。

這里，GPT-4成功地執(zhí)行了一系列復(fù)雜的多項式因式分解。

在步驟5中使用Sophie-Germain恒等式是一個重要的步驟?？梢?，這一步驟很有洞察力。

在步驟7和8中，GPT-4開始執(zhí)行猜測和檢查。

這是該模型可能產(chǎn)生「幻覺」的常見地方，它會聲稱某個特定的猜測是成功的。在這種情況下，獎勵模型驗證每一步，并確定思維鏈?zhǔn)钦_的。

模型成功地應(yīng)用了幾個三角恒等式以簡化表javascript達式。

真負(fù)（TN）

在步驟7中，GPT-4試圖簡化一個表達式，但嘗試失敗。獎勵模型發(fā)現(xiàn)了這個錯誤。

在步驟11中，GPT-4犯了一個簡單的計算錯誤。同樣被獎勵模型發(fā)現(xiàn)。

GPT-4在步驟12中嘗試使用差平方公式，但這個表達式實際上并非差平方。

步驟8的理由很奇怪，但獎勵模型讓它通過了。然而，在步驟9中，模型錯誤地將表達式分解出因子。

獎勵模型便糾出這個錯誤。

假正（FP）

在步驟4中，GPT-4錯誤OgIjmy地聲稱「序列每12項重復(fù)一次」，但實際上每10項重復(fù)一次。這種計數(shù)錯誤偶爾會欺騙獎勵模型。

步驟13中，GPT-4試圖通過合并類似的項來簡化方程。它正確地將線性項移動并組合到左邊，但錯誤地保持右邊不變。獎勵模型被這個錯誤所欺騙。

GPT-4嘗試進行長除法，但在步驟16中，它忘記在小數(shù)的重復(fù)部分包括前面的零。獎勵模型被這個錯誤所欺騙。

GPT-4在步驟9中犯了一個微妙的計數(shù)錯誤。

表面上，聲稱有5種方法可以交換同色的球（因為有5種顏色）似乎是合理的。

然而，這個計數(shù)低估了2倍，因為Bob有2個選擇，即決定把哪個球給Alice。獎勵模型被這個錯誤所欺騙。

過程監(jiān)督

雖然大語言模型在復(fù)雜推理能力方面有了很大的提升，但即便是最先進的模型仍然會產(chǎn)生邏輯錯誤，或胡說八道，也就是人們常說的「幻覺」。

在生成式人工智能的熱潮中，大語言模型的幻覺一直讓人們苦惱不已。

馬斯克說，我們需要的是TruthGPT

比如最近，一位美國律師在紐約聯(lián)邦法院的文件中就引用了ChatGPT捏造出的案件，可能面臨制裁。

OpenAI的研究者在報告中提到:“在需要多步驟推理的領(lǐng)域，這些幻覺尤其成問題，因為，一個簡單的邏輯錯誤，就足以對整個解決方案造成極大的破壞?！?/p>

而且，減輕幻覺，也是構(gòu)建一致AGI的關(guān)鍵。

怎么減少大模型的幻覺呢?一般有兩種方法——過程監(jiān)督和結(jié)果監(jiān)督。

「結(jié)果監(jiān)督」，顧名思義，就是根據(jù)最終結(jié)果給大模型反饋，而「過程監(jiān)督」則可以針對思維鏈中的每個步驟提供反饋。

在過程監(jiān)督中，會獎勵大模型正確的推理步驟，而不僅僅是獎勵它們正確的最終結(jié)論。這個過程，會鼓勵模型遵循更多類似人類的思維方法鏈，因而也就更可能造就更好的可解釋AI。

OpenAI的研究者表示，雖然過程監(jiān)督并不是OpenAI發(fā)明的，但OpenAI正在努力推動它向前發(fā)展。

最新研究中， OpenAI把「結(jié)果監(jiān)督」或「過程監(jiān)督」兩種方法都試了一遍。并使用MATH數(shù)據(jù)集作為測試平臺，并對這兩種方法進行了詳細(xì)比較。

結(jié)果發(fā)現(xiàn)，「過程監(jiān)督」能夠明顯提高模型性能。

對于數(shù)學(xué)任務(wù)，「過程監(jiān)督」對大模型和小模型都產(chǎn)生了明顯更好的結(jié)果，這意味著模型通常是正確的，并且還表現(xiàn)出了更像人類的思維過程。

這樣，即使在最強大的模型中也很難避免的幻覺或邏輯錯誤，就可以減少了。

對齊優(yōu)勢明顯

研究人員發(fā)現(xiàn)了「過程監(jiān)督」比「結(jié)果監(jiān)督」有幾個對齊優(yōu)勢:

直接獎勵遵循一致的思維鏈模型，因為過程中的每個步驟都受到精確的監(jiān)督。

更有可能產(chǎn)生可解釋的推理，因為「過程監(jiān)督」鼓勵模型遵循人類認(rèn)可的過程。相比之下，結(jié)果監(jiān)督可能會獎勵一個不一致的過程，而且通常更難審查。

另外值得一提的是，在某些情況下，讓AI系統(tǒng)更安全的方法可能會導(dǎo)致性能下降。這種成本被稱為「對齊稅」（alignment tax）。

一般來說，為了部署最有能力的模型，任何「對齊稅」成本都可能阻礙對齊方法的采用。

但是，研究人員如下的結(jié)果表明，「過程監(jiān)督」在數(shù)學(xué)領(lǐng)域測試過程中實際上會產(chǎn)生「負(fù)對齊稅」。

可以說，沒有因為對齊造成較大性能損耗。

OpenAI發(fā)布80萬人工標(biāo)注數(shù)據(jù)集

值得注意的是，PRM需要更多的人類標(biāo)注，還是深深離不開RLHF。

過程監(jiān)督在數(shù)學(xué)以外的領(lǐng)域，具有多大的適用性呢?這個過程需要進一步探索。

OpenAI研究人員開放了這次人類反饋數(shù)據(jù)集PRM，包含800，000個步驟級正確標(biāo)注:12K數(shù)學(xué)問題生成的75K解決方案

如下是一個標(biāo)注的示例。OpenAI正在發(fā)布原始標(biāo)注，以及在項目第1階段和第2階段給標(biāo)注者的指示。

網(wǎng)友熱評

英偉達科學(xué)家Jim Fan對OpenAI最新研究做了一個總結(jié):

對于具有挑戰(zhàn)性的分步問題，在每一步都給予獎勵，而不是在最后給予單一的獎勵?；旧?，密集獎勵信號>稀疏獎勵信號。過程獎勵模型（PRM）能夠比結(jié)果獎勵模型(ORM)更好為困難的MATH基準(zhǔn)挑選解決方案。下一步顯然是用PRM對GPT-4進行微調(diào)，而本文還沒有這樣做。需要注意的是，PRM需要更多的人類標(biāo)php注。OpenAI發(fā)布了人類反饋數(shù)據(jù)集:在12K數(shù)學(xué)問題的75K解決方案中的800K步驟級標(biāo)注。

這就像上學(xué)時常說的一句老話，學(xué)會如何去思考。

訓(xùn)練模型去思考，而不僅是輸出正確的答案，將會成為解決復(fù)雜問題的game changer。

ChatGPT在數(shù)學(xué)方面超級弱。今天我試圖解決一個四年級數(shù)學(xué)書上的數(shù)學(xué)問題。ChatGPT給了錯誤答案。我把我的答案和ChatGPT的答案，在perplexity AI、谷歌的答案，以及四年級的老師進行了核對。每個地方都可以確認(rèn)，chatgpt的答案是錯誤的。

參考資料:

https://openai.com/research/improving-mathematical-reasoning-with-process-supervision

關(guān)鍵詞：