每日視訊:GPT-4滿分通過MIT本科數(shù)學(xué)考試!這套提示詞火了
萬萬想不到啊,MIT數(shù)學(xué)考試,被GPT-4攻破了?!
【資料圖】
突然有人在最新論文工作中高調(diào)宣布:
GPT-4在MIT的數(shù)學(xué)和EECS(電氣工程和計(jì)算機(jī)科學(xué)系)本科學(xué)位考試中,表現(xiàn)出的能力完全滿足畢業(yè)要求。
而且妥妥地拿下滿分!
要知道,測出這個結(jié)果的不是別人,正是來自MIT和波士頓大學(xué)、康奈爾大學(xué)的研究團(tuán)隊(duì)。
而且強(qiáng)如上一代王者GPT-3.5,在同樣的測試中,只成功搞定了三分之一。
GPT-4這樣看似開掛的行為,自然引發(fā)了不少網(wǎng)友的感慨。
比GPT-3.5強(qiáng)好多,好耶!
咱就是說,有沒有可能以后不需要比GPT-4更強(qiáng)的模型,來解決學(xué)術(shù)問題了?
還有網(wǎng)友展現(xiàn)了自己網(wǎng)上沖浪的“前沿性”,玩了個這兩天Yann LeCun吐槽“GPT-4智商不如狗”的梗:
GPT-4開掛MIT考試
研究團(tuán)隊(duì)策劃了一個數(shù)據(jù)集,其中包含4550個問題和解決方案。
這4550個問題和解決方案,來自MIT數(shù)學(xué)系和EECS的學(xué)生獲得本科學(xué)位,需要學(xué)習(xí)的課程問題集、期中考試和期末考試。
包括:
6-1:電氣科學(xué)與工程;6-2:電氣工程與計(jì)算機(jī)科學(xué);6-3:計(jì)算機(jī)科學(xué)與工程;6-4:人工智能與決策;18-1:普通數(shù)學(xué);18-2:應(yīng)用數(shù)學(xué);18-3:純數(shù)學(xué);18-C:數(shù)學(xué)與計(jì)算機(jī)科學(xué)。
題目統(tǒng)統(tǒng)出自MIT的數(shù)據(jù)集,從中隨機(jī)生成228個問題,不涉及圖像和已有解決方案的問題。
題目的難度等級由易到難依次為:練習(xí)、習(xí)題、 期中考試、期末考試、實(shí)驗(yàn)和專題。
按答案類型排序,題目的難度由易到難依次為:編程、開放、選擇題、數(shù)值、表達(dá)式和圖像。
這一次,參與考試的不只有GPT-4和GPT-3.5,還有StableVicuna-13B、LLaMA-30B和LLaMA-60B。
選擇讓這4個大模型作為考試參賽選手,原因是它們是“最先進(jìn)的大語言模型”。
通過表格里的數(shù)據(jù)可以看到,得分最高的是經(jīng)過調(diào)優(yōu)后的GPT-4,得分率100%;表現(xiàn)最一般的是LLaMA-30B,只拿下了30%的分?jǐn)?shù)。
值得關(guān)注的是,原始版本的GPT-4開箱即用,完全不經(jīng)過調(diào)優(yōu),在本次MIT考試中也拿到了90%的分?jǐn)?shù)。
調(diào)優(yōu)流程,包括Few-Shot+CoT+Self-critique+Experts。
從最終考試成績的表格數(shù)據(jù)可以看到,從左到右每增加一個環(huán)節(jié),調(diào)優(yōu)后的GPT-4得分都會更上一層樓。
此外,研究團(tuán)隊(duì)還在提示框里進(jìn)行了工程優(yōu)化,具體的“咒語”如下:
等等,評分人是GPT-4自己?
看到這樣的結(jié)果,不少網(wǎng)友心生感慨,LLM在數(shù)學(xué)考試上的進(jìn)步,未免有些神速了哈。
2年前,AI還在苦苦掙扎小學(xué)數(shù)學(xué)問題。
類似“小明種了5棵檸檬樹,每年從每棵樹上得到6個檸檬,10年間他總共得到多少檸檬”這種。
去年年初,MIT+哈佛+哥倫比亞大學(xué)+滑鐵盧大學(xué)的聯(lián)合研究表示,把數(shù)學(xué)問題轉(zhuǎn)換成等價的編程問題,就可以讓GPT-3的同門師兄弟——OpenAI的Codex掌握高數(shù),達(dá)到MIT本科水平。
學(xué)了6門MIT本科基礎(chǔ)數(shù)學(xué)課里隨機(jī)抽取的例題,6門課程每門隨機(jī)出25道題,再加上一個ACT水平(美國高考)的數(shù)據(jù)集里的60道題。
總計(jì)210道題,AI全部答對。
不過有人提出,AI達(dá)到的“MIT本科水平”,實(shí)際是Codex在做語言題而非數(shù)學(xué)題——
因?yàn)楫?dāng)時的評測中,Codex負(fù)責(zé)讀寫,并不包括求解。
所以,這一回GPT-4表現(xiàn)奇佳,怎一個妙字了得~
好了,知道你很著急夸它,但你先別著急夸它,因?yàn)楹芸煊腥税l(fā)現(xiàn)了一些“詭異”。
主要有2大槽點(diǎn)。
第一個值得質(zhì)疑一番的,就是OpenAI的訓(xùn)練數(shù)據(jù)集沒有完全公布。
這也就意味著,無法證明數(shù)據(jù)集中的4550個問題和解決方案,在GPT-4的訓(xùn)練集中不存在。
換句話說,如果GPT-4在預(yù)訓(xùn)練階段已經(jīng)接觸到了這次的考題們,那最終拿下完美得分,就沒什么好驚喜的了。
也難怪乎有網(wǎng)友毫不客氣地yygq,認(rèn)定GPT-4拿到這樣的結(jié)果,一定是數(shù)據(jù)集已經(jīng)包含在訓(xùn)練數(shù)據(jù)里了。
第二個槽點(diǎn),就是GPT-4最后100%的得分率,似乎哪里不對勁???
定睛一看,在論文的第2.6節(jié)有一句很關(guān)鍵的點(diǎn):
團(tuán)隊(duì)在數(shù)據(jù)集上微調(diào)開源大模型,“給定問題Q、基本事實(shí)解S和LLM答案A,我們使用GPT-4自動對模型響應(yīng)進(jìn)行評分”。
實(shí)際操作上,就是每個大模型生成這次考試的答案,然后派出GPT-4打分,分值在0-5之間。
所以給GPT-4打出滿分的,實(shí)際上是GPT-4自己。
啊這……很難說沒有王婆賣瓜自賣自夸的嫌疑。
此外,關(guān)于要給GPT-4提供“好的提示”,才能讓它達(dá)到滿分成績,也讓許多人抱有微詞。
到底什么算“好的提示”呢?似乎無法定義。
甚至有人喊著,應(yīng)該把這些題丟給MIT數(shù)學(xué)和EECS的學(xué)生去做,并不斷給他們“好的提示”,這樣人類學(xué)生也能拿下100%的吧……
One More Thing
一個小小的彩蛋:
整個測試中,基本上可以在筆記本電腦上部署運(yùn)行的StableVicuna-13B,也有48%的得分率。
這個成績,不僅比模型更大的LLaMA-65B高出近10個百分點(diǎn),就連MIT fine-tuing過后的LLaMA-30B,還要高。
讓人不得不陷入一些關(guān)于模型規(guī)模與能力相關(guān)性的思考。
參考鏈接:[1]https://arxiv.org/abs/2306.08997[2]https://twitter.com/johnjnay/status/1669687958960586753[3]https://twitter.com/arankomatsuzaki/status/1669528841629601792[4]https://twitter.com/emollick/status/1669742473097228292
本文來源:量子位,作者:衡宇,原標(biāo)題:《GPT-4滿分通過MIT本科數(shù)學(xué)考試!這套提示詞火了》
風(fēng)險提示及免責(zé)條款 市場有風(fēng)險,投資需謹(jǐn)慎。本文不構(gòu)成個人投資建議,也未考慮到個別用戶特殊的投資目標(biāo)、財(cái)務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見、觀點(diǎn)或結(jié)論是否符合其特定狀況。據(jù)此投資,責(zé)任自負(fù)。關(guān)鍵詞: