AI考公考編指日可待!微軟華人團(tuán)隊(duì)發(fā)布全新基準(zhǔn)AGIEval,專為人類考試而生
隨著語言模型的能力越來越強(qiáng),現(xiàn)有的這些評(píng)估基準(zhǔn)實(shí)在有點(diǎn)小兒科了,有些任務(wù)的性能都甩了人類一截。
通用人工智能(AGI)的一個(gè)重要特點(diǎn)是模型具有處理人類水平任務(wù)的泛化能力,而依賴于人工數(shù)據(jù)集的傳統(tǒng)基準(zhǔn)測(cè)試并不能準(zhǔn)確表示人類的能力。
【資料圖】
最近,微軟的研究人員發(fā)布了一個(gè)全新基準(zhǔn)AGIEval,專門用于評(píng)估基礎(chǔ)模型在「以人為本」(human-centric)的標(biāo)準(zhǔn)化考試中,如高考、公務(wù)員考試、法學(xué)院入學(xué)考試、數(shù)學(xué)競(jìng)賽和律師資格考試中的表現(xiàn)。
論文鏈接:https://arxiv.org/pdf/2304.06364.pdf
數(shù)據(jù)鏈接:https://github.com/microsoft/AGIEval
研究人員使用AGIEval基準(zhǔn)評(píng)估了三個(gè)最先進(jìn)的基礎(chǔ)模型,包括GPT-4、 ChatGPT和Text-Davinci-003,實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)GPT-4在SAT、 LSAT和數(shù)學(xué)競(jìng)賽中的成績(jī)超過了人類平均水平,SAT數(shù)學(xué)考試的準(zhǔn)確率達(dá)到了95% ,中國高考英語考試的準(zhǔn)確率達(dá)到了92.5% ,表明了目前基礎(chǔ)模型的非凡表現(xiàn)。
但GPT-4在需要復(fù)雜推理或特定領(lǐng)域知識(shí)的任務(wù)中不太熟練,文中對(duì)模型能力(理解、知識(shí)、推理和計(jì)算)的全面分析揭示了這些模型的優(yōu)勢(shì)和局限性。
AGIEval數(shù)據(jù)集
近年來,大型基礎(chǔ)模型如GPT-4在各個(gè)領(lǐng)域已經(jīng)表現(xiàn)出非常強(qiáng)大的能力,可以輔助人類處理日常事件,甚至還能在法律、醫(yī)學(xué)和金融等專業(yè)領(lǐng)域提供決策建議。
也就是說,人工智能系統(tǒng)正逐步接近并實(shí)現(xiàn)通用人工智能(AGI)。
但隨著AI逐步融入日常生活,如何評(píng)估模型以人為本的泛化能力,識(shí)別潛在的缺陷,并確保它們能夠有效地處理復(fù)雜的、以人為本的任務(wù),以及評(píng)估推理能力確保在不同環(huán)境下的可靠性和可信度是至關(guān)重要的。
研究人員構(gòu)造AGIEval數(shù)據(jù)集主要遵循兩個(gè)設(shè)計(jì)原則:
1. 強(qiáng)調(diào)人腦級(jí)別的認(rèn)知任務(wù)設(shè)計(jì)「以人為本」的主要目標(biāo)是以與人類認(rèn)知和解決問題密切相關(guān)的任務(wù)為中心,并以一種更有意義和全面的方式評(píng)估基礎(chǔ)模型的泛化能力。
為了實(shí)現(xiàn)這一目標(biāo),研究人員選擇了各種官方的、公開的、高標(biāo)準(zhǔn)的招生和資格考試,以滿足一般人類應(yīng)試者的需要,包括大學(xué)入學(xué)考試、法學(xué)院入學(xué)考試、數(shù)學(xué)考試、律師資格考試和國家公務(wù)員考試,每年都有數(shù)百萬尋求進(jìn)入高等教育或新職業(yè)道路的人參加這些考試。
通過遵守這些官方認(rèn)可的評(píng)估人類水平能力的標(biāo)準(zhǔn),AGIEval可以確保對(duì)模型性能的評(píng)估與人類決策和認(rèn)知能力直接相關(guān)。
2. 與現(xiàn)實(shí)世界場(chǎng)景的相關(guān)性通過選擇來自高標(biāo)準(zhǔn)的入學(xué)考試和資格考試的任務(wù),可以確保評(píng)估結(jié)果能夠反映個(gè)人在不同領(lǐng)域和背景下經(jīng)常遇到的挑戰(zhàn)的復(fù)雜性和實(shí)用性。
這種方法不僅可以衡量模型在人類認(rèn)知能力方面的表現(xiàn),而且可以更好地了解在現(xiàn)實(shí)生活中的適用性和有效性,即有助于開發(fā)出更可靠、更實(shí)用、更適合于解決廣泛的現(xiàn)實(shí)世界問題的人工智能系統(tǒng)。
根據(jù)上述設(shè)計(jì)原則,研究人員選擇了多種標(biāo)準(zhǔn)化的高質(zhì)量考試,強(qiáng)調(diào)人類水平的推理和現(xiàn)實(shí)世界的相關(guān)性,具體包括:
1. 普通高校入學(xué)考試大學(xué)入學(xué)考試包含各種科目,需要批判性思維、解決問題和分析能力,是評(píng)估大型語言模型與人類認(rèn)知相關(guān)性能的理想選擇。
具體包括研究生入學(xué)考試(GRE),學(xué)術(shù)評(píng)估考試(SAT)和中國高考(Gaokao),可以評(píng)估尋求進(jìn)入高等教育機(jī)構(gòu)的學(xué)生的一般能力和特定學(xué)科知識(shí)。
數(shù)據(jù)集中收集了與中國高考8個(gè)科目對(duì)應(yīng)的考試:歷史、數(shù)學(xué)、英語、中文、地理、生物、化學(xué)和物理;從GRE中選擇數(shù)學(xué)題;從SAT中選擇英語和數(shù)學(xué)科目來構(gòu)建基準(zhǔn)數(shù)據(jù)集。
2. 法學(xué)院入學(xué)考試法學(xué)院入學(xué)考試,如LSAT,旨在衡量未來的法律學(xué)生的推理和分析能力,考試內(nèi)容包括邏輯推理、閱讀理解和分析推理等部分,需要應(yīng)試者分析復(fù)雜信息和得出準(zhǔn)確結(jié)論的能力,這些任務(wù)可以評(píng)估語言模型在法律推理和分析方面的能力。
3. 律師資格考試可以評(píng)估追求法律職業(yè)的個(gè)人的法律知識(shí)、分析能力和道德理解,考試內(nèi)容涵蓋了廣泛的法律主題,包括憲法、合同法、刑法和財(cái)產(chǎn)法,并要求考生展示他們有效應(yīng)用法律原則和推理的能力,可以在專業(yè)法律知識(shí)和道德判斷的背景下評(píng)估語言模型的表現(xiàn)。
4. 研究生管理入學(xué)考試(GMAT)GMAT是一個(gè)標(biāo)準(zhǔn)化的考試,可以評(píng)估未來商學(xué)院研究生的分析、定量、言語和綜合推理能力,由分析性寫作評(píng)估、綜合推理、定量推理和言語推理等部分組成,評(píng)估應(yīng)試者的批判性思考、分析數(shù)據(jù)和有效溝通的能力。
5. 高中數(shù)學(xué)競(jìng)賽這些比賽涵蓋了廣泛的數(shù)學(xué)主題,包括數(shù)論、代數(shù)、幾何和組合學(xué),并且經(jīng)常出現(xiàn)一些非常規(guī)的問題,需要用創(chuàng)造性的方法來解決。
具體包括美國數(shù)學(xué)競(jìng)賽(AMC)和美國數(shù)學(xué)邀請(qǐng)考試(AIME),可以測(cè)試學(xué)生的數(shù)學(xué)能力、創(chuàng)造力和解決問題的能力,能夠進(jìn)一步評(píng)估語言模型處理復(fù)雜和創(chuàng)造性數(shù)學(xué)問題的能力,以及模型生成新穎解決方案的能力。
6. 國內(nèi)公務(wù)員考試可以評(píng)估尋求進(jìn)入公務(wù)員隊(duì)伍的個(gè)人的能力和技能,考試內(nèi)容包括評(píng)估一般知識(shí)、推理能力、語言技能,以及與中國各種公務(wù)員職位的角色和職責(zé)有關(guān)的特定科目的專業(yè)知識(shí),可以衡量語言模型在公共管理背景下的表現(xiàn),以及他們對(duì)政策制定、決策和公共服務(wù)提供過程的潛力。
評(píng)估結(jié)果
選擇的模型包括:
ChatGPT,由OpenAI開發(fā)的對(duì)話式人工智能模型,可以參與用戶互動(dòng)和動(dòng)態(tài)對(duì)話,使用龐大的指令數(shù)據(jù)集進(jìn)行訓(xùn)練,并通過強(qiáng)化學(xué)習(xí)與人類反饋(RLHF)進(jìn)一步調(diào)整,使其能夠提供與人類期望相一致的上下文相關(guān)和連貫的回復(fù)。
GPT-4,作為第四代GPT模型,包含范圍更廣的知識(shí)庫,在許多應(yīng)用場(chǎng)景中都表現(xiàn)出人類水平的性能。GPT-4利用對(duì)抗性測(cè)試和ChatGPT進(jìn)行了反復(fù)調(diào)整,從而在事實(shí)性、可引導(dǎo)性和對(duì)規(guī)則的遵守方面有了明顯的改進(jìn)。
Text-Davinci-003是GPT-3和GPT-4之間的一個(gè)中間版本,通過指令微調(diào)后比GPT-3的性能更好。
除此之外,實(shí)驗(yàn)中還報(bào)告了人類應(yīng)試者的平均成績(jī)和最高成績(jī),作為每個(gè)任務(wù)的人類水平界限,但并不能完全代表人類可能擁有的技能和知識(shí)范圍。
Zero-shot/Few-shot評(píng)估
在零樣本的設(shè)置下,模型直接對(duì)問題進(jìn)行評(píng)估;在少樣本任務(wù)中,在對(duì)測(cè)試樣本進(jìn)行評(píng)估之前,先輸入同一任務(wù)中的少量例子(如5個(gè))。
為了進(jìn)一步測(cè)試模型的推理能力,實(shí)驗(yàn)中還引入思維鏈(CoT)提示,即先輸入提示「Let’s think step by step」為給定的問題生成解釋,然后輸入提示「Explanation is」根據(jù)解釋生成最終的答案。
基準(zhǔn)中的「多選題」使用標(biāo)準(zhǔn)分類準(zhǔn)確率;「填空題」使用精確匹配(EM)和F1指標(biāo)。
從實(shí)驗(yàn)結(jié)果中可以發(fā)現(xiàn):
1.GPT-4在所有任務(wù)設(shè)置下都明顯優(yōu)于其同類產(chǎn)品,其中在Gaokao-English上更是取得了93.8%的準(zhǔn)確率,在SAT-MATH上取得了95%的準(zhǔn)確率,表明GPT-4在處理以人為本的任務(wù)方面具有卓越的通用能力。
2.ChatGPT在需要外部知識(shí)的任務(wù)中明顯優(yōu)于Text-Davinci-003,例如涉及地理、生物、化學(xué)、物理和數(shù)學(xué)的任務(wù),表明ChatGPT擁有更強(qiáng)大的知識(shí)基礎(chǔ),能夠更好地處理那些需要對(duì)特定領(lǐng)域有深刻理解的任務(wù)。
另一方面,ChatGPT在所有評(píng)估設(shè)置中,在需要純粹理解和不嚴(yán)重依賴外部知識(shí)的任務(wù)中,如英語和LSAT任務(wù),略微優(yōu)于Text-Davinci-003,或取得相當(dāng)?shù)慕Y(jié)果。這一觀察結(jié)果意味著,這兩個(gè)模型都能夠處理以語言理解和邏輯推理為中心的任務(wù),而不需要專門的領(lǐng)域知識(shí)。
3. 盡管這些模型的總體表現(xiàn)不錯(cuò),但所有的語言模型都在復(fù)雜的推理任務(wù)中表現(xiàn)不佳,比如MATH、LSAT-AR、GK-physics和GK-Math,突出了這些模型在處理需要高級(jí)推理和解決問題技能的任務(wù)方面的局限性。
觀察到的處理復(fù)雜推理問題的困難為未來的研究和開發(fā)提供了機(jī)會(huì),目的是提高模型的一般推理能力。
4. 與zero-shot學(xué)習(xí)相比,few-shot學(xué)習(xí)通常只能帶來有限的性能改善,表明目前大型語言模型的zero-shot學(xué)習(xí)能力正在接近few-shot學(xué)習(xí)能力,也標(biāo)志著與最初的GPT-3模型相比有了很大的進(jìn)步,當(dāng)時(shí)few-shot性能要比zero-shot好得多。
對(duì)這一發(fā)展的一個(gè)合理解釋是,在目前的語言模型中加強(qiáng)了人類的調(diào)整和指令的調(diào)整,這些改進(jìn)使模型能夠提前更好地理解任務(wù)的含義和背景,從而使它們即使在zero-shot的情況下也能有良好的表現(xiàn),證明了指令的有效性。
本文來源:新智元,原文標(biāo)題:《AI考公考編指日可待!微軟華人團(tuán)隊(duì)發(fā)布全新基準(zhǔn)AGIEval,專為人類考試而生》
風(fēng)險(xiǎn)提示及免責(zé)條款 市場(chǎng)有風(fēng)險(xiǎn),投資需謹(jǐn)慎。本文不構(gòu)成個(gè)人投資建議,也未考慮到個(gè)別用戶特殊的投資目標(biāo)、財(cái)務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見、觀點(diǎn)或結(jié)論是否符合其特定狀況。據(jù)此投資,責(zé)任自負(fù)。關(guān)鍵詞: