人妻夜夜爽天天爽三区麻豆AV网站,水中色av综合,中国浓毛少妇毛茸茸,国产精品国产三级国产av剧情

您的位置：首頁(yè) > 產(chǎn)經(jīng) >

為何同一個(gè)中文大模型，不同評(píng)測(cè)標(biāo)準(zhǔn)打分差異大？|見(jiàn)智研究_快看

來(lái)源：華爾街見(jiàn)聞 ? 2023-05-10 18:12:41

5月9日中文通用大模型綜合性評(píng)測(cè)基準(zhǔn)SuperCLUE正式發(fā)布。經(jīng)過(guò)一天時(shí)間的發(fā)酵，論壇上對(duì)該評(píng)測(cè)標(biāo)準(zhǔn)質(zhì)疑的聲音越發(fā)多了，這是為什么？大模型評(píng)測(cè)標(biāo)準(zhǔn)設(shè)立的難度又在哪里？

(資料圖片)

中文評(píng)測(cè)標(biāo)準(zhǔn)為何重要？

科大訊飛董事長(zhǎng)劉慶峰認(rèn)為：如果要努力追趕OpenAI的進(jìn)度，需要一套科學(xué)系統(tǒng)的評(píng)測(cè)體系；用這一套科學(xué)系統(tǒng)，來(lái)判定技術(shù)迭代到底到了什么程度，還有哪些任務(wù)是不達(dá)標(biāo)的。

市場(chǎng)看重中文大模型評(píng)測(cè)標(biāo)準(zhǔn)主要基于三方面考慮因素。

第一、數(shù)據(jù)集的差異性。中文和英文的文本數(shù)據(jù)集在種類、規(guī)模、質(zhì)量等方面存在很大的差異，需要針對(duì)中文特點(diǎn)開(kāi)發(fā)相應(yīng)的數(shù)據(jù)集，以確保評(píng)測(cè)結(jié)果的準(zhǔn)確性和公正性。

第二、語(yǔ)言結(jié)構(gòu)和語(yǔ)法的差異。例如中文是一種“主謂賓”結(jié)構(gòu)的語(yǔ)言，而英文則是“主語(yǔ)動(dòng)詞賓語(yǔ)”結(jié)構(gòu)的語(yǔ)言。這些差異導(dǎo)致了中英文之間在語(yǔ)言處理任務(wù)上存在很大的區(qū)別，需要不同的評(píng)測(cè)標(biāo)準(zhǔn)和方法。

第三、中文詞匯量和歧義性。中文的詞匯量非常大，而且存在很多歧義性，需要更復(fù)雜的處理方法和技術(shù)，如分詞、詞性標(biāo)注、命名實(shí)體識(shí)別等。

華爾街見(jiàn)聞·見(jiàn)智研究認(rèn)為：中文大模型評(píng)測(cè)標(biāo)準(zhǔn)的重要性在于它可以幫助廠商相對(duì)客觀地評(píng)估模型的質(zhì)量和性能，比較不同模型的性能和差異。更重要的是標(biāo)準(zhǔn)化的評(píng)估方法和數(shù)據(jù)集能夠?yàn)殚_(kāi)發(fā)者提供很好的方向，促進(jìn)模型迭代速度。

此前，IDC發(fā)布的大模型評(píng)測(cè)標(biāo)準(zhǔn)，從三個(gè)維度（產(chǎn)品能力、應(yīng)用能力和生態(tài)能力）、6個(gè)一級(jí)指標(biāo)和11個(gè)二級(jí)指標(biāo)來(lái)評(píng)估中國(guó)大模型的能力。

并且給出結(jié)論：文心大模型在產(chǎn)品力和生態(tài)能力上都超過(guò)平均分水平。但是由于評(píng)測(cè)方法沒(méi)有完全公開(kāi)，貌似并沒(méi)有被市場(chǎng)所完全認(rèn)可。

所以，在大模型層出不窮的當(dāng)下，市場(chǎng)上非常需要對(duì)模型的評(píng)估方法和一致性標(biāo)準(zhǔn)。

但從當(dāng)下來(lái)看，這貌似又是一個(gè)在短期內(nèi)非常難以兌現(xiàn)的預(yù)期。

中文大模型評(píng)測(cè)標(biāo)準(zhǔn)化很難，SuperCLUE被吐槽選擇題方式單一

剛剛發(fā)布的文通用大模型基準(zhǔn)（SuperCLUE），是針對(duì)中文可用的通用大模型的一個(gè)測(cè)評(píng)基準(zhǔn)。它主要回答的問(wèn)題是：在當(dāng)前通用大模型大力發(fā)展的情況下，中文大模型的效果情況。

SuperCLUE從三個(gè)不同的維度評(píng)價(jià)模型的能力：基礎(chǔ)能力、專業(yè)能力和中文特性能力。

基礎(chǔ)能力：包括了常見(jiàn)的有代表性的模型能力，如語(yǔ)義理解、對(duì)話、邏輯推理、角色模擬、代碼、生成與創(chuàng)作等10項(xiàng)能力。
專業(yè)能力：包括了中學(xué)、大學(xué)與專業(yè)考試，涵蓋了從數(shù)學(xué)、物理、地理到社會(huì)科學(xué)等50多項(xiàng)能力。
中文特性能力：針對(duì)有中文特點(diǎn)的任務(wù)，包括了中文成語(yǔ)、詩(shī)歌、文學(xué)、字形等10項(xiàng)多種能力。

以SuperCLUE測(cè)試結(jié)果來(lái)看，文心一言的評(píng)測(cè)結(jié)果遠(yuǎn)不如星火大模型；

而以另一種比較火的評(píng)測(cè)標(biāo)準(zhǔn)是JioNLP，該評(píng)測(cè)是由中國(guó)科學(xué)院計(jì)算技術(shù)研究所自然語(yǔ)言處理與社會(huì)人文計(jì)算實(shí)驗(yàn)室（簡(jiǎn)稱“計(jì)算所NLP”）開(kāi)發(fā)和維護(hù)的。

JioNLP評(píng)測(cè)還提供了多種評(píng)測(cè)指標(biāo)和計(jì)算工具，以幫助研究者和開(kāi)發(fā)者客觀地評(píng)估模型的性能和效果，并比較不同模型的優(yōu)缺點(diǎn)和適用范圍。

JioNLP評(píng)測(cè)方式目前的總下載量達(dá)到2.4萬(wàn)次，近三十天下載量為1634次。

通過(guò)JioNLP評(píng)測(cè)，研究者和開(kāi)發(fā)者可以獲取實(shí)時(shí)的評(píng)測(cè)結(jié)果和排名，以及相應(yīng)的源代碼和技術(shù)報(bào)告，為中文自然語(yǔ)言處理的研究和應(yīng)用提供參考和支持。

從JioNLP評(píng)測(cè)的結(jié)果來(lái)看：文心一言的得分卻又高于星火大模型。

這背后的原因是兩種評(píng)測(cè)的方法的設(shè)置有很大的差異性。

SuperCLUE是只通過(guò)選擇題對(duì)模型能力進(jìn)行測(cè)試，而JioNLP采用的是客觀選擇題+主觀題（生成題、翻譯題和聊天題）進(jìn)行測(cè)試。

但相同的是，在官網(wǎng)留言區(qū)對(duì)于兩個(gè)測(cè)試標(biāo)準(zhǔn)都出現(xiàn)很多質(zhì)疑聲音。

如：對(duì)SuperCLUE評(píng)測(cè)方法如何限定測(cè)試題目數(shù)量，生成和創(chuàng)作類評(píng)測(cè)用選擇題測(cè)試是否合理，以及建議SuperCLUE像中文Alpaca一樣適度公開(kāi)評(píng)測(cè)說(shuō)明和標(biāo)準(zhǔn)。JioNLP也同樣存在測(cè)試精度、樣本量小等問(wèn)題。

見(jiàn)智研究認(rèn)為：當(dāng)下對(duì)大模型的評(píng)估方法和指標(biāo)還沒(méi)有形成共識(shí)、更沒(méi)有統(tǒng)一的標(biāo)準(zhǔn)出現(xiàn)，特別是對(duì)于不同場(chǎng)景和任務(wù)可能有不同的評(píng)價(jià)體系和需求出現(xiàn)。

常用的機(jī)器學(xué)習(xí)模型評(píng)估標(biāo)準(zhǔn)有7個(gè)比較重要的方向：

包括準(zhǔn)確度（針對(duì)分類能力）、精確度和召回率（模型正確預(yù)測(cè)的內(nèi)容占該樣本的比例）、對(duì)抗攻擊魯棒性（模型在受到輸入干擾時(shí)保持穩(wěn)定的能力）、計(jì)算效率、均方誤差、R方值以及數(shù)據(jù)隱私。

從當(dāng)下來(lái)看，SuperCLUE的評(píng)測(cè)方式單一性確實(shí)存在一定的弊端，但是該模型采用的人工評(píng)價(jià)的精度也曾被市場(chǎng)認(rèn)可確實(shí)在精度和靈活度上面高于系統(tǒng)的自動(dòng)評(píng)價(jià)方法。

總的來(lái)說(shuō)，大模型測(cè)試標(biāo)準(zhǔn)化是行業(yè)所需要的，但同樣也是非常難實(shí)現(xiàn)的。

風(fēng)險(xiǎn)提示及免責(zé)條款市場(chǎng)有風(fēng)險(xiǎn)，投資需謹(jǐn)慎。本文不構(gòu)成個(gè)人投資建議，也未考慮到個(gè)別用戶特殊的投資目標(biāo)、財(cái)務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見(jiàn)、觀點(diǎn)或結(jié)論是否符合其特定狀況。據(jù)此投資，責(zé)任自負(fù)。

關(guān)鍵詞：

市場(chǎng)環(huán)境日趨復(fù)雜的當(dāng)下，海天味業(yè)如何積極修煉內(nèi)外
為何同一個(gè)中文大模型，不同評(píng)測(cè)標(biāo)準(zhǔn)打分差異大？|
山西孝義通報(bào)偷排致三人中毒死亡:兩嫌疑人被控制
全球簡(jiǎn)訊:中國(guó)星辰 | 瞄準(zhǔn)今天21時(shí)22分天舟六號(hào)
教育部：大幅擴(kuò)大科研助理崗位，吸納應(yīng)屆畢業(yè)生就業(yè)
中國(guó)人壽前4月保費(fèi)收入3573億元同比增長(zhǎng)4%|熱點(diǎn)聚焦
每日簡(jiǎn)訊：聚力建設(shè)特色鮮明的現(xiàn)代農(nóng)業(yè)強(qiáng)市
大有能源：所屬耿村煤礦發(fā)生安全事故現(xiàn)場(chǎng)5名人員
天天新動(dòng)態(tài)：海南瓊海升級(jí)發(fā)布暴雨紅色預(yù)警
科信技術(shù)：公司目前生產(chǎn)經(jīng)營(yíng)情況正常業(yè)務(wù)生產(chǎn)經(jīng)營(yíng)
史前文化臨夏論壇與會(huì)專家學(xué)者考察臨夏市八坊十三巷
中油資本漲停機(jī)構(gòu)凈賣出1.68億元
政策引領(lǐng)促發(fā)展人才服務(wù)強(qiáng)賦能航天基地開(kāi)展2023
國(guó)常會(huì)：審議通過(guò)關(guān)于加快發(fā)展先進(jìn)制造業(yè)集群的意見(jiàn)
4月全國(guó)高速公路交通量同比增長(zhǎng)61%-全球今日?qǐng)?bào)
焦點(diǎn)科技跌停機(jī)構(gòu)凈賣出1.89億元-當(dāng)前通訊