人妻夜夜爽天天爽三区麻豆AV网站,水中色av综合,中国浓毛少妇毛茸茸,国产精品国产三级国产av剧情

<center id="8dkcv"></center>

<small id="8dkcv"><xmp id="8dkcv"><sup id="8dkcv"></sup></xmp></small>

<center id="8dkcv"></center>

<source id="8dkcv"><b id="8dkcv"><menu id="8dkcv"></menu></b></source>
<delect id="8dkcv"></delect>

您的位置：首頁(yè) > 產(chǎn)經(jīng) >

斯坦福最新研究警告：別太迷信大模型涌現(xiàn)能力，那是度量選擇的結(jié)果

來(lái)源：華爾街見(jiàn)聞 ? 2023-05-03 16:09:56

大模型出現(xiàn)后，涌現(xiàn)這一術(shù)語(yǔ)開(kāi)始流行起來(lái)，通常表述為在小規(guī)模模型中不存在，但在大規(guī)模模型中存在的能力。但斯坦福大學(xué)的研究者對(duì) LLM 擁有涌現(xiàn)能力的說(shuō)法提出了質(zhì)疑，他們認(rèn)為是人為選擇度量方式的結(jié)果。

別太迷信大模型的涌現(xiàn)，世界上哪兒有那么多奇跡？

斯坦福大學(xué)的研究者發(fā)現(xiàn)，大模型的涌現(xiàn)與任務(wù)的評(píng)價(jià)指標(biāo)強(qiáng)相關(guān)，并非模型行為在特定任務(wù)和規(guī)模下的基本變化，換一些更連續(xù)、平滑的指標(biāo)后，涌現(xiàn)現(xiàn)象就不那么明顯了，更接近線性。

近期，由于研究者們觀察到大型語(yǔ)言模型（LLMs），如 GPT、PaLM、LaMDA 可以在不同的任務(wù)中表現(xiàn)出所謂的「涌現(xiàn)能力」，這一術(shù)語(yǔ)在機(jī)器學(xué)習(xí)領(lǐng)域得到了極大關(guān)注：

事實(shí)上，復(fù)雜系統(tǒng)的新興特性一直以來(lái)都是物理學(xué)、生物學(xué)、數(shù)學(xué)等學(xué)科在研究的重點(diǎn)。

值得注意的一個(gè)觀點(diǎn)是，諾貝爾物理學(xué)獎(jiǎng)獲得者 P.W.Anderson 提出了「More Is Different」。這一觀點(diǎn)認(rèn)為，隨著系統(tǒng)復(fù)雜性的增加，新的屬性可能會(huì)具象化，即使從對(duì)系統(tǒng)微觀細(xì)節(jié)的精確定量理解中并不能（容易或根本無(wú)法）預(yù)測(cè)到。

(資料圖)

大模型領(lǐng)域的「涌現(xiàn)」如何定義？一種通俗的說(shuō)法是「在小規(guī)模模型中不存在，但在大規(guī)模模型中存在的能力」，因此，它們不能通過(guò)簡(jiǎn)單地推斷小規(guī)模模型的性能改進(jìn)來(lái)預(yù)測(cè)。

這種涌現(xiàn)的能力可能首先在 GPT-3 家族中被發(fā)現(xiàn)。后續(xù)的一些工作強(qiáng)調(diào)了這一發(fā)現(xiàn)：「雖然模型性能在一般水平上是可以預(yù)測(cè)的，但在特定任務(wù)上，其性能有時(shí)會(huì)在規(guī)模上出現(xiàn)相當(dāng)難以預(yù)測(cè)的涌現(xiàn)」。事實(shí)上，這些涌現(xiàn)能力非常令人驚訝，以至于「突然的、特定的能力擴(kuò)展」已經(jīng)被認(rèn)為是 LLM 的兩個(gè)最高定義特征之一。此外，「breakthrough capabilities」和「sharp left turns」等術(shù)語(yǔ)也被使用。

綜上所述，我們可以確定 LLM 涌現(xiàn)能力的兩個(gè)決定性屬性：

1. 敏銳性，從「不存在」到「存在」似乎只是瞬間的過(guò)渡；

2. 不可預(yù)測(cè)性，在看似不可預(yù)見(jiàn)的模型規(guī)模內(nèi)過(guò)渡。

與此同時(shí)，還有一些問(wèn)題懸而未決：是什么控制了哪些能力會(huì)涌現(xiàn)？什么控制著能力的涌現(xiàn)？我們?cè)鯓硬拍苁估硐氲哪芰Ω斓赜楷F(xiàn)，并確保不理想的能力永不涌現(xiàn)？

這些問(wèn)題與人工智能的安全和對(duì)齊息息相關(guān)，因?yàn)橛楷F(xiàn)的能力預(yù)示著更大的模型可能有一天會(huì)在沒(méi)有警告的情況下獲得對(duì)危險(xiǎn)能力的掌握，這是人類(lèi)不希望發(fā)生的。

在最新的一篇論文中，斯坦福大學(xué)的研究者對(duì) LLM 擁有涌現(xiàn)能力的說(shuō)法提出了質(zhì)疑。

具體而言，此處的質(zhì)疑針對(duì)的是在特定任務(wù)中模型輸出作為模型規(guī)模的函數(shù)而發(fā)生的涌現(xiàn)和不可預(yù)測(cè)的變化。

他們的懷疑基于以下觀察：似乎只有在非線性或不連續(xù)地?cái)U(kuò)展任何模型的 per-token 錯(cuò)誤率的度量下，模型才會(huì)出現(xiàn)涌現(xiàn)能力。例如，在 BIG-Bench 任務(wù)中，>92% 的涌現(xiàn)能力是這兩個(gè)度量下出現(xiàn)的：

這就為 LLMs 的涌現(xiàn)能力的起源提出了另一種解釋的可能性：盡管模型族的 per-token 錯(cuò)誤率會(huì)隨著模型規(guī)模的增加進(jìn)行平滑、持續(xù)且可預(yù)測(cè)地變化，但看似尖銳和不可預(yù)測(cè)的變化可能是由研究者選擇的測(cè)量方法引起的。

也就是說(shuō)，涌現(xiàn)能力可能是一種海市蜃樓，主要是由于研究者選擇了一種非線性或不連續(xù)地改變 per-token 錯(cuò)誤率的度量，部分原因是由于擁有太少的測(cè)試數(shù)據(jù)，不足以準(zhǔn)確估計(jì)較小模型的性能（從而導(dǎo)致較小的模型看起來(lái)完全不能執(zhí)行任務(wù)），另一部分原因是由于評(píng)估了太少的大規(guī)模模型。

為了闡述這種解釋方式，研究者將其作為一個(gè)簡(jiǎn)單的數(shù)學(xué)模型，并證明它是如何從數(shù)量上再現(xiàn)為支持 LLM 的涌現(xiàn)能力而提供的證據(jù)。然后，研究者以三種互補(bǔ)的方式檢驗(yàn)了這種解釋?zhuān)?/p>

1. 使用 InstructGPT [24]/GPT-3 [3] 模型系列，根據(jù)替代假說(shuō)做出、測(cè)試并確認(rèn)三個(gè)預(yù)測(cè)。2. 對(duì)先前的一些結(jié)果進(jìn)行了元分析，并表明在任務(wù)指標(biāo) - 模型家族三聯(lián)體的空間中，出現(xiàn)的能力只出現(xiàn)在某些指標(biāo)上，而不是任務(wù)上的模型家族（列）。該研究進(jìn)一步表明，在固定的模型輸出上，改變度量會(huì)導(dǎo)致涌現(xiàn)現(xiàn)象的消失。3. 故意在不同架構(gòu)的深度神經(jīng)網(wǎng)絡(luò)中誘導(dǎo)出多個(gè)視覺(jué)任務(wù)的涌現(xiàn)能力（這在以前從未被證明過(guò)），以顯示類(lèi)似的度量選擇如何誘導(dǎo)出看似涌現(xiàn)的能力。

檢驗(yàn)一：InstructGPT/GPT-3 模型系列分析

研究者選擇了 GPT 系列模型進(jìn)行進(jìn)一步分析，原因在于它是可公開(kāi)查詢的，這一點(diǎn)和其他模型系列不同（例如 PaLM、LaMDA、Gopher、Chinchilla）。在此前的研究中，GPT 系列模型被認(rèn)為在整數(shù)算術(shù)任務(wù)中展示出涌現(xiàn)能力。此處，研究者也選擇了整數(shù)算術(shù)這一任務(wù)。

圖 2: 大型語(yǔ)言模型的涌現(xiàn)能力是研究者分析的創(chuàng)造物，而不是模型輸出隨規(guī)模變化的根本性變化。

正如第 2 節(jié)中用數(shù)學(xué)和圖表解釋的那樣，研究者提出的替代解釋可以預(yù)測(cè)出三個(gè)結(jié)果：

1. 隨著模型規(guī)模提升，如果將度量從非線性 / 不連續(xù)的度量（圖 2CD）換成線性 / 連續(xù)的度量（圖 2EF），那么應(yīng)該會(huì)有平滑的、連續(xù)的、可預(yù)測(cè)的性能提升。

2. 對(duì)于非線性的度量，如果通過(guò)增大測(cè)試數(shù)據(jù)集的大小而提升所測(cè)模型性能的分辨率，那么應(yīng)該能讓模型得到平滑的、連續(xù)的、可預(yù)測(cè)的提升，并且該提升的比例與所選度量的可預(yù)測(cè)的非線性效應(yīng)是相對(duì)應(yīng)的。

3. 無(wú)論使用什么度量指標(biāo)，提升目標(biāo)字符串長(zhǎng)度都應(yīng)該會(huì)對(duì)模型性能產(chǎn)生影響，該影響是長(zhǎng)度為 1 的目標(biāo)性能的一個(gè)函數(shù)：對(duì)于準(zhǔn)確度是近乎幾何的函數(shù)，對(duì)于 token 編輯距離是近乎準(zhǔn)線性的函數(shù)。

為了測(cè)試這三個(gè)預(yù)測(cè)結(jié)論，研究者收集了 InstructGPT/GPT-3 系列模型在兩個(gè)算術(shù)任務(wù)上的字符串輸出結(jié)果：使用 OpenAI API 執(zhí)行 2 個(gè)兩位數(shù)整數(shù)之間的兩樣本乘法以及 2 個(gè)四位數(shù)整數(shù)之間的兩樣本加法。

圖 3：隨著模型規(guī)模提升，改變度量可以為性能帶來(lái)平滑、連續(xù)、可預(yù)測(cè)的改變。

從左至右：數(shù)學(xué)模型，2 個(gè)兩位數(shù)整數(shù)乘法任務(wù)， 2 個(gè)四位數(shù)整數(shù)加法任務(wù)。上方的圖是使用一個(gè)非線性度量（如準(zhǔn)確度）而測(cè)得的模型性能，可看到 InstructGPT/GPT-3 系列模型的性能在目標(biāo)長(zhǎng)度更長(zhǎng)時(shí)顯得銳利和不可預(yù)測(cè)。而下方的圖是使用一個(gè)線性度量（如 token 編輯距離）而測(cè)得的模型性能，此系列模型表現(xiàn)出了平滑的、可預(yù)測(cè)的性能提升，這是研究者宣稱的涌現(xiàn)產(chǎn)生的能力。

預(yù)測(cè)：涌現(xiàn)能力在線性度量下會(huì)消失

在這兩個(gè)整數(shù)乘法和加法任務(wù)上，如果目標(biāo)字符串的長(zhǎng)度是 4 或 5 位數(shù)字并且性能的度量方式是準(zhǔn)確度（圖 3 上一行圖），那么 GPT 系列模型會(huì)展現(xiàn)出涌現(xiàn)的算術(shù)能力。但是，如果將一個(gè)度量從非線性換成線性，同時(shí)保持模型的輸出固定，那么該系列模型的性能會(huì)得到平滑、連續(xù)和可預(yù)測(cè)的提升。這就確認(rèn)了研究者的預(yù)測(cè)，由此表明銳利和不確定性的來(lái)源是研究者所選擇的度量，而非模型的輸出的變化。還可以看到，在使用 token 編輯距離時(shí)，如果將目標(biāo)字符串的長(zhǎng)度從 1 增大至 5，那么可預(yù)見(jiàn)該系列模型的性能會(huì)下降，并且下降趨勢(shì)是近乎準(zhǔn)線性的，這符合第三個(gè)預(yù)測(cè)的前半部分。

預(yù)測(cè)：涌現(xiàn)能力隨著更高的分辨率評(píng)估的出現(xiàn)而消失

接下來(lái)是第二個(gè)預(yù)測(cè)：即使是用準(zhǔn)確度等非線性度量，更小模型的準(zhǔn)確度也不會(huì)為零，而是高于偶然性的非零值，其比例是與選擇使用準(zhǔn)確度為度量相對(duì)應(yīng)的。為了提升分辨率，以進(jìn)一步能準(zhǔn)確估計(jì)模型準(zhǔn)確度，研究者還生成了其它一些測(cè)試數(shù)據(jù)，然后他們發(fā)現(xiàn)：不管是在整數(shù)乘法任務(wù)上還是在整數(shù)加法任務(wù)上，InstructGPT/GPT-3 系列的所有模型都得到了超過(guò)偶然性的正值準(zhǔn)確度（圖 4）。這驗(yàn)證了第二個(gè)預(yù)測(cè)。可以看到，隨著目標(biāo)字符串長(zhǎng)度增大，準(zhǔn)確度會(huì)隨目標(biāo)字符串的長(zhǎng)度而呈現(xiàn)近乎幾何式的下降，這符合第三個(gè)預(yù)測(cè)的后半部分。這些結(jié)果還表明研究者選擇的準(zhǔn)確度會(huì)產(chǎn)生一些我們應(yīng)該能預(yù)料到的（近似）效果，即隨目標(biāo)長(zhǎng)度而近乎幾何式地衰減。

圖 4：使用更多測(cè)試數(shù)據(jù)集得到了更好的準(zhǔn)確度估計(jì)，這揭示出性能的變化是平滑的、連續(xù)的和可預(yù)測(cè)的。

從左至右：數(shù)學(xué)模型，2 個(gè)兩位數(shù)整數(shù)乘法任務(wù)， 2 個(gè)四位數(shù)整數(shù)加法任務(wù)。通過(guò)生成更多測(cè)試數(shù)據(jù)來(lái)提升分辨率，揭示出即使是在準(zhǔn)確度度量上，InstructGPT/GPT-3 系列模型的性能也是超出偶然結(jié)果的，并且其在兩種涌現(xiàn)能力上的提升是平滑的、連續(xù)的和可預(yù)測(cè)的，這兩種涌現(xiàn)能力的結(jié)果在定性上是與數(shù)學(xué)模型相符的。

檢驗(yàn)二：模型涌現(xiàn)的元分析

由于 GPT 系列模型是可以公開(kāi)查詢使用的，因此可以對(duì)它們進(jìn)行分析。但是，其它一些也有人聲稱具備涌現(xiàn)能力的模型（比如 PaLM、Chinchilla、Gopher）卻并不是公開(kāi)可用的，它們生成的輸出也沒(méi)有公開(kāi)，這意味著研究者在分析已發(fā)表結(jié)果時(shí)是受限的。研究者基于自己提出的替代假設(shè)給出了兩個(gè)預(yù)測(cè)：

第一，在「任務(wù) - 度量 - 模型系列」三元組的「群體層面（population level）」上，當(dāng)選擇使用非線性和 / 或非連續(xù)度量來(lái)評(píng)估模型性能時(shí)，模型應(yīng)當(dāng)會(huì)在任務(wù)上表現(xiàn)出涌現(xiàn)能力。第二，對(duì)于展現(xiàn)出了涌現(xiàn)能力的特定「任務(wù) - 度量 - 模型系列」三元組，如果將度量改變成線性和 / 或連續(xù)度量，那么涌現(xiàn)能力應(yīng)該會(huì)被消除。

為了測(cè)試這兩個(gè)假設(shè)，研究者調(diào)查了聲稱在 BIG-Bench 評(píng)估套件上涌現(xiàn)出的能力，因?yàn)樵谠撎准系幕鶞?zhǔn)是公開(kāi)可用的，并且也有很好的文檔。

預(yù)測(cè)：涌現(xiàn)能力應(yīng)該主要出現(xiàn)在非線性 / 非連續(xù)度量上

為了測(cè)試第一個(gè)預(yù)測(cè)，研究者分析了在哪些指標(biāo)上，不同的「任務(wù) - 模型系列」配對(duì)是否會(huì)出現(xiàn)涌現(xiàn)能力。為了確定一個(gè)「任務(wù) - 度量 - 模型系列」三元組是否可能展現(xiàn)出涌現(xiàn)能力，他們借用了論文《Beyond the imitation game: Quantifying and extrapolating the capabilities of language models》中引入的定義。令 y_i ∈ R 表示模型大小為 x_i ∈ R 時(shí)的模型性能，并使得 x_i < x_i+1，則涌現(xiàn)分?jǐn)?shù)為：

結(jié)果研究者發(fā)現(xiàn)，BIG-Bench 使用的大多數(shù)度量中沒(méi)有表現(xiàn)出涌現(xiàn)能力的「任務(wù) - 模型系列」配對(duì)：在人們偏好的 39 個(gè) BIG-Bench 度量中，至多 5 個(gè)展現(xiàn)出了涌現(xiàn)能力（圖 5A）。這 5 個(gè)大都是非線性的 / 非連續(xù)的，如精確字符串匹配、多選擇分級(jí)、ROUGE-L-Sum。值得注意的是，由于 BIG-Bench 通常使用多項(xiàng)度量來(lái)評(píng)估模型的任務(wù)表現(xiàn)，因此在其它度量下缺乏涌現(xiàn)能力這一現(xiàn)象說(shuō)明：當(dāng)使用其它度量來(lái)評(píng)價(jià)模型輸出時(shí)，涌現(xiàn)能力并不會(huì)出現(xiàn)。

由于涌現(xiàn)分?jǐn)?shù)僅表明有涌現(xiàn)能力，因此研究者還進(jìn)一步分析了論文《137 emergent abilities of large language models》中人工標(biāo)注的「任務(wù) - 度量 - 模型系列」三元組。人工標(biāo)注的數(shù)據(jù)表明 39 個(gè)度量中僅有 4 個(gè)表現(xiàn)出了涌現(xiàn)能力（圖 5B），并且它們中的 2 個(gè)就占到了所宣稱的涌現(xiàn)能力的 92% 以上（圖 5C）。多選擇分級(jí)和精確字符串匹配。多選擇分級(jí)是非連續(xù)的，精確字符串匹配是非線性的（在目標(biāo)長(zhǎng)度度量上的變化是近乎幾何式的）?？傮w而言，這些結(jié)果說(shuō)明涌現(xiàn)能力僅出現(xiàn)在非常少量的非線性和 / 或非連續(xù)度量上。

圖 5：僅有少數(shù)度量會(huì)出現(xiàn)涌現(xiàn)能力。(A) 在人們偏好的 39 個(gè) BIG-Bench 度量中，至多只有 5 個(gè)度量上可能出現(xiàn)了涌現(xiàn)能力。(B) 所引論文中人工標(biāo)注的數(shù)據(jù)表明僅有 4 個(gè)人們偏好的度量表現(xiàn)出了涌現(xiàn)能力。(C) 涌現(xiàn)能力中 > 92% 都出現(xiàn)在以下兩個(gè)度量之一上：多選擇分級(jí)和精確字符串匹配。

預(yù)測(cè)：如果替代非線性 / 非連續(xù)度量，涌現(xiàn)能力應(yīng)該會(huì)被消除

對(duì)于第二個(gè)預(yù)測(cè)，研究者分析了前文所引論文中人工標(biāo)注的涌現(xiàn)能力。他們關(guān)注的是 LaMDA 系列，因?yàn)槠漭敵隹赏ㄟ^(guò) BIG-Bench 獲取，而其它模型系列的輸出無(wú)法這樣獲取。在已經(jīng)發(fā)表的 LaMDA 模型中，最小的有 20 億個(gè)參數(shù)，但 BIG-Bench 中的許多 LaMDA 模型都小很多，而且研究者表示由于無(wú)法確定這些更小模型的來(lái)源，因此沒(méi)有在分析中考慮它們。在分析中，研究者認(rèn)定了在多選擇分級(jí)度量上 LaMDA 在哪些任務(wù)上展現(xiàn)出了涌現(xiàn)能力，然后他們提出了問(wèn)題：當(dāng)使用另一個(gè) BIG-Bench 度量 Brier 分?jǐn)?shù)時(shí)，LaMDA 能否在同樣的任務(wù)上展現(xiàn)出涌現(xiàn)能力。Brier 分?jǐn)?shù)是一套嚴(yán)格適當(dāng)（strictly proper）的評(píng)分規(guī)則，其度量的是互斥結(jié)果的預(yù)測(cè)；對(duì)于一個(gè)二元結(jié)果的預(yù)測(cè)，Brier 分?jǐn)?shù)簡(jiǎn)化成了結(jié)果及其預(yù)測(cè)概率質(zhì)量之間的均方誤差。

研究者發(fā)現(xiàn)，當(dāng)非連續(xù)度量多選擇分級(jí)變成連續(xù)度量 Brier 分?jǐn)?shù)時(shí)（圖 6），LaMDA 的涌現(xiàn)能力消失了。這進(jìn)一步說(shuō)明涌現(xiàn)能力的成因并非是隨規(guī)模增長(zhǎng)而導(dǎo)致的模型行為的本質(zhì)變化，而是對(duì)非連續(xù)度量的使用。

圖 6：在任務(wù)和模型系列保持不變的前提下改變 BIG-Bench 度量會(huì)導(dǎo)致涌現(xiàn)能力消失。上一行：當(dāng)使用的是一個(gè)非連續(xù)度量（多選擇分級(jí)）時(shí)，LaMDA 模型系列展現(xiàn)出了涌現(xiàn)能力。下一行：當(dāng)使用的是一個(gè)連續(xù)的 BIG-Bench 度量（Brier 分?jǐn)?shù)）時(shí)，LaMDA 模型系列在同樣任務(wù)上不再有涌現(xiàn)能力。

檢驗(yàn)三：誘導(dǎo) DNN 出現(xiàn)涌現(xiàn)能力

研究者的觀點(diǎn)是可以通過(guò)度量的選擇來(lái)誘導(dǎo)模型產(chǎn)生涌現(xiàn)能力；為了證明這一點(diǎn)，他們展示了如何讓不同架構(gòu)（全連接、卷積、自注意力）的深度神經(jīng)網(wǎng)絡(luò)產(chǎn)生涌現(xiàn)能力。這里研究者重點(diǎn)關(guān)注的是視覺(jué)任務(wù)，原因有二。第一，人們現(xiàn)在主要關(guān)注大型語(yǔ)言模型的涌現(xiàn)能力，因?yàn)閷?duì)于視覺(jué)模型而言，目前還沒(méi)有觀察到模型能力從無(wú)突然轉(zhuǎn)變到有的現(xiàn)象。第二，某些視覺(jué)任務(wù)用大小適中的網(wǎng)絡(luò)就足以解決，因此研究者可以完整構(gòu)建出跨多個(gè)數(shù)量級(jí)規(guī)模的模型系列。

卷積網(wǎng)絡(luò)涌現(xiàn)出對(duì) MNIST 手寫(xiě)數(shù)字的分類(lèi)能力

研究者首先誘導(dǎo)實(shí)現(xiàn) LeNet 卷積神經(jīng)網(wǎng)絡(luò)系列涌現(xiàn)出分類(lèi)能力，訓(xùn)練數(shù)據(jù)集是 MNIST 手寫(xiě)數(shù)字?jǐn)?shù)據(jù)集。這個(gè)系列展現(xiàn)出了隨參數(shù)數(shù)量增長(zhǎng)，測(cè)試準(zhǔn)確度平滑提升的現(xiàn)象（圖 7B）。為了模擬有關(guān)涌現(xiàn)的論文中使用的準(zhǔn)確度度量，這里使用的是子集準(zhǔn)確度（subset accuracy）：如果該網(wǎng)絡(luò)從 K 個(gè)（獨(dú)立的）測(cè)試數(shù)據(jù)中正確分類(lèi)出了 K 個(gè)數(shù)據(jù)，那么該網(wǎng)絡(luò)的子集準(zhǔn)確度為 1，否則為 0。基于這一準(zhǔn)確度定義，在 K 從 1 增長(zhǎng)到 5 的設(shè)定中，該模型系列展現(xiàn)出了「涌現(xiàn)」能力，從而能夠正確分類(lèi) MNIST 數(shù)字集，尤其是結(jié)合了模型大小的稀疏采樣時(shí)（圖 7C）。這個(gè)卷積系列的涌現(xiàn)分類(lèi)能力在定性分析上符合已發(fā)表論文中的涌現(xiàn)能力，比如在 BIG-Bench 的地形測(cè)繪任務(wù)上的結(jié)果（圖 7A）。

圖 7：在卷積網(wǎng)絡(luò)中誘導(dǎo)出涌現(xiàn)的 MNIST 分類(lèi)能力。(A) 一篇已發(fā)表論文中的基于 BIG-Bench 地形測(cè)繪任務(wù)的涌現(xiàn)能力。(B) 在 MNIST 上訓(xùn)練的 LeNet 表現(xiàn)出：隨模型參數(shù)數(shù)量增長(zhǎng)，測(cè)試準(zhǔn)確度展現(xiàn)出預(yù)測(cè)的、普遍的、S 形的增長(zhǎng)。(C) 當(dāng)把準(zhǔn)確度重新定義成從 K 個(gè)獨(dú)立測(cè)試數(shù)據(jù)中正確分類(lèi)出 K 個(gè)時(shí)，這個(gè)新定義的度量會(huì)誘導(dǎo)出一種似乎在預(yù)料之外的變化。

非線性自動(dòng)編碼器在 CIFAR100 自然圖像集上涌現(xiàn)出重建能力

為了凸顯出研究者所選度量的銳利度是涌現(xiàn)能力的原因，并且為了表明這種銳利度不僅限于準(zhǔn)確度等度量，研究者又誘導(dǎo)在 CIFAR100 自然圖像集上訓(xùn)練的淺度（即單隱藏層）非線性自動(dòng)編碼器涌現(xiàn)出重建圖像輸入的能力。為此，他們刻意定義了一個(gè)新的用于衡量模型能力的不連續(xù)度量，該度量為平方重建誤差低于固定閾值 c 的測(cè)試數(shù)據(jù)的平均數(shù)量：

其中 I (?) 是一個(gè)隨機(jī)指示變量，x^n 是自動(dòng)編碼器對(duì) x_n 的重建。研究者檢視了自動(dòng)編碼器瓶頸單元的數(shù)量，然后發(fā)現(xiàn)隨模型規(guī)模增長(zhǎng)，網(wǎng)絡(luò)的均方重建誤差會(huì)表現(xiàn)出平滑的下降趨勢(shì)（圖 8B），但如果使用新定義的重建度量，對(duì)于選定的 c，這個(gè)自動(dòng)編碼器系列在重建該數(shù)據(jù)集上展現(xiàn)出的能力是銳利的和幾乎不可預(yù)測(cè)的（圖 8C），這個(gè)結(jié)果在定性分析上符合已發(fā)表論文中的涌現(xiàn)能力，比如 BIG-Bench 中的 Periodic Elements（周期性元素）任務(wù)（圖 8A）。

圖 8：在淺度非線性自動(dòng)編碼器中誘導(dǎo)出涌現(xiàn)的重建能力。(A) 一篇已發(fā)表論文中的基于 BIG-Bench 周期性元素任務(wù)的涌現(xiàn)能力。(B) 在 CIFAR100 上訓(xùn)練的淺度非線性自動(dòng)編碼器展現(xiàn)出了平滑下降的均方重建誤差。(C) 使用新定義的重建度量（公式 2）誘導(dǎo)出了不可預(yù)測(cè)的變化。

自回歸 Transformer 在 Omniglot 字符集上涌現(xiàn)出了分類(lèi)能力

接下來(lái)是 Transformer 的涌現(xiàn)能力，其使用的是自回歸方法來(lái)分類(lèi) Omniglot 手寫(xiě)字符。研究者使用的實(shí)驗(yàn)設(shè)置是類(lèi)似的：Omniglot 圖像先由卷積層嵌入，然后以 [嵌入圖像，圖像類(lèi)別標(biāo)簽] 配對(duì)組成序列的方式輸入僅解碼器的 Transformer，而該 Transformer 的訓(xùn)練目標(biāo)是預(yù)測(cè) Omniglot 類(lèi)別標(biāo)簽。研究者是在長(zhǎng)度為 L ∈ [1, 5] 的序列上測(cè)量圖像分類(lèi)性能，同樣是通過(guò)子集準(zhǔn)確度來(lái)度量：如果所有 L 圖像都分類(lèi)正確（圖 9B）則子集準(zhǔn)確度為 1，否則為 0。Causal Transformer 在正確分類(lèi) Omniglot 手寫(xiě)字符任務(wù)上似乎展現(xiàn)出了涌現(xiàn)能力（圖 9C），該結(jié)果在定性分析上符合已發(fā)表論文中的涌現(xiàn)能力，比如大規(guī)模多任務(wù)語(yǔ)言理解（圖 9A）。

圖 9：在自回歸 Transformer 中誘導(dǎo)出涌現(xiàn)的分類(lèi)能力。(A) 一篇已發(fā)表論文中基于 MMLU 基準(zhǔn)的涌現(xiàn)能力。(B) 隨模型參數(shù)增多，使用自回歸方法來(lái)分類(lèi) Omniglot 手寫(xiě)數(shù)字的 Transformer 的測(cè)試準(zhǔn)確度也表現(xiàn)為增長(zhǎng)。(C) 當(dāng)將準(zhǔn)確度重新定義為正確分類(lèi)序列中的所有圖像時(shí)，該指標(biāo)更難被預(yù)測(cè)，這似乎說(shuō)明誘導(dǎo)出了涌現(xiàn)能力。

風(fēng)險(xiǎn)提示及免責(zé)條款市場(chǎng)有風(fēng)險(xiǎn)，投資需謹(jǐn)慎。本文不構(gòu)成個(gè)人投資建議，也未考慮到個(gè)別用戶特殊的投資目標(biāo)、財(cái)務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見(jiàn)、觀點(diǎn)或結(jié)論是否符合其特定狀況。據(jù)此投資，責(zé)任自負(fù)。

關(guān)鍵詞：

環(huán)球快看：交易異動(dòng)！全新好：連續(xù)2個(gè)交易日收盤(pán)價(jià)
視焦點(diǎn)訊！俄羅斯布良斯克州再次發(fā)生貨運(yùn)列車(chē)脫軌事
保亭開(kāi)啟初夏“百香”水果嘉年華活動(dòng) 世界時(shí)快訊
斯坦福最新研究警告：別太迷信大模型涌現(xiàn)能力，那是
全國(guó)公路網(wǎng)仍處于高位運(yùn)行態(tài)勢(shì) 這些路段車(chē)流量大
注意避險(xiǎn)！河南7地山區(qū)可能發(fā)生山洪災(zāi)害|焦點(diǎn)要聞
截至2022年底全國(guó)共有共青團(tuán)員7358.3萬(wàn)名焦點(diǎn)資訊
技術(shù)是手段核心是體驗(yàn) AIGC營(yíng)銷(xiāo)將創(chuàng)造更多觸點(diǎn)
IMF：中國(guó)將成為今年亞太地區(qū)經(jīng)濟(jì)增長(zhǎng)關(guān)鍵驅(qū)動(dòng)因素_
為相城“雙中心”建設(shè)貢獻(xiàn)力量相城區(qū)五四青年節(jié)主
最資訊丨今日全國(guó)鐵路迎來(lái)返程高峰預(yù)計(jì)發(fā)送旅客19
今日熱訊：以軍空襲加沙地帶多個(gè)軍事目標(biāo)
中國(guó)代表在世貿(mào)組織會(huì)議上批評(píng)美國(guó)歧視性補(bǔ)貼政策和
得了甲狀腺腫瘤一定是癌？超聲檢查辨“良惡”
IMF稱中國(guó)將引領(lǐng)全球經(jīng)濟(jì)增長(zhǎng) 天天微動(dòng)態(tài)
天天快播：陜西西安一架直升機(jī)墜落 3人遇難

<delect id="0kqoa"></delect>

<delect id="0kqoa"></delect>

<delect id="0kqoa"></delect>

<delect id="0kqoa"></delect>