GPT的背后,從命運多舛到顛覆世界,人工神經(jīng)網(wǎng)絡(luò)的跌宕80年
人工神經(jīng)網(wǎng)絡(luò)的誕生,來自不羈天才皮特斯與當(dāng)時已功成名就的神經(jīng)生理學(xué)專家麥卡洛克的黃金組合,然而,他們的理論超越了他們那個時代的技術(shù)水平,因而沒能獲得廣泛關(guān)注與實證驗證。
(相關(guān)資料圖)
幸而,在誕生之初的二十多年里,不停地有研究者進(jìn)來添磚加瓦,人工神經(jīng)網(wǎng)絡(luò)領(lǐng)域從最初最簡單的神經(jīng)元數(shù)學(xué)模型和學(xué)習(xí)算法進(jìn)化到了具有學(xué)習(xí)能力的感知機模型,然而,來自其他研究者的質(zhì)疑與“感知機”創(chuàng)始人之一羅森布拉特在航行中隕難共同襲來,在那之后,這個領(lǐng)域陷入了二十多年的寒冬,直到反向傳播算法被引入人工神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中。
在那之后,經(jīng)歷了沉寂的20年,人工神經(jīng)網(wǎng)絡(luò)方面的研究才終于又獲得重啟,蓄力的近20年中,卷積神經(jīng)網(wǎng)絡(luò)與遞歸神經(jīng)網(wǎng)絡(luò)依次登場。
但該領(lǐng)域在學(xué)術(shù)界與產(chǎn)業(yè)界的飛速發(fā)展還是要等到17年前,硬件方面的突破——通用計算GPU芯片的出現(xiàn),于是,才有了今天,隨著ChatGPT等大型語言預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,成為廣為人知的名字。
從一定意義上,人工神經(jīng)網(wǎng)絡(luò)的成功是一種幸運,因為,不是所有的研究,都能等到核心的關(guān)鍵突破,等到萬事齊備。在更多的領(lǐng)域,技術(shù)的突破出現(xiàn)得太早或是太晚,導(dǎo)致只能慢慢消亡。然而,這幸運中,不能被忽略地是那些身處其中的研究者們的堅定與執(zhí)著,靠著這些研究者們的理想主義,人工神經(jīng)網(wǎng)絡(luò)才走過了它跌宕沉浮的80年,終得正果。
麥卡洛克-皮特斯神經(jīng)元
1941年,沃倫·斯特吉斯·麥卡洛克(Warren Sturgis McCulloch)跳槽到美國芝加哥大學(xué)醫(yī)學(xué)院,擔(dān)任神經(jīng)生理學(xué)教授。搬到芝加哥后不久,一位朋友介紹他認(rèn)識了沃爾特·皮特斯(Walter Pitts)。正在芝加哥大學(xué)攻讀博士的皮特斯與麥卡洛克對神經(jīng)科學(xué)與邏輯學(xué)有共同的興趣,于是二人一拍即合,成為了科研上志同道合的好友和伙伴。皮特斯生性好學(xué),12歲時便在圖書館讀完了羅素與懷特黑德所著的《數(shù)學(xué)原理》,并致信羅素,指出書中的幾處錯誤。羅素很欣賞這位小讀者的來信,回信邀請他到劍橋大學(xué)讀書(盡管皮特斯只有12歲)。然而,皮特斯的家人受教育程度低,無法理解皮特斯的求知欲、反而時常惡語相向。皮特斯與原生家庭關(guān)系逐漸惡化,他15歲便離家出走。自那之后,皮特斯成為了芝加哥大學(xué)校園里的一名流浪漢,白天選擇喜歡的大學(xué)課程旁聽,晚上隨便找個課室睡覺。在皮特斯認(rèn)識麥卡洛克時,他雖然已是學(xué)校在冊博士生,但仍沒有固定住處。麥卡洛克了解到這個情況后,便邀請皮特斯到自家居住。
二人認(rèn)識的時候,麥卡洛克已經(jīng)發(fā)表了多篇關(guān)于神經(jīng)系統(tǒng)的論文,是該領(lǐng)域有名的專家。而皮特斯雖然還是一名博士生,但他已經(jīng)在數(shù)理邏輯領(lǐng)域有所建樹,并獲得包括馮諾依曼等領(lǐng)域大牛們的賞識。盡管二人專業(yè)領(lǐng)域非常不同,但他們都對人腦的工作原理深感興趣,并堅信數(shù)學(xué)模型可以描述、模擬大腦的功能。在這個共同的信念的驅(qū)使下,二人合作發(fā)表了多篇論文。他們建立了第一個人工神經(jīng)網(wǎng)絡(luò)模型。他們的工作為現(xiàn)代人工智能與機器學(xué)習(xí)領(lǐng)域奠定了基礎(chǔ),而他們二人也因此被公認(rèn)為神經(jīng)科學(xué)與人工智能領(lǐng)域的開創(chuàng)者。
1943年,麥卡洛克和皮特斯提出了最早的人工神經(jīng)網(wǎng)絡(luò)模型:麥卡洛克-皮特斯神經(jīng)元(McCulloch-Pitts Neuron)模型[1]。該模型旨在用二進(jìn)制開關(guān)的“開”與“關(guān)”的機制來模擬神經(jīng)元的工作原理。該模型的主要組成部分為:接收信號的輸入節(jié)點,通過預(yù)設(shè)閾值處理輸入信號的中間節(jié)點,以及生成輸出信號的輸出節(jié)點。在論文中,麥卡洛克與皮特斯證明了該簡化模型可以用于實現(xiàn)基礎(chǔ)邏輯(如“與”、“或”、“非”)運算。除此以外,該模型還可以用于解決簡單問題,如模式識別與圖像處理。
赫布式學(xué)習(xí)(Hebbian Learning)
1949年,加拿大心理學(xué)家唐納德·赫布(Donald Hebb)出版了一本題為《行為的組織(The Organization of Behavior)》,并在書中提出了著名的赫布式學(xué)習(xí)(Hebbian Learning)理論[2]。該理論認(rèn)為“共同激活的神經(jīng)元往往是相互連接的(Cells that fire together, wire together)”,也就是神經(jīng)元具有突觸可塑性(synaptic plasticity,?突觸是神經(jīng)元之間相互連接進(jìn)行信息傳遞的關(guān)鍵部位),并認(rèn)為突觸可塑性是大腦學(xué)習(xí)與記憶功能的基礎(chǔ)。
機器學(xué)習(xí)理論中的關(guān)鍵步驟是如何使用不同的更新算法(update rule)來更新模型。使用神經(jīng)網(wǎng)絡(luò)模型進(jìn)行機器學(xué)習(xí)時,需設(shè)定初始模型的架構(gòu)與參數(shù)。在模型訓(xùn)練過程中,每一個來自訓(xùn)練數(shù)據(jù)集中的輸入數(shù)據(jù)都會導(dǎo)致模型更新各項參數(shù)。這個過程,就需要使用到更新算法。赫布式學(xué)習(xí)理論為機器學(xué)習(xí)提供了最初更新算法:Δw = η x xpre x xpost。Δw為突觸模型的參數(shù)的變化大小,?η為學(xué)習(xí)速率,xpre 為突觸前神經(jīng)元活動值大小,xpost為突觸后神經(jīng)元活動值大小。
赫布更新算法為利用人工神經(jīng)網(wǎng)絡(luò)來模仿大腦神經(jīng)網(wǎng)絡(luò)的行為提供了理論基礎(chǔ)。赫布式學(xué)習(xí)模型是一種無監(jiān)督學(xué)習(xí)模型——該模型通過調(diào)節(jié)其感知到的輸入數(shù)據(jù)之間聯(lián)系程度的強弱來實現(xiàn)學(xué)習(xí)目的。也正因為如此,赫布式學(xué)習(xí)模型在對輸入數(shù)據(jù)中的子類別聚類分析尤其擅長。隨著神經(jīng)網(wǎng)絡(luò)的研究逐漸加深,赫布式學(xué)習(xí)模型后來也被發(fā)現(xiàn)適用于強化學(xué)習(xí)等其他多個細(xì)分領(lǐng)域。
感知機?(Perceptron)
1957年,美國心理學(xué)家弗蘭克·羅森布拉特(Frank Rosenblatt)首次提出感知機(Perceptron)模型,并且首次使用了感知機更新算法[3]。感知機更新算法延伸了赫布更新算法的基礎(chǔ),通過利用迭代、試錯過程來進(jìn)行模型訓(xùn)練。在模型訓(xùn)練時,感知機模型對于每一個新的數(shù)據(jù),計算出模型預(yù)測的該數(shù)據(jù)輸出值與實際測得的該數(shù)據(jù)輸出值的差值,然后使用該差值更新模型中的系數(shù)。具體方程如下:Δw = η x (t - y) x x。在提出最初的感知機模型后,羅森布拉特繼續(xù)深入探討、發(fā)展感知機相關(guān)理論。1959年,羅森布拉特成功研發(fā)出一臺使用感知機模型識別英文字母的神經(jīng)計算機Mark1。
感知機模型與麥卡洛克-皮特斯神經(jīng)元類似,也是基于神經(jīng)元的生物學(xué)模型,以接收輸入信號,處理輸入信號,生成輸出信號為基本運作機理。感知機模型與麥卡洛克-皮特斯神經(jīng)元模型的區(qū)別在于后者的輸出信號只能為0或1——超過預(yù)設(shè)閾值為1,否則為零——而感知機模型則使用了線性激活函數(shù),使得模型的輸出值可以與輸入信號一樣為連續(xù)變化值。另外,感知機對每一條輸入信號都設(shè)置了系數(shù),該系數(shù)能影響每條輸入信號對于輸出信號的作用程度。最后,感知機是學(xué)習(xí)算法,因為其各輸入信號的系數(shù)可以根據(jù)所看到的數(shù)據(jù)進(jìn)行調(diào)整;而麥卡洛克-皮特斯神經(jīng)元模型因沒有設(shè)置系數(shù),所以其行為無法根據(jù)數(shù)據(jù)反饋進(jìn)行動態(tài)更新。
1962年,羅森布拉特將多年關(guān)于感知機模型的研究集結(jié)成《神經(jīng)動力學(xué)原理:感知機與大腦原理(Principles of Neurodynamics: Perceptrons and the theory of brain mechanisms)》一書。感知機模型在人工智能領(lǐng)域是一項重大的進(jìn)步,因為它是第一種具有學(xué)習(xí)能力的算法模型,能自主學(xué)習(xí)接收到的數(shù)據(jù)中的規(guī)律與特點。并且,它具有模式分類的能力,可以將數(shù)據(jù)根據(jù)其特點自動分為不同的類別。另外,感知機模型相對簡單,所需計算資源也較少。
盡管感知機具有種種優(yōu)點與潛力,但它畢竟是一個相對簡化的模型,存在許多局限性。1969年,計算機科學(xué)家馬文·明斯基(Marvin Minsky)與西摩爾·派普特(Seymour Papert)合作出版了《感知機(Perceptron)》一書[5]。在書中,兩位作者對感知機模型進(jìn)行了深入的批判,分析了以感知機為代表的單層神經(jīng)網(wǎng)絡(luò)的局限,包括但不限于“異或”邏輯的實現(xiàn)以及線性不可分問題。但是,二位作者與羅森布拉特都已經(jīng)意識到,多層神經(jīng)網(wǎng)絡(luò)可以解決這些單層神經(jīng)網(wǎng)絡(luò)不能解決的問題??上У氖?,《感知機》一書對感知機模型的負(fù)面評價影響巨大,使得公眾與政府機構(gòu)對于感知機研究一下子失去了興趣。1971年,感知機理論的提出者兼頭號支持者羅森布拉特不幸在一次出海航行中遇難,享年43歲。在《感知機》一書與羅森布拉特之死的雙重打擊下,與感知機相關(guān)的論文發(fā)表數(shù)目逐年迅速減少。人工神經(jīng)網(wǎng)絡(luò)的發(fā)展進(jìn)入了“寒冬”。
反向傳播算法
多層神經(jīng)網(wǎng)絡(luò)能夠解決單層神經(jīng)網(wǎng)絡(luò)無法解決的問題,但它帶來了新的問題:更新多層神經(jīng)網(wǎng)絡(luò)模型的每一層神經(jīng)元的權(quán)重涉及到大量精確計算,而普通的計算方法費時費力,使得神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)過程變得非常緩慢,實用性很差。
為了解決這個問題,美國社會學(xué)家、機器學(xué)習(xí)工程師保羅·韋伯(Paul Werbos)在1974年的哈佛大學(xué)的博士論文《Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences》中提出了反向傳播算法(backpropagation)[6]。該算法的基本思想是通過將預(yù)測到的輸出值與實際輸出值之間的誤差從輸出層反向傳播,從而調(diào)整神經(jīng)網(wǎng)絡(luò)各個神經(jīng)元的權(quán)重。這個算法的本質(zhì)是根據(jù)微積分中常用的鏈?zhǔn)椒▌t從輸出層到輸入層反向(沿著負(fù)梯度方向)實現(xiàn)對由多層感知機組成的神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。
令人感到遺憾的是,韋伯的論文在發(fā)表后很長一段時間內(nèi)都沒有得到足夠的關(guān)注。直到1985年,加州大學(xué)圣地亞哥分校的心理學(xué)家大衛(wèi)·魯梅爾哈特(David Rumelhart)、認(rèn)知心理學(xué)家與計算機學(xué)家杰弗里·辛頓(Geoffrey Hinton),以及計算機學(xué)家羅納德·威廉姆斯(Ronald Williams)合作發(fā)表了一篇關(guān)于反向傳播算法在神經(jīng)網(wǎng)絡(luò)中的應(yīng)用的論文[7]。這篇論文在人工智能領(lǐng)域獲得了很大的反響。魯梅爾哈特等人的想法與韋伯的想法本質(zhì)上是相似的,但魯梅爾哈特他們沒有引用韋伯的論文,這一點近來常常為人詬病。
反向傳播算法在人工神經(jīng)網(wǎng)絡(luò)的發(fā)展中起著關(guān)鍵作用,并使得深度學(xué)習(xí)模型的訓(xùn)練成為可能。自從反向傳播算法于八十年代重新受到人們的重視以來,它被廣泛應(yīng)用于訓(xùn)練多種神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)。除了最初的多層感知機神經(jīng)網(wǎng)絡(luò)以外,反向傳播算法還適用于卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等。由于反向傳播算法的重要地位,韋伯與魯梅爾哈特等人被認(rèn)為是神經(jīng)網(wǎng)絡(luò)領(lǐng)域的先驅(qū)之一。
事實上,反向傳播算法是人工智能領(lǐng)域的“文藝復(fù)興”時代(20世紀(jì)80年代和90年代期間)的重要成果。并行分布式處理(Parallel Distributed Processing)是這段時間的主要方法論。該方法論關(guān)注多層神經(jīng)網(wǎng)絡(luò),并推崇通過并行處理計算來加速神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程與應(yīng)用。這與先前的人工智能領(lǐng)域的主流思想背道而馳,因而具有劃時代的意義。另外,該方法論受到了計算機科學(xué)以外,包括心理學(xué)、認(rèn)知科學(xué),以及神經(jīng)科學(xué)等不同領(lǐng)域的學(xué)者的歡迎。因此,這段歷史常常被后人認(rèn)為是人工智能領(lǐng)域的文藝復(fù)興。
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)
如果把麥卡洛克·皮特斯神經(jīng)元作為人工智能誕生的標(biāo)志,那么美國可以說是人工神經(jīng)網(wǎng)絡(luò)的發(fā)源地。人工神經(jīng)網(wǎng)絡(luò)誕生后的三十年里,美國在人工智能領(lǐng)域一直扮演著主角,孕育了感知機、反向傳播算法等關(guān)鍵技術(shù)。但在第一個人工智能的"寒冬"中,包括政府、學(xué)術(shù)界在內(nèi)的美國各方人士對人工神經(jīng)網(wǎng)絡(luò)的潛能失去了信心,大大放緩了對神經(jīng)網(wǎng)絡(luò)技術(shù)迭代的支持與投入。也因為如此,在這個席卷美國的”寒冬“中,其他國家的人工神經(jīng)網(wǎng)絡(luò)的研究走到了歷史發(fā)展的聚光燈之下。卷積神經(jīng)網(wǎng)絡(luò)與遞歸神經(jīng)網(wǎng)絡(luò)就是在這樣的背景下出場的。
卷積神經(jīng)網(wǎng)絡(luò)是一種包含了卷積層,池化層,以及全連接層等多種獨特結(jié)構(gòu)的多層神經(jīng)網(wǎng)絡(luò)模型。該模型利用卷積層提取出輸入信號的局部特征,然后通過池化層降低數(shù)據(jù)的維度與復(fù)雜性,最后通過全連接層將數(shù)據(jù)轉(zhuǎn)化為一維的特征向量并生成輸出信號(一般為預(yù)測或分類結(jié)果)。卷積神經(jīng)網(wǎng)絡(luò)的獨特結(jié)構(gòu)使得它在處理具有網(wǎng)格結(jié)構(gòu)屬性的數(shù)據(jù)(圖像,時間序列等)時尤有優(yōu)勢。
最早的卷積神經(jīng)網(wǎng)絡(luò)是日本計算機科學(xué)家福島邦彥(Kunihiko Fukushima)于1980年提出[8]。福島所提出的模型包含卷積層與下采樣層,是當(dāng)今主流卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)仍然一直沿用的結(jié)構(gòu)。福島的模型與今日的卷積神經(jīng)網(wǎng)絡(luò)唯一不同之處在于前者沒有使用反向傳播算法——如前文所敘,反向傳播算法要等到1986年才受到關(guān)注。由于福島的卷積神經(jīng)網(wǎng)絡(luò)模型沒有該算法的助力,該模型與當(dāng)時的其他多層神經(jīng)網(wǎng)絡(luò)一樣存在訓(xùn)練時間長、計算復(fù)雜的問題。
1989年,任職于美國貝爾實驗室法國計算機科學(xué)家楊·立昆(Yann LeCun)及其團(tuán)隊提出了名為LeNet-5的卷積神經(jīng)網(wǎng)絡(luò)模型,并在該模型中使用了反向傳播算法進(jìn)行訓(xùn)練[9]。立昆證明了該神經(jīng)網(wǎng)絡(luò)可以用于識別手寫數(shù)字與字符。這標(biāo)志著卷積神經(jīng)網(wǎng)絡(luò)在圖像識別中的廣泛應(yīng)用的開始。
遞歸神經(jīng)網(wǎng)絡(luò)(Recursive Neural Network, RNN)
與卷積神經(jīng)網(wǎng)絡(luò)一樣,遞歸神經(jīng)網(wǎng)絡(luò)也是一類具有獨特結(jié)構(gòu)特征的神經(jīng)網(wǎng)絡(luò)。該類神經(jīng)網(wǎng)絡(luò)的主要結(jié)構(gòu)特征在于各層級間具有遞歸關(guān)系,而不是順序關(guān)系。由于以上這些特殊結(jié)構(gòu)特征,遞歸神經(jīng)網(wǎng)絡(luò)特別適于處理自然語言以及其他文本類的數(shù)據(jù)。
1990年,美國認(rèn)知科學(xué)家、心理語言學(xué)家杰弗里·艾爾曼(Jeffrey Elman)提出了艾爾曼網(wǎng)絡(luò)模型(又稱為簡化遞歸網(wǎng)絡(luò))[10]。艾爾曼網(wǎng)絡(luò)模型是首個遞歸神經(jīng)網(wǎng)絡(luò)。艾爾曼利用該模型證明了遞歸神經(jīng)網(wǎng)絡(luò)能夠在訓(xùn)練時維持?jǐn)?shù)據(jù)本身的先后順序性質(zhì),為日后該類模型在自然語言處理領(lǐng)域的應(yīng)用奠定了基礎(chǔ)。
遞歸神經(jīng)網(wǎng)絡(luò)存在梯度消失現(xiàn)象。在使用反向傳播算法訓(xùn)練神經(jīng)網(wǎng)絡(luò)時,離輸入近的層級的權(quán)重更新梯度逐漸變得近似于零,使得這些權(quán)重變化很慢,導(dǎo)致訓(xùn)練效果變差。為了解決這個問題,1997年,德國計算機科學(xué)家瑟普·霍克賴特(Sepp Hochreiter)及其博士導(dǎo)師于爾根·施密德胡伯(Jürgen Schmidhuber)提出了長短期記憶網(wǎng)絡(luò)[11]。該模型為一種特殊的遞歸神經(jīng)網(wǎng)絡(luò)模型。它引入了記憶節(jié)點,使得模型具有更好的長期記憶存留的能力,從而化解了梯度消失現(xiàn)象。該模型目前仍是使用最普遍的遞歸神經(jīng)網(wǎng)絡(luò)模型之一。
通用計算GPU芯片
2006年,美國英偉達(dá)公司(NVIDIA)推出了第一款通用計算GPU(圖形處理單元)芯片并將其命名為CUDA(Compute Unified Device Architecture)。在此之前,GPU本是專門用于圖形渲染與計算的芯片處理器,常用于計算機圖形學(xué)相關(guān)的應(yīng)用(如圖像處理,游戲場景實時計算渲染,視頻播放與處理等)。CUDA允許通用目的的并行計算,使原本僅能調(diào)用CPU(中央處理單元)的任務(wù)可以通過GPU來完成計算。GPU的強大的并行計算能力使其能夠同時執(zhí)行多個計算任務(wù),并且計算速度比CPU更快,適合矩陣運算。神經(jīng)網(wǎng)絡(luò)的訓(xùn)練往往需要進(jìn)行大規(guī)模矩陣和張量運算。在通用GPU出現(xiàn)之前,人工神經(jīng)網(wǎng)絡(luò)的發(fā)展長期受到傳統(tǒng)的CPU有限計算能力的限制。這種限制包括了對于理論研究的創(chuàng)新以及對現(xiàn)有模型的產(chǎn)品化、產(chǎn)業(yè)化的應(yīng)用。而GPU的出現(xiàn),讓這兩方面的掣肘被大大削弱了。
2010年,施密德胡伯團(tuán)隊中的博士后研究員丹·奇雷尚(Dan Ciresan)利用GPU實現(xiàn)了對卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練的顯著加速[12]。但GPU真正在人工神經(jīng)網(wǎng)絡(luò)領(lǐng)域里聲名大噪是在2012年。那一年,加拿大計算機科學(xué)家亞歷克斯·克里澤夫斯基(Alex Krizhevsky)、伊利亞·蘇茨克維(Ilya Sutskever)以及前文提到過的杰弗里·辛頓提出了亞歷克斯網(wǎng)絡(luò)模型(AlexNet)[13]。亞歷克斯網(wǎng)絡(luò)模型本質(zhì)上是一類卷積網(wǎng)絡(luò)模型??死餄煞蛩够热嗽谟?xùn)練模型時使用了GPU,并用該模型參加了一個國際著名的圖像分類與標(biāo)記的競賽(ImageNet ILSVRC)。令人意外的是,該模型最后竟以大比分的優(yōu)勢獲得了冠軍。亞歷克斯網(wǎng)絡(luò)模型的成功極大地激發(fā)了各界對于人工神經(jīng)網(wǎng)絡(luò)在計算機視覺領(lǐng)域應(yīng)用的興趣與關(guān)注。
生成式神經(jīng)網(wǎng)絡(luò)與大型語言模型
遞歸神經(jīng)網(wǎng)絡(luò)可以逐字連續(xù)生成文本序列,因此常常被認(rèn)為是早期的生成式神經(jīng)網(wǎng)絡(luò)模型。然而,盡管遞歸神經(jīng)網(wǎng)絡(luò)善于處理、生成自然語言數(shù)據(jù),但它對于長序列數(shù)據(jù)一直無法有效捕捉全局信息(對于距離較遠(yuǎn)的信息無法進(jìn)行有效聯(lián)系)。
2017年,美國谷歌公司的研究員阿希瑟·瓦斯瓦尼(Ashish Vaswani)等人提出了變壓器模型(Transformer)[14]。該大型神經(jīng)網(wǎng)絡(luò)分為編碼器與解碼器兩個主要部分。編碼器對輸入序列進(jìn)行編碼處理,通過自注意力層等來進(jìn)一步處理編碼后的信息。此后,信息傳至解碼器,并經(jīng)過解碼器部分的自注意力層等網(wǎng)絡(luò)結(jié)構(gòu)來生成輸出序列。該模型的重要創(chuàng)新在于自注意力層(self-attention)。自注意力層使得神經(jīng)網(wǎng)絡(luò)模型能擺脫順序處理文本的局限性,而是直接去文本中的不同位置抓取信息并捕捉各處信息之間的依賴關(guān)系,并且并行化計算不同位置之間在語義上的相關(guān)性。變壓器模型的橫空出世對自然語言處理領(lǐng)域乃至整個人工智能領(lǐng)域產(chǎn)生了巨大影響。在短短的幾年里,變壓器模型已經(jīng)被廣泛用在各類人工智能大模型中。
在層出不窮基于變壓器結(jié)構(gòu)的大型語言模型中,OpenAI公司推出的聊天機器人ChatGPT最為出名。ChatGPT所基于的語言模型為GPT-3.5(生成式預(yù)訓(xùn)練變壓器模型-3.5)。OpenAI公司在訓(xùn)練該模型時用了大量的語料庫數(shù)據(jù),使其最終具備了廣泛的語言理解能力與生成能力,包括提供信息、交流,文本創(chuàng)作、完成軟件代碼寫作、以及輕松勝任各類涉及語言理解相關(guān)的考試。
尾聲
幾周前,我去參加一個中學(xué)生與科研人員共進(jìn)午餐的志愿者活動?;顒由?,我與幾名十五六歲的中學(xué)生聊天。很自然的我們就聊到了ChatGPT。我問他們:”你們用ChatGPT嗎?你們可以跟我說實話,我不會告訴你們的老師的。"其中一位男生靦腆的笑了笑,說他現(xiàn)在已經(jīng)離不開ChatGPT了。
80年前,四處流浪的皮特斯只能想象著那能夠模擬大腦功能的數(shù)學(xué)模型。而在今天年輕人的世界里,神經(jīng)網(wǎng)絡(luò)不再僅是虛幻的數(shù)學(xué)公式,而變得無時無出不在。下一個80年會發(fā)生什么?人工神經(jīng)網(wǎng)絡(luò)中會像人類的神經(jīng)網(wǎng)絡(luò)一樣產(chǎn)生意識嗎?碳基大腦會持續(xù)主宰硅基大腦嗎?還是會被硅基大腦主宰?
參考文獻(xiàn):
1.Warren S. McCulloch and Walter Pitts. "A Logical Calculus of Ideas Immanent in Nervous Activity." The Bulletin of Mathematical Biophysics, vol. 5, no. 4, 1943, pp. 115-133.
2.Donald O. Hebb. "The Organization of Behavior: A Neuropsychological Theory." Wiley, 1949.
3.Frank Rosenblatt. "The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain." Psychological Review, vol. 65, no. 6, 1958, pp. 386-408.
4.Frank Rosenblatt. "Principles of Neurodynamics: Perceptrons and the theory of brain mechanisms." MIT Press, 1962.
5.Marvin Minsky and Seymour Papert. "Perceptrons: An Introduction to Computational Geometry." MIT Press, 1969.
6.Paul Werbos. "Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences.". Harvard University, 1974.
7.David E. Rumelhart, Geoffrey E. Hinton, and Ronald J. Williams. "Learning representations by back-propagating errors." Nature, vol. 323, no. 6088, 1986, pp. 533-536.
8.Kunihiko Fukushima. "Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position." Biological Cybernetics, vol. 36, no. 4, 1980, pp. 193-202.
9.Yann LeCun, Léon Bottou, Yoshua Bengio, and Patrick Haffner. "Gradient-based learning applied to document recognition." Proceedings of the IEEE, vol. 86, no. 11, 1998, pp. 2278-2324.
10.Jeffrey L. Elman. "Finding Structure in Time." Cognitive Science, vol. 14 1990, pp. 179-211.
11.Sepp Hochreiter and Jürgen Schmidhuber. "Long Short-Term Memory." Neural Computation, vol. 9, no. 8, 1997, pp. 1735-1780.
12.Dan C. Ciresan, Ueli Meier, Luca Maria Gambardella, and Jürgen Schmidhuber. "Deep Big Simple Neural Nets Excel on Handwritten Digit Recognition." Neural Computation, vol. 22, no. 12, 2010, pp. 3207-3220.
13.Alex Krizhevsky, Ilya Sutskever, and Geoffrey E. Hinton. "ImageNet Classification with Deep Convolutional Neural Networks." Advances in Neural Information Processing Systems, 2012, pp. 1097-1105.
14.Vaswani, Ashish, et al. "Attention is All You Need." Advances in Neural Information Processing Systems, 2017, pp. 5998-6008.
本文來源:知識分子,作者:孫睿晨,原標(biāo)題:《GPT的背后,從命運多舛到顛覆世界,人工神經(jīng)網(wǎng)絡(luò)的跌宕80年》
關(guān)鍵詞: