谷歌PaLM 2細節(jié)曝光:3.6萬億token,3400億參數(shù) 獨家焦點
谷歌最新大語言模型PaLM 2,更細節(jié)內(nèi)幕被曝出來了!
據(jù)CNBC爆料,訓(xùn)練它所用到的token數(shù)量多達3.6萬億。
這是什么概念?
(相關(guān)資料圖)
要知道,在去年谷歌發(fā)布PaLM時,訓(xùn)練token的數(shù)量也僅為7800億。
四舍五入算下來,PaLM 2足足是它前身的近5倍!
(token本質(zhì)是字符串,是訓(xùn)練大語言模型的關(guān)鍵,可以教會模型預(yù)測序列中出現(xiàn)的下一個單詞。)
不僅如此,當(dāng)時谷歌發(fā)布PaLM 2時,只是提到“新模型比以前的LLM更小”。
而內(nèi)部文件則是將具體數(shù)值爆料了出來——3400億個參數(shù)(初代PaLM是5400億)。
這表明,谷歌通過技術(shù)“buff加持”,在參數(shù)量更小的情況下,讓模型可以更高效地完成更復(fù)雜的任務(wù)。
雖然在已經(jīng)維持了數(shù)月的AIGC大戰(zhàn)中,谷歌一直“全軍出擊”,但對于訓(xùn)練數(shù)據(jù)的大小或其他細節(jié)信息,卻是遮遮掩掩的態(tài)度。
而隨著這次內(nèi)部文檔的曝光,也讓我們對谷歌最in大語言模型有了進一步的了解。
PaLM 2要在廣告上發(fā)力了
關(guān)于谷歌上周發(fā)布PaLM 2的能力,我們就不再詳細的贅述(可點擊此處了解詳情),簡單總結(jié)下來就是:
接受了100多種語言的訓(xùn)練,在語言理解、生成和翻譯上的能力更強,更加擅長常識推理、數(shù)學(xué)邏輯分析。
數(shù)據(jù)集中有海量論文和網(wǎng)頁,其中包含非常多數(shù)學(xué)表達式。
支持20種編程語言,如Python、JavaScript等常用語言。
推出了四種不同size:“壁虎”版、“水獺”版、“野?!卑婧汀蔼毥谦F”版(規(guī)模依次增大)。
至于使用方面,谷歌在發(fā)布會中就已經(jīng)介紹說有超過25個產(chǎn)品和應(yīng)用接入了PaLM 2的能力。
具體表現(xiàn)形式是Duet AI,可以理解為對標(biāo)微軟365 Copilot的一款產(chǎn)品;在現(xiàn)場也展示了在Gmail、Google Docs、Google Sheets中應(yīng)用的能力。
而現(xiàn)在,CNBC從谷歌內(nèi)部文件中挖出了其在PaLM 2應(yīng)用的更多計劃——進軍廣告界。
根據(jù)這份內(nèi)部文件,谷歌內(nèi)部的某些團隊現(xiàn)在計劃使用PaLM 2驅(qū)動的工具,允許廣告商生成自己的媒體資產(chǎn),并為YouTube創(chuàng)作者推薦視頻。
谷歌也一直在為YouTube的青少年內(nèi)容測試PaLM 2,比如標(biāo)題和描述。
谷歌在經(jīng)歷了近20年的快速發(fā)展后,現(xiàn)在已然陷入了多季度收入增長緩慢的“泥潭”。
也由于全球經(jīng)濟大環(huán)境等原因,廣告商們也一直在在線營銷預(yù)算中掙扎。
具體到谷歌,今年大多數(shù)行業(yè)的付費搜索廣告轉(zhuǎn)化率都有所下降。
而這份內(nèi)部文件所透露出來的信號,便是谷歌希望抓住AIGC這根救命稻草,希望使用生成式AI產(chǎn)品來增加支出,用來增加收入并提高利潤率。
據(jù)文件顯示,AI驅(qū)動的客戶支持策略可能會在100多種谷歌產(chǎn)品上運行,包括Google Play商店、Gmail、Android搜索和地圖等。
訓(xùn)練數(shù)據(jù)缺乏透明度,越發(fā)被熱議
不過話說回來,包括谷歌在內(nèi),縱觀大多數(shù)大語言模型玩家,一個較為明顯的現(xiàn)象就是:
對模型、數(shù)據(jù)等細節(jié)保密。
這也是CNBC直接挑明的一個觀點。
雖然很多公司都表示,這是因為業(yè)務(wù)競爭所導(dǎo)致的,但研究界卻不這么認(rèn)為。
在他們看來,隨著AIGC大戰(zhàn)的持續(xù)升溫,模型、數(shù)據(jù)等需要更高的透明度。
而與之相關(guān)的話題熱度也是越發(fā)的激烈。
例如谷歌Research高級科學(xué)家El Mahdi El Mhamdi便于二月份辭職,此舉背后的原因,正是因為他覺得公司缺乏透明度。
無獨有偶,就在OpenAI CEO Sam Altman參與聽證會期間,便“反向”主動提出立法者進行監(jiān)管:
如果這項技術(shù)出了問題,那就可能會是大問題……我們希望合作,防止這種情況發(fā)生。
截至發(fā)稿,對于CNBC所爆料的諸多內(nèi)容,谷歌方面暫未做出回應(yīng)。
本文作者:金磊,來源:量子位,原文標(biāo)題:《谷歌PaLM 2細節(jié)曝光:3.6萬億token,3400億參數(shù)》
風(fēng)險提示及免責(zé)條款 市場有風(fēng)險,投資需謹(jǐn)慎。本文不構(gòu)成個人投資建議,也未考慮到個別用戶特殊的投資目標(biāo)、財務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見、觀點或結(jié)論是否符合其特定狀況。據(jù)此投資,責(zé)任自負。關(guān)鍵詞: