OpenAI 和谷歌最怕的,是一張“開(kāi)源笑臉”
“我們沒(méi)有護(hù)城河,OpenAI 也沒(méi)有?!?/p>
在最近泄露的一份文件中,一位谷歌內(nèi)部的研究人員表達(dá)了這樣的觀點(diǎn)。這位研究人員認(rèn)為,在這場(chǎng)激烈的 AI 競(jìng)賽中,雖然谷歌與 OpenAI 在你追我趕,但真正的贏家未必會(huì)在這兩家中產(chǎn)生,因?yàn)橛泄傻谌搅α空卺绕稹?/p>
這個(gè)力量就是“開(kāi)源社區(qū)”,它才是谷歌和 OpenAI 最大的敵人。
(相關(guān)資料圖)
而開(kāi)源社區(qū)的頂流,當(dāng)屬 Hugging Face 了。作為一個(gè) AI 領(lǐng)域的 Github,它提供了大量高質(zhì)量的開(kāi)源模型與工具,將研發(fā)成果最大程度地惠及社區(qū),極大地降低了 AI 的技術(shù)門(mén)檻,推進(jìn)了 AI 的「民主化」進(jìn)程。
它的創(chuàng)始人之一,Clément 還曾公開(kāi)表示:“在 NLP 或者機(jī)器學(xué)習(xí)領(lǐng)域,最壞的情況,就是要與整個(gè)科學(xué)界和開(kāi)源界競(jìng)爭(zhēng)。因此,我們不再試圖競(jìng)爭(zhēng),轉(zhuǎn)而選擇為開(kāi)源界和科學(xué)界賦能。”
Hugging Face 創(chuàng)立于 2016 年,幾年間連獲 5 輪融資,目前估值已經(jīng)飆到 20 億美元,Github 上的星標(biāo)數(shù)量已經(jīng)超過(guò)了 9.8w,穩(wěn)居熱門(mén)資源庫(kù)之列。
那么這家公司是做什么的?是如何逆襲成為開(kāi)源界的「頂流」的? 它的發(fā)展模式又是怎樣的呢?
01?NLP 開(kāi)啟逆襲之路
Hugging Face 是一家以自然語(yǔ)言處理 (NLP) 技術(shù)為核心的 AI 初創(chuàng)公司。
它是由法國(guó)連續(xù)創(chuàng)業(yè)者 Clément Delangue(曾創(chuàng)辦筆記平臺(tái) VideoNot.es,媒體監(jiān)測(cè)平臺(tái) mention 以及被 Google 收購(gòu)的移動(dòng)開(kāi)發(fā)平臺(tái) Moodstocks 等項(xiàng)目)和 Thomas Wolf、Julien Chaumond 一起創(chuàng)辦的,于 2016 年成立,總部設(shè)在美國(guó)紐約。
其中的兩位創(chuàng)始人 Clément Delangue 和 Thomas Wolf 都是自然語(yǔ)言處理領(lǐng)域的專(zhuān)家。在不斷推進(jìn) Hugging Face 的發(fā)展的過(guò)程中,他們被視為當(dāng)代 NLP 領(lǐng)域的先鋒。
他們創(chuàng)辦 Hugging Face 的初衷,是為年輕人帶來(lái)一個(gè)「娛樂(lè)型」的「開(kāi)放領(lǐng)域聊天機(jī)器人」,就像科幻電影《Her》里面的 AI 那樣,可以跟人聊天氣、朋友、愛(ài)情和體育比賽等各種話題。大家可以在無(wú)聊的時(shí)候跟它聊八卦、問(wèn)它問(wèn)題、讓它生成一些有趣的圖片之類(lèi)的事情。
也正因如此,Hugging Face 的名字來(lái)源于一個(gè)張開(kāi)雙手的可愛(ài)笑臉 emoji。
2017 年 3 月 9 號(hào),Hugging Face App 在 iOS App Store 正式推出,就得到了不少關(guān)注,還拿到了包括 SV Angel、NBA 球星杜蘭特等投資人在內(nèi)的 120 萬(wàn)美元的天使投資。
為了訓(xùn)練這個(gè)聊天機(jī)器人的自然語(yǔ)言處理(NLP)能力,Hugging Face 構(gòu)建了一個(gè)資源庫(kù)來(lái)容納各種機(jī)器學(xué)習(xí)模型和各種類(lèi)型的數(shù)據(jù)庫(kù),包括幫助訓(xùn)練聊天機(jī)器人檢測(cè)文本消息情緒、生成連貫的響應(yīng)、理解不同對(duì)話主題等。
同時(shí),Hugging Face 團(tuán)隊(duì)在 GitHub 上將此庫(kù)的免費(fèi)部分開(kāi)源,目的是從用戶(hù)共創(chuàng)中獲得開(kāi)發(fā)靈感。
到了 2018 年,Hugging Face 仍然不溫不火,便開(kāi)始免費(fèi)在線分享應(yīng)用程序的底層代碼。這一舉動(dòng)立即收到了谷歌、微軟等業(yè)內(nèi)知名科技公司的研究人員的積極響應(yīng),他們開(kāi)始將這些代碼用于 AI 應(yīng)用程序,這個(gè)笑臉 emoji 也開(kāi)始被廣大 AI 開(kāi)發(fā)者們所熟知。
恰巧同年,谷歌推出基于雙向 Transformer 的大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型 BERT,開(kāi)啟了 AI 模型的「內(nèi)卷時(shí)代」。
在這樣的大環(huán)境下,Hugging Face 做起了提供 AI 模型的服務(wù),隨之迎來(lái)了自己的「黃金時(shí)代」。
它先是開(kāi)源了 PyTorch-BERT;隨即,又整合了它先前貢獻(xiàn)的 NLP 領(lǐng)域的預(yù)訓(xùn)練模型,發(fā)布了 Transformers 庫(kù)。
Transformers 庫(kù)提供了數(shù)以千計(jì)的預(yù)訓(xùn)練模型,支持 100 多種語(yǔ)言的文本分類(lèi)、信息抽取、問(wèn)答、摘要、翻譯、文本生成。借助 Transformers 庫(kù),開(kāi)發(fā)者可以便捷地使用 BERT、GPT、XLNet、T5 、DistilBERT 等 NLP 大模型,來(lái)完成文本分類(lèi)、文本總結(jié)、文本生成、信息抽取、自動(dòng) QA 等 AI 任務(wù),節(jié)省大量的時(shí)間和計(jì)算資源。
簡(jiǎn)而言之,Transformers 庫(kù)提供直接可用的模型,無(wú)需企業(yè)再度開(kāi)發(fā);因此,眾多企業(yè)開(kāi)始借助 Transformers 庫(kù),將模型應(yīng)用到產(chǎn)品開(kāi)發(fā)和工作流程中。
Transformers 庫(kù)也因此迅速地流行起來(lái),成為了 GitHub 史上增長(zhǎng)最快的 AI 項(xiàng)目。
Hugging Face 在 Github 上的 Star 曲線,圖片來(lái)自于 Lux Capital
Hugging Face 的創(chuàng)始人之一 Clément Delangue 也不禁感慨,「我們發(fā)布東西時(shí)沒(méi)有考慮太多,而社區(qū)的爆炸式增長(zhǎng)甚至讓我們感到驚訝?!?/p>
面對(duì)如此多的開(kāi)發(fā)者,Hugging Face 順理成章地建立了自己的社區(qū),Hugging Face Hub;同時(shí),調(diào)整產(chǎn)品戰(zhàn)略,不再局限于自然語(yǔ)言處理,而是將機(jī)器學(xué)習(xí)的不同領(lǐng)域進(jìn)行融合,探索創(chuàng)建新的用例,著手構(gòu)建一套完整的開(kāi)源產(chǎn)品矩陣。
截至 2023 年 4 月,Hugging Face 共享了 16,6894 個(gè)訓(xùn)練模型,2,6900 個(gè)數(shù)據(jù)集,涵蓋 NLP、語(yǔ)音、生物學(xué)、時(shí)間序列、計(jì)算機(jī)視覺(jué)、強(qiáng)化學(xué)習(xí)等領(lǐng)域,搭建了完整的 AI 開(kāi)發(fā)生態(tài)。
這大大降低了相關(guān)研究與應(yīng)用的門(mén)檻,讓 Hugging Face 成為 AI 社區(qū)最具影響力的技術(shù)供應(yīng)商。
目前,這些模型已經(jīng)服務(wù)了數(shù)萬(wàn)家企業(yè)進(jìn)行資源開(kāi)發(fā),幫助科研人員和相關(guān)從業(yè)人員更好地構(gòu)建模型、更好地參與到產(chǎn)品和工作流程中,其中不乏 Meta、亞馬遜、微軟、谷歌等知名 AI 團(tuán)隊(duì)。
使用 Hugging Face 的公司和產(chǎn)品|Hugging Face
在資本市場(chǎng),Hugging Face 也同樣備受青睞。
在 2022 年 5 月,團(tuán)隊(duì)完成了由 Lux Capital 領(lǐng)投、紅杉資本參投的 1 億美元 C 輪融資,估值狂飆到 20 億美元。
面對(duì)資本的追捧,Hugging Face 的創(chuàng)始人表現(xiàn)的極其冷靜,表示拒絕了多個(gè)「有意義的收購(gòu)邀約」,并且不會(huì)像 GitHub 那樣出售自己的業(yè)務(wù)。關(guān)于 Hugging Face 的未來(lái),它的創(chuàng)始人還有一些有趣的想法:「我們希望成為第一家以表情符號(hào)上市的公司,而不是三個(gè)字母的股票代碼。」
02?AI 大模型的 Github
憑借開(kāi)源獲得了萬(wàn)眾矚目的 Hugging Face,也格外注重社區(qū)的建設(shè),而剛剛誕生不久的 Hugging Face Hub,現(xiàn)在儼然已經(jīng)成為 AI 開(kāi)發(fā)者的大本營(yíng)。
Hugging Face Hub 是一個(gè)探索、實(shí)驗(yàn)、合作,并建立機(jī)器學(xué)習(xí)技術(shù)的中心場(chǎng)所。在這里任何人都可以分享和探索模型、數(shù)據(jù)集等,大家輕松合作,共同構(gòu)建機(jī)器學(xué)習(xí)模型,Hugging Face Hub 也因此被稱(chēng)做「機(jī)器學(xué)習(xí)之家」。
它是 Hugging Face 堅(jiān)持「開(kāi)源」的產(chǎn)物,也是它的核心。正如官網(wǎng)的宣傳語(yǔ)所述:AI 社區(qū),建設(shè)未來(lái)。
Hugging Face 的開(kāi)發(fā)者頁(yè)面|Hugging Face
Hugging Face 的創(chuàng)始人曾公開(kāi)表示「Hugging Face 的目標(biāo)是通過(guò)工具和開(kāi)發(fā)者社區(qū),讓更多的人使用自然語(yǔ)言處理工具,達(dá)成他們的創(chuàng)新目標(biāo),讓自然語(yǔ)言處理技術(shù)更容易使用和訪問(wèn)。」
他還補(bǔ)充說(shuō),「沒(méi)有任何一家公司,包括科技巨頭,能夠獨(dú)自『解決 AI 問(wèn)題』,而我們實(shí)現(xiàn)這一目標(biāo)的唯一途徑,是通過(guò)以社區(qū)為中心的方式,分享知識(shí)和資源?!?/p>
因此,公司致力于在 Hugging Face Hub 上建立最大的模型、數(shù)據(jù)集、演示和指標(biāo)的開(kāi)源集合,以使每個(gè)人都能利用機(jī)器學(xué)習(xí)進(jìn)行探索、實(shí)驗(yàn)、合作和構(gòu)建技術(shù),從而實(shí)現(xiàn) AI「民主化」的目標(biāo)。
目前,Hugging Face Hub 提供超過(guò) 12 萬(wàn)個(gè)模型(Models)、2 萬(wàn)個(gè)數(shù)據(jù)集(Datasets) 和 5 萬(wàn)個(gè)演示應(yīng)用程序(Spaces),而且所有這些都是開(kāi)源、公開(kāi)、免費(fèi)的。
Hugging Face 提供的 API 托管業(yè)務(wù)|Hugging Face
Hugging Face Hub 對(duì)所有機(jī)器學(xué)習(xí)模型開(kāi)放,并得到 Transformers 、 Flair、Asteroid、ESPnet、Pyannote 等自然語(yǔ)言處理庫(kù)的支持,其中,最核心的自然語(yǔ)言處理庫(kù)是 Transformers 庫(kù)。
Transformers 庫(kù)支持 PyTorch、TensorFlow 和 JAX 之間的框架互操作性,這確保了在模型生命周期的每個(gè)階段使用不同框架的靈活性。而且,通過(guò) Inference API(推理 API),用戶(hù)可以直接使用 Hugging Face 開(kāi)發(fā)的模型與數(shù)據(jù)集,進(jìn)行推理、遷移學(xué)習(xí),這讓Transformers 框架在性能與易用性上達(dá)到業(yè)界領(lǐng)先水平,徹底改變了深度學(xué)習(xí)在 NLP 領(lǐng)域的發(fā)展模式。
Hugging Face Hub 堪稱(chēng)是 AI 界的「Github」|Hugging Face
此外,該平臺(tái)還提供了一些實(shí)用工具,如模型版本控制、測(cè)試集成、共享和協(xié)作等,可以幫助開(kāi)發(fā)人員更好地管理和共享模型和數(shù)據(jù)集。
因此,在 Hugging Face Hub,任何開(kāi)發(fā)者或者工程團(tuán)隊(duì)都可以通過(guò)接口,使用數(shù)千個(gè)模型的推理 API,輕松下載和訓(xùn)練最先進(jìn)的預(yù)訓(xùn)練模型,完成不同模式的常見(jiàn)任務(wù),例如自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)、音頻、多模態(tài)等,在幾分鐘內(nèi)構(gòu)建自己的機(jī)器學(xué)習(xí)驅(qū)動(dòng)的應(yīng)用程序,省去了從頭開(kāi)始訓(xùn)練模型,所需的大量時(shí)間和資源。
在此基礎(chǔ)上,他們還可以在自己的賬號(hào)下創(chuàng)建自己的倉(cāng)庫(kù),用于存儲(chǔ)和分享已經(jīng)訓(xùn)練好的模型、數(shù)據(jù)集和腳本,同時(shí)與強(qiáng)大的社區(qū)分享交流,輕松協(xié)作完成 ML 工作流程。
簡(jiǎn)而言之,Hugging Face Hub 為研究者提供了一個(gè)平臺(tái),去展示那些他們想要分享的模型,測(cè)試他人的模型,以此來(lái)深入研究這些模型的內(nèi)部架構(gòu),共同促進(jìn) ML 的發(fā)展。而此前,AI 對(duì)前端開(kāi)發(fā)者來(lái)說(shuō)似乎遙不可及,畢竟到目前為止,只有少數(shù)代碼生成的 AI 系統(tǒng)向公眾免費(fèi)開(kāi)放。
也正因如此,Hugging Face 決定在社區(qū)提供開(kāi)源模型和 API 來(lái)改變這種狀況,主動(dòng)承擔(dān)起 AI 科研走向應(yīng)用的這個(gè)過(guò)程中復(fù)雜、細(xì)碎的工作,使得任何 AI 從業(yè)者都可以便捷地使用這些研究模型和資源。用 Hugging Face 自己的話來(lái)講,他們所做的事情,就是要架起 AI 科研和應(yīng)用之間的橋梁。
除了提供便利,Hugging Face 還積極采取措施強(qiáng)化 Hub 的安全性,確保用戶(hù)的代碼、模型和數(shù)據(jù)是安全的,讓用戶(hù)放心使用。
例如,在模型庫(kù)配備模型卡,以告知用戶(hù)每個(gè)模型的限制和偏見(jiàn),從而促進(jìn)這些模型被負(fù)責(zé)任地使用和開(kāi)發(fā);在數(shù)據(jù)集設(shè)置訪問(wèn)控制功能,允許組織和個(gè)人可以出于許可和隱私考慮,創(chuàng)建私人數(shù)據(jù)集,并且可以自行處理其他用戶(hù)的訪問(wèn)請(qǐng)求。
還值得一提的是,為了進(jìn)一步使自然語(yǔ)言處理技術(shù)「民主化」,Hugging face Hub 上還開(kāi)設(shè)了 NLP 課程——Hugging Face course。
該課程將使用 Hugging Face 生態(tài)系統(tǒng)中的數(shù)據(jù)庫(kù)(Hugging Face Transformers、Hugging Face Datasets、Hugging Face Tokenizers 和 Hugging Face Accelerate),講解自然語(yǔ)言處理 (NLP) 的有關(guān)知識(shí)。它是完全免費(fèi)的,甚至沒(méi)有廣告。
Hugging Face 將自然語(yǔ)言處理課程直接免費(fèi)上傳到視頻網(wǎng)站|YouTube
簡(jiǎn)而言之,Hugging Face Hub 就像是機(jī)器學(xué)習(xí)領(lǐng)域的 GitHub。一個(gè)由社區(qū)開(kāi)發(fā)者驅(qū)動(dòng)的平臺(tái),提供大量資源,讓開(kāi)發(fā)人員可以在機(jī)器學(xué)習(xí)(ML)模型、數(shù)據(jù)集和 ML 應(yīng)用程序上,不斷探索、創(chuàng)新和互相協(xié)作,通過(guò)分享知識(shí)和資源以加速和推進(jìn) AI 發(fā)展。
03「開(kāi)源」帶動(dòng)「商業(yè)」
那么問(wèn)題來(lái)了,一家提供「平臺(tái)社區(qū)」的「開(kāi)源」公司,又是如何盈利的呢?
首先,「開(kāi)源」就是一個(gè)正確的決定。
Hugging Face 憑借開(kāi)源項(xiàng)目 Transformers,積累了巨大的影響力,聚集了廣大開(kāi)發(fā)者構(gòu)建了龐大的社區(qū) Hugging Face Hub,也贏得了客戶(hù)與投資者的信任,這使得它的商業(yè)化轉(zhuǎn)型水到渠成。
對(duì)此,紅杉資本合伙人 Pat Grady 也表示,「他們優(yōu)先考慮的是應(yīng)用,而不是變現(xiàn),我認(rèn)為這是正確的做法。他們看到了 Transformer 模型在 NLP 之外的應(yīng)用方式,看到了成為 GitHub 的機(jī)會(huì),這不僅是面向 NLP,而且會(huì)延伸到機(jī)器學(xué)習(xí)的每個(gè)領(lǐng)域?!?/p>
而且,縱觀過(guò)去十年,市場(chǎng)上初創(chuàng)公司的創(chuàng)業(yè)歷程,會(huì)發(fā)現(xiàn)開(kāi)源模式的商業(yè)可行性得到過(guò)有力的印證。像 MongoDB、Elastic、Confluent 等,都是收入增長(zhǎng)最快的開(kāi)源公司,它們都實(shí)現(xiàn)了盈收,并且還在市場(chǎng)中存活了下來(lái)。
Hugging Face 的創(chuàng)始人之一,Clément 也因此堅(jiān)信,「初創(chuàng)公司可以通過(guò)某種方式為開(kāi)放的社區(qū)賦能,此種方法產(chǎn)生的價(jià)值,比通過(guò)搭建一個(gè)專(zhuān)有工具,產(chǎn)生的價(jià)值高出上千倍?!?/p>
甚至公開(kāi)表示,「考慮到開(kāi)源機(jī)器學(xué)習(xí)的價(jià)值和它的主流地位,其使用量就是遞延收入。機(jī)器學(xué)習(xí)會(huì)成為技術(shù)開(kāi)發(fā)的默認(rèn)方式,而且 Hugging Face 會(huì)成為這方面的頭號(hào)平臺(tái),并創(chuàng)造出數(shù)十億美元的收入。」
因此,Hugging Face 選擇了「開(kāi)源帶動(dòng)商業(yè)」,這一商業(yè)化發(fā)展路徑,并在 2021 年開(kāi)始提供付費(fèi)功能。
Hugging Face 的收費(fèi)項(xiàng)目|Hugging Face
目前,Hugging Face 的盈利業(yè)務(wù)主要有三類(lèi):
付費(fèi)制會(huì)員:提供更加優(yōu)質(zhì)的服務(wù)和社區(qū)體驗(yàn),來(lái)獲得收益;
數(shù)據(jù)托管:根據(jù)不同參數(shù)需求,提供不同的按小時(shí)收費(fèi)托管服務(wù);
AI 解決方案服務(wù):目前的主打產(chǎn)品,圍繞 NLP、Vision 等方向?yàn)榭蛻?hù)提供定制化解決方案,以獲得技術(shù)服務(wù)費(fèi)用。
值得一提的是,從 2020 年開(kāi)始,Hugging Face 就開(kāi)始做面向企業(yè)的定制自然語(yǔ)言模型,并推出了包括 AutoTrain、Inference API & Infinity、Private Hub、Expert Support 等,針對(duì)不同開(kāi)發(fā)者類(lèi)型的個(gè)性化產(chǎn)品。
目前,1000 多家公司已經(jīng)成為了 Hugging Face 的付費(fèi)客戶(hù),主要是大型企業(yè),包括英特爾、高通、輝瑞、彭博社和 eBay。
2021 年,Hugging Face 已經(jīng)實(shí)現(xiàn)收入 1 千萬(wàn)美元,從數(shù)據(jù)上來(lái)看,Hugging Face 這套的「開(kāi)源帶動(dòng)商業(yè)」的策略是成功的。
這也印證了 Hugging Face 的 CEO,Clément 所說(shuō)的,「公司不需要從創(chuàng)造的價(jià)值中獲取 100% 的紅利,只需將其中 1% 的價(jià)值變現(xiàn),但即便只是 1%,也足夠讓你成為一家高市值的公司。」
簡(jiǎn)而言之,Hugging Face 憑借開(kāi)源社區(qū)積累影響力,而后逐步向 SaaS 產(chǎn)品和企業(yè)服務(wù)拓展。這種漸進(jìn)式的轉(zhuǎn)型,讓 Hugging Face 在開(kāi)源和商業(yè)化之間,取得了良好的平衡,也是其能取得成功的重要原因。這種發(fā)展策略也讓 Hugging Face 成為了 AI 界獨(dú)樹(shù)一幟的存在,并為其他 AI 初創(chuàng)公司樹(shù)立榜樣。
但是,開(kāi)源生態(tài)也有它自己的軟肋,因?yàn)樯虡I(yè)化的發(fā)展很可能會(huì)傷害到自然生長(zhǎng)的社區(qū)環(huán)境。對(duì)此,Hugging Face 的做法是加強(qiáng)對(duì)技術(shù)的管控,維護(hù)自己的開(kāi)源生態(tài);同時(shí),向科研領(lǐng)域深挖。
「機(jī)器學(xué)習(xí)技術(shù)仍然還處于早期發(fā)展階段,開(kāi)源社區(qū)的潛力是巨大的。在未來(lái) 5 到 10 年,我們一定還會(huì)看到更多開(kāi)源機(jī)器學(xué)習(xí)公司的崛起?!?/p>
Hugging Face 的 CEO Clément 說(shuō)道。
本文作者:美漪,本文來(lái)源:極客公園,原文標(biāo)題:《OpenAI 和谷歌最怕的,是一張「開(kāi)源笑臉」》
風(fēng)險(xiǎn)提示及免責(zé)條款 市場(chǎng)有風(fēng)險(xiǎn),投資需謹(jǐn)慎。本文不構(gòu)成個(gè)人投資建議,也未考慮到個(gè)別用戶(hù)特殊的投資目標(biāo)、財(cái)務(wù)狀況或需要。用戶(hù)應(yīng)考慮本文中的任何意見(jiàn)、觀點(diǎn)或結(jié)論是否符合其特定狀況。據(jù)此投資,責(zé)任自負(fù)。關(guān)鍵詞: