環(huán)球觀熱點(diǎn):AI時(shí)代的“Killer App”,一文了解向量數(shù)據(jù)庫是什么
最近,又一個(gè)概念火了——向量數(shù)據(jù)庫。
首先是,4月一個(gè)月內(nèi)多家向量數(shù)據(jù)庫創(chuàng)業(yè)公司獲大額新融資,引發(fā)市場(chǎng)熱議。
(資料圖片僅供參考)
其次行情方面,龍頭A股星環(huán)科技、北交所云創(chuàng)數(shù)據(jù)等股價(jià)連續(xù)異動(dòng),其中云創(chuàng)數(shù)據(jù)自底部以來股價(jià)已接近翻倍。
此外,8日開始,分析師們“后知后覺”開始密集推出研報(bào)進(jìn)行覆蓋。
多家創(chuàng)業(yè)公司獲大額新融資
據(jù)華福證券梳理,隨著大模型帶來的應(yīng)用需求提升,4月以來多家海外知名向量數(shù)據(jù)庫創(chuàng)業(yè)企業(yè)傳出融資喜訊。
4月28日,向量數(shù)據(jù)庫平臺(tái)Pinecone宣布獲得1億美元(約7億元)B輪融資,由Andreessen Horowitz領(lǐng)投,ICONIQ Growth等跟投。
4月22日,向量數(shù)據(jù)庫平臺(tái)Weaviate宣布獲得5000萬美元(約3.5億元)B輪融資,由Index Ventures領(lǐng)投,Battery Ventures等跟投。
此外,4月6日Chroma獲1800萬美元種子輪融資,4月19日Qdrant獲750萬美元種子輪融資。
什么是向量數(shù)據(jù)庫?
據(jù)東北證券研報(bào),向量數(shù)據(jù)庫是專門用來存儲(chǔ)和查詢向量的數(shù)據(jù)庫,其存儲(chǔ)的向量來自于對(duì)文本、語音、圖像、視頻等的向量化。
同傳統(tǒng)數(shù)據(jù)庫相比,向量數(shù)據(jù)庫不僅能夠完成基本的CRUD(添加、讀取查詢、更新、刪除)等操作,還能夠?qū)ο蛄繑?shù)據(jù)進(jìn)行更快速的相似性搜索,商業(yè)價(jià)值提升明顯。
向量數(shù)據(jù)庫有啥用?
東北證券指出,向量數(shù)據(jù)庫一個(gè)很重要的功能是拓展大模型的邊界,分為時(shí)間邊界和空間邊界。
第一,時(shí)間邊界的擴(kuò)展,指的是向量數(shù)據(jù)庫能夠使得大模型LLM擁有“長(zhǎng)期記憶”。
眾所周知,目前的大模型(無論是NLP領(lǐng)域的GPT系列還是CV領(lǐng)域的ResNET系列)都是預(yù)先訓(xùn)練Pretrain的大模型,有著非常明晰的訓(xùn)練截止日Cut-off Date,這導(dǎo)致這些模型對(duì)于訓(xùn)練截止日之后發(fā)生的事情一無所知。
而隨著向量數(shù)據(jù)庫的引入,其內(nèi)部存儲(chǔ)的最新的信息向量能夠極大地拓展大模型的應(yīng)用邊界,向量數(shù)據(jù)庫可以使得大模型保持準(zhǔn)實(shí)時(shí)性,提高大模型的適用性,并使得大模型能夠動(dòng)態(tài)調(diào)整。也就是說,向量數(shù)據(jù)庫使得大模型的長(zhǎng)期記憶得到了可能。
例如,假設(shè)一個(gè)預(yù)訓(xùn)練的新聞?wù)P驮?021年底完成了訓(xùn)練,到了2023年,許多新聞事件和趨勢(shì)已經(jīng)發(fā)生了變化。為了使大模型能夠處理這些新信息,可以使用向量數(shù)據(jù)庫來存儲(chǔ)和查詢2023年的新聞文章向量。
同樣,在推薦系統(tǒng)中,預(yù)訓(xùn)練的大模型可能無法識(shí)別新用戶和新產(chǎn)品的特征,通過向量數(shù)據(jù)庫,可以實(shí)時(shí)更新用戶和產(chǎn)品的特征向量,從而使大模型能夠根據(jù)最新的信息為用戶提供更精準(zhǔn)的推薦。
此外,向量數(shù)據(jù)庫還可以支持實(shí)時(shí)監(jiān)測(cè)和分析。例如,在金融領(lǐng)域,預(yù)訓(xùn)練的股票預(yù)測(cè)模型可能無法獲取訓(xùn)練截止日期之后的股票價(jià)格信息。通過將最新的股票價(jià)格向量存儲(chǔ)在向量數(shù)據(jù)庫中,大模型可以實(shí)時(shí)分析和預(yù)測(cè)未來股票價(jià)格走勢(shì)。還有就是在客服領(lǐng)域,向量數(shù)據(jù)庫將使得大模型可以追溯到對(duì)話的開始。
第二,空間邊界的擴(kuò)展,指的是向量數(shù)據(jù)庫能夠協(xié)助解決目前企業(yè)界最擔(dān)憂的大模型泄露隱私的問題。
用戶給出的Prompt可能會(huì)包含一些敏感信息。根據(jù)媒體報(bào)道,員工A用ChatGPT幫自己查一段代碼的bug,而這段源代碼與半導(dǎo)體設(shè)備測(cè)量數(shù)據(jù)有關(guān);員工B想用ChatGPT幫自己優(yōu)化一段代碼,就直接將與產(chǎn)量和良品率記錄設(shè)備相關(guān)的一段代碼輸入了其中。
這些行為直接導(dǎo)致了三星關(guān)鍵數(shù)據(jù)的泄露,而ChatGPT本身其實(shí)也出現(xiàn)過隱私泄露事件,使得有一小部分的對(duì)話歷史/支付數(shù)據(jù)會(huì)被其他用戶查看,這些數(shù)據(jù)都極為敏感,而通過本地部署,向量數(shù)據(jù)庫能夠在很大程度上解決這個(gè)問題。
向量數(shù)據(jù)庫本地部署后可以存儲(chǔ)企業(yè)有關(guān)的大量隱私數(shù)據(jù),在本地部署或者專有云部署大模型后,通過特別的Agent大模型可以在有保護(hù)的情況下訪問向量數(shù)據(jù)庫的隱私數(shù)據(jù),進(jìn)而可以在不向外網(wǎng)暴露公司的隱私的情況下,使得公司的業(yè)務(wù)得到大模型的助力。
此外,多模態(tài)搜索也是向量數(shù)據(jù)庫的拿手好戲。
東北證券指出,向量數(shù)據(jù)庫自帶多模態(tài)功能,這意味著它能夠通過機(jī)器學(xué)習(xí)方法處理和理解來自不同源的多種模態(tài)信息,如文本、圖像、音頻和視頻等,數(shù)據(jù)向量化過程使得這些不同模態(tài)數(shù)據(jù)的內(nèi)部隱藏信息得以暴露,進(jìn)而為多模態(tài)應(yīng)用提供支持。
一個(gè)典型的應(yīng)用場(chǎng)景是多語言搜索,向量數(shù)據(jù)庫支持跨語言的信息檢索,用戶可以使用英語、法語、中文等多種語言搜索圖書庫,而無需事先對(duì)書名進(jìn)行多語言翻譯處理。這得益于向量表示能夠捕捉到語義相似性,使得來自不同語言的查詢和內(nèi)容能夠相互匹配。
再一個(gè),東北證券指出,即使不考慮需要LLM支持的邊界拓展型應(yīng)用和多模態(tài)搜索,近似搜索功能就可以給向量數(shù)據(jù)庫帶來巨大的商業(yè)化潛力。比如推薦系統(tǒng)、圖像檢索、語音識(shí)別和處理、生物信息學(xué)等。
市場(chǎng)空間巨大,行業(yè)處于從0-1階段
東北證券指出,向量數(shù)據(jù)庫市場(chǎng)空間巨大,目前處于從0-1階段,預(yù)測(cè)到2030年,全球向量數(shù)據(jù)庫市場(chǎng)規(guī)模有望達(dá)到500億美元,國內(nèi)向量數(shù)據(jù)庫市場(chǎng)規(guī)模有望超過600億人民幣。
其認(rèn)為,向量數(shù)據(jù)庫是AI時(shí)代的Killer App。AI時(shí)代一切AI化,而AI化的本質(zhì)則是向量化,向量化計(jì)算成本高昂,海量的高維向量勢(shì)必需要專門的數(shù)據(jù)庫進(jìn)行存儲(chǔ)和處理,向量數(shù)據(jù)庫應(yīng)運(yùn)而生,向量數(shù)據(jù)庫在拓展AI全新應(yīng)用場(chǎng)景的同時(shí),也將對(duì)傳統(tǒng)數(shù)據(jù)庫產(chǎn)品形成替代,進(jìn)而成為AI時(shí)代的Killer App。
相關(guān)公司方面,全球范圍內(nèi)來看,目前向量數(shù)據(jù)庫以初創(chuàng)公司為主,包括Pinecone、Milvus、Weaviate、Vespa等。
目前全球已有的向量數(shù)據(jù)庫產(chǎn)品主要包括Pinecone、Milvus、Weaviate、Vespa等,其中超過70%的向量數(shù)據(jù)庫選擇了開源,超過一半的向量數(shù)據(jù)庫具有云化部署的能力,大部分向量數(shù)據(jù)庫產(chǎn)品在進(jìn)行ANN相似性搜索時(shí)采用HNSW(HierarchicalNavigable Small World)算法。
風(fēng)險(xiǎn)提示及免責(zé)條款 市場(chǎng)有風(fēng)險(xiǎn),投資需謹(jǐn)慎。本文不構(gòu)成個(gè)人投資建議,也未考慮到個(gè)別用戶特殊的投資目標(biāo)、財(cái)務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見、觀點(diǎn)或結(jié)論是否符合其特定狀況。據(jù)此投資,責(zé)任自負(fù)。關(guān)鍵詞: