Meta大動作!開源多感官AI模型,不僅能看會聽,還能“感知溫度”_聚焦
前段時間,帶著開源模型LlaMA“殺的”谷歌和微軟“措手不及”的Meta,又一次在AI戰(zhàn)場上丟下了一顆重磅炸彈。
(資料圖片僅供參考)
今天,Meta重磅開源了多感官AI模型ImageBind(https://github.com/facebookresearch/ImageBind)。以視覺為核心,結(jié)合文本、聲音、深度、熱量(紅外輻射)、運動(慣性傳感器),最終可以做到6個模態(tài)之間任意的理解和轉(zhuǎn)換。
這也是第一個能夠整合六種類型數(shù)據(jù)的AI模型。
如何讓AI以更接近人類的方式理解這個世界?——也讓AI擁有多種感官,學會“腦補”。
一張大海的照片可以讓我們的腦海里響起海浪的聲音,回憶起海邊腥咸的味道。當我們聽到瀑布聲,腦海里便會浮現(xiàn)恢弘的瀑布奇觀。
Meta指出,未來還將有其他可以被添加到模型中的感官輸入流,包括“觸摸、講話、氣味和大腦fMRI(功能性磁共振成像)信號”。與此同時,ImageBind還可以進行跨模態(tài)檢索,如火車喇叭音頻,文本、深度、圖片和視頻。
盡管目前ImageBind只是一個研究項目,但它展示了未來人工智能生成多感官感知的可能性,或許也使Meta的元宇宙夢更近了。
Meta在論文中解釋稱,他們把不同模態(tài)數(shù)據(jù)串聯(lián)在了一個嵌入空間(Embedding Space),讓其從多維度理解世界。
有網(wǎng)友評價道,imageBind的出現(xiàn)使AI發(fā)展過程中又迎來了激動人心的時刻:
“這項創(chuàng)新為AI搜索能力、沉浸式VR體驗和更高級的AI技術(shù)鋪平了道路。對于AI愛好者和專業(yè)人士來說,激動人心的時刻即將到來!”。
有網(wǎng)友評論稱,ImageBind的誕生就是為了模擬人類感知。ImageBind面世,賈維斯也不遠了。
不過,對于Meta開源大模型的做法,也有人提出了質(zhì)疑。如OpenAI便表示,這種做法對創(chuàng)作者有害,競爭對手可以隨意復(fù)制且可能具有潛在的危險,允許惡意行為者利用最先進的人工智能模型。
更接近人類感知的元宇宙?
相比Midjourney、Stable Diffusion和DALL-E 2這樣簡單的將文字與圖像配對的生成器,ImageBind試圖讓AI更接近人類的思考和感知方式:
可以連接文本、圖像/視頻、音頻、3D 測量(深度)、溫度數(shù)據(jù)(熱)和運動數(shù)據(jù)(來自 IMU),且它無需先針對每一種可能性進行訓練,直接預(yù)測數(shù)據(jù)之間的聯(lián)系,類似于人類感知或想象的方式。
這個模型利用到了圖像的綁定(binding)屬性,只要將每個模態(tài)的嵌入與圖像嵌入對齊,就會實現(xiàn)所有模態(tài)的迅速對齊。
簡單來說就是圖像成為了連接這些模態(tài)的橋梁。
例如Meta利用網(wǎng)絡(luò)數(shù)據(jù)將文本與圖像連接起來,或者利用帶有IMU傳感器的可穿戴相機捕捉到的視頻數(shù)據(jù)將運動與視頻連接起來。
Meta在論文中指出,ImageBind的圖像配對數(shù)據(jù)足以將這六種模態(tài)綁定在一起。
模型可以更全面地解釋內(nèi)容,使不同的模態(tài)相互“對話”,并找到它們之間的聯(lián)系。
例如,ImageBind可以在沒有一起觀察音頻和文本的情況下將二者聯(lián)系起來。這使得其他模型能夠“理解”新的模態(tài),而不需要任何資源密集型的訓練。
具體而言,ImageBind利用網(wǎng)絡(luò)規(guī)模(圖像、文本)匹配數(shù)據(jù),并將其與自然存在的配對數(shù)據(jù)(視頻、音頻、圖像、深度)相結(jié)合,以學習單個聯(lián)合嵌入空間。
這樣做使得ImageBind隱式地將文本嵌入與其他模態(tài)(如音頻、深度等)對齊,從而在沒有顯式語義或文本配對的情況下,能在這些模態(tài)上實現(xiàn)零樣本識別功能。
與此同時,Meta表示,ImageBind可以使用大規(guī)模視覺語言模型(如 CLIP)進行初始化,從而利用這些模型的豐富圖像和文本表示。因此,ImageBind只需要很少的訓練就可以應(yīng)用于各種不同模態(tài)和任務(wù)。
如果與其他AI結(jié)合,還可以做到跨模態(tài)的生成。
比如聽到狗叫畫出一只狗,同時給出對應(yīng)的深度圖和文字描述。
甚至還做到不同模態(tài)之間的運算,如鳥的圖像+海浪的聲音,得到鳥在海邊的圖像。
對此,Meta在其官方博客中也說道,“ImageBind 可以勝過之前為一種特定模式單獨訓練的技術(shù)模型。但最重要的是,它能更好地一起分析許多不同形式的信息,從而推進人工智能的發(fā)展。”
Meta團隊認為,ImageBind為設(shè)計和體驗身臨其境的虛擬世界打開了大門?;蛟S也讓Meta離幻想中的元宇宙世界更近了一步。
可以怎么搜?
使用圖像檢索音頻
以圖像或視頻作為輸入,可以生成音頻。比如選擇一張小狗的圖片,就能夠檢索到狗吠的音頻。使用音頻檢索圖像
通過一個音頻片段,給出一張對應(yīng)的圖。聽著鳥鳴,小鳥的圖片便出現(xiàn)了。
使用文本來檢索圖像和音頻
選擇下面的一個文本提示,ImageBind將檢索與該特定文本相關(guān)的一系列圖像和音頻片段。
使用音頻+圖像來檢索相關(guān)圖像
給一段狗叫聲再加一張海灘的圖片。ImageBind可以在幾分鐘內(nèi)檢索出相關(guān)圖像。
得到了一張“狗望海”的圖:
使用音頻來生成圖像
要想實現(xiàn)音頻生圖像,ImageBind需要和其他模型一起結(jié)合用,比如 DALL-E 2等生成模型。
ImageBind的性能有多卓越?——打敗專家模型
在Meta研究科學家于近期發(fā)布的題為《IMAGEBIND:一個嵌入空間綁定所有模態(tài)》(《IMAGEBIND: One Embedding Space To Bind Them All》https://dl.fbaipublicfiles.com/imagebind/imagebind_final.pdf)的論文中指出,ImageBind模型的第一大優(yōu)勢在于,僅通過很少的樣本及訓練,模型性能便可提高:
此前,往往需要收集所有可能的配對數(shù)據(jù)組合,才能讓所有模態(tài)學習聯(lián)合嵌入空間。
ImageBind規(guī)避了這個難題,它利用最近的大型視覺語言模型,將零樣本能力擴展到新的模態(tài)。
Meta的模型具有小模型所不具備的出色能力,這些性能通常只會在大模型中才會呈現(xiàn)。比如:音頻匹配圖片、判斷照片中的場景深度等等。
Meta的研究表明,視覺模型越強,ImageBind對齊不同模態(tài)的能力就越強。
在實驗中,研究人員使用了 ImageBind 的音頻和深度編碼器,并將其與之前在zero-shot檢索以及音頻和深度分類任務(wù)中的工作進行了比較。
結(jié)果顯示,ImageBind可以用于少量樣本的音頻和深度分類任務(wù),并且優(yōu)于之前定制的方法。
而以圖像/視頻為中心訓練好AI后,對于原始數(shù)據(jù)中沒有直接聯(lián)系的模態(tài),比如語音和熱量,ImageBind表現(xiàn)出涌現(xiàn)能力,把他們自發(fā)聯(lián)系起來。
在定量測試中,研究人員發(fā)現(xiàn),ImageBind的特征可以用于少樣本音頻和深度分類任務(wù),并且可以勝過專門針對這些模態(tài)的先前方法。
比方說,ImageBind在少于四個樣本分類的top-1準確率上,要比Meta的自監(jiān)督AudioMAE模型和在音頻分類fine-tune上的監(jiān)督AudioMAE模型提高了約40%的準確率。
Meta希望,AI開發(fā)者社區(qū)能夠探索ImageBind,來開發(fā)其可以應(yīng)用的新途徑。
Meta認為,關(guān)于多模態(tài)學習仍有很多需要探索的地方。ImageBind這項技術(shù)最終會超越目前的六種“感官”,其在博客上說道,“雖然我們在當前的研究中探索了六種模式,但我們相信引入連接盡可能多的感官的新模式——如觸覺、語音、嗅覺和大腦 fMRI 信號——將使更豐富的以人為中心的人工智能模型成為可能?!?
風險提示及免責條款 市場有風險,投資需謹慎。本文不構(gòu)成個人投資建議,也未考慮到個別用戶特殊的投資目標、財務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見、觀點或結(jié)論是否符合其特定狀況。據(jù)此投資,責任自負。關(guān)鍵詞: