天天快訊:華人團(tuán)隊(duì)迷你GPT-4搶跑看圖聊天:OpenAI有的它都有,服務(wù)器已被擠爆
GPT-4識圖功能遲遲不開放,終于有人忍不住自己動(dòng)手做了一個(gè)。
(資料圖片僅供參考)
MiniGPT-4來了,Demo開放在線可玩。
傳一張海鮮大餐照片上去,就能直接獲得菜譜。
傳一張商品效果圖,就可以讓AI寫一篇帶貨文案。
手繪一個(gè)網(wǎng)頁,可以給出對應(yīng)的HTML代碼:
除了生產(chǎn)力拉滿,也支持根據(jù)常識推理圖上內(nèi)容是否合理、解釋表情包為什么好笑,以及看截圖找電影等娛樂玩法。
可以說,GPT-4發(fā)布時(shí)展示過的功能,MiniGPT-4基本也都有了。
這下網(wǎng)友直接把Demo服務(wù)器擠爆,開發(fā)團(tuán)隊(duì)連開4臺備用服務(wù)器,都有幾十人在排隊(duì)。
不等OpenAI了,現(xiàn)在就能玩
除了研究團(tuán)隊(duì)給出的示例,網(wǎng)友也用MiniGPT-4玩出了各種花樣
有人上傳自己畫的畫,讓AI評價(jià)評價(jià)。
有人上傳一張從車道拍攝的飛機(jī)墜毀瞬間,讓MiniGPT-4盡可能詳細(xì)地描述,并思考自動(dòng)駕駛AI能不能理解這個(gè)場面。
做到這么好的效果,MiniGPT-4實(shí)現(xiàn)起來卻并不復(fù)雜。
把圖像編碼器與開源語言模型Vicuna(小羊駝)整合起來,并且凍結(jié)了兩者的大部分參數(shù),只需要訓(xùn)練很少一部分。
傳統(tǒng)預(yù)訓(xùn)練階段,使用4張A100在10個(gè)小時(shí)內(nèi)就可完成,此時(shí)訓(xùn)練出來的Vicuna已能夠理解圖像,但生成能力受到很大影響。
為解決這個(gè)問題,團(tuán)隊(duì)讓MiniGPT-4與ChatGPT合作創(chuàng)建了3500個(gè)圖像文本的高質(zhì)量數(shù)據(jù)集,也一并開源。?
用新的數(shù)據(jù)集微調(diào)可以顯著提高模型的生成可靠性和整體可用性,而且計(jì)算效率很高,使用單個(gè)A100只需要7分鐘。
并且團(tuán)隊(duì)正在準(zhǔn)備一個(gè)更輕量級的版本,部署起來只需要23GB顯存。
也就是消費(fèi)級顯卡中擁有24GB顯存的3090或4090就可以本地運(yùn)行了。
MiniGPT-4開發(fā)團(tuán)隊(duì)來自KAUST(沙特阿卜杜拉國王科技大學(xué)),包括4位華人成員和他們的導(dǎo)師 Mohamed Elhoseiny。
兩位正在讀博的共同一作還在GitHub頁面上特別標(biāo)注正在找工作。
有意向的公司要抓緊搶人了~
在線Demo:https://minigpt-4.github.io
開源代碼:https://github.com/Vision-CAIR/MiniGPT-4
論文:https://github.com/Vision-CAIR/MiniGPT-4/blob/main/MiniGPT_4.pdf
本文作者:夢晨,來源:量子位,原文標(biāo)題:《華人團(tuán)隊(duì)迷你GPT-4搶跑看圖聊天:OpenAI有的它都有,服務(wù)器已被擠爆》
風(fēng)險(xiǎn)提示及免責(zé)條款 市場有風(fēng)險(xiǎn),投資需謹(jǐn)慎。本文不構(gòu)成個(gè)人投資建議,也未考慮到個(gè)別用戶特殊的投資目標(biāo)、財(cái)務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見、觀點(diǎn)或結(jié)論是否符合其特定狀況。據(jù)此投資,責(zé)任自負(fù)。關(guān)鍵詞: