久久精品一本到东京热|国产一区二区三区观看|亚洲无人区在线观看无码|精品久久久久久无码人妻|亚洲精选AV一区二区三区|国产成人久久综合一区77|亚洲国产精品久久久久久婷婷|亚洲欧美精品高清一区二区三区

返回首頁

融合ChatGPT+DALL・E3賈佳亞團(tuán)隊新作開源暢玩：識圖推理生圖一站解決

時間:2024-04-17 瀏覽次數(shù):663

　　更高清圖像的精確理解、更高質(zhì)量的訓(xùn)練數(shù)據(jù)、更強的圖像解析推理能力，還能結(jié)合圖像推理和生成，堪稱王炸。

　　Mini-Gemini Demo 放出后受到廣大網(wǎng)友關(guān)注，一番“品嘗”后，他們認(rèn)為 Mini-Gemini 跟商業(yè)模型差不了多少。

　　目前，絕大多數(shù)多模態(tài)模型僅支持低分辨率圖像輸入和文字輸出，而在實際場景中，許多任務(wù)都需要對高清圖像進(jìn)行解析，并用圖像的形式進(jìn)行展現(xiàn)。

　　如下圖所示，Mini-Gemini 不僅能夠根據(jù)圖片對做面包的過程進(jìn)行手把手教學(xué)，也能夠準(zhǔn)確將不同電腦品種根據(jù)圖片中的各種參數(shù)進(jìn)行對比。

　　更重要的是，Mini-Gemini 在保留超強的圖像理解和推理能力的同時，還解鎖了圖像的生成能力，就如同 ChatGPT 和生成模型的結(jié)合。

　　還記得 Google Gemini 的官方演示視頻么？當(dāng)用戶給出兩個毛線團(tuán)并問出能用它們做什么時，Gemini 可以識別出圖片內(nèi)容并給出相應(yīng)的建議。

　　可以發(fā)現(xiàn)，Mini-Gemini 也可以識別出圖片中的元素，并且合理地建議，同時生成了一只對應(yīng)的毛線小熊。

　　通過一些抽象的多模態(tài)指令來讓模型給出推理，并生成合適的圖片，這個操作就很像是 ChatGPT 和 DALL・E 3 的聯(lián)動了。

　　比如理解圖片中的矛盾點并舉一反三 —— 輸入冰川中的仙人掌，它會解釋其中的矛盾并生成一張熱帶雨林中北極熊的圖片：

　　圖片呈現(xiàn)了仙人掌的典型棲息地與冰的存在之間的視覺矛盾，因為在沙漠環(huán)境中自然不會出現(xiàn)冰。這種矛盾的類似例子可能是一只北極熊出現(xiàn)在熱帶雨林中，因為北極熊適應(yīng)于寒冷、覆蓋著冰的環(huán)境，在炎熱潮濕的氣候中無法生存。這種并置創(chuàng)造了一個引人注目且超現(xiàn)實的視覺效果，挑戰(zhàn)觀眾的期待，并可能引發(fā)人們對氣候變化、環(huán)境適應(yīng)或不同生態(tài)系統(tǒng)融合的思考。

　　同時，正如 ChatGPT+DALL・E 3 的夢幻結(jié)合一樣，Mini-Gemini 的“推理生成”功能還可以在多輪對話中通過簡單指令生成連環(huán)小故事。

　　比方說，讓它根據(jù)用戶輸入講一個貴族小老鼠的故事，Mini-Gemini 會根據(jù)前文的文字生成結(jié)果和用戶輸入進(jìn)行推理，在保持一致性的情況下對圖片進(jìn)行修改，使其更符合用戶的要求。

　　當(dāng)然，Mini-Gemini 對于多模態(tài)模型的傳統(tǒng)技能圖表理解也不在話下。比方讓模型理解輸入曲線圖的數(shù)學(xué)意義（高斯分布），并讓它使用代碼復(fù)現(xiàn)這張圖，通過運行生成的代碼，模型可以高質(zhì)量地還原曲線圖，節(jié)省了復(fù)現(xiàn)的時間。

　　又或者讓 Mini-Gemini理解梗圖，通過其強大的 OCR 和推理能力，也可以準(zhǔn)確指出笑點。

　　高清復(fù)雜的多圖表理解和歸納也是小菜一碟，Mini-Gemini 直接秒變打工人效率提升的超級外掛。

　　大道至簡，Mini-Gemini 的整體思路并不復(fù)雜。其中的 Gemini（雙子座) 表達(dá)的是使用視覺雙分支的信息挖掘（Mining-Info inGemini）解決高清圖像理解問題。

　　詳細(xì)來說，Mini-Gemini 將傳統(tǒng)所使用的 ViT 當(dāng)做低分辨率的 Query，而使用卷積網(wǎng)絡(luò)（ConvNet）將高分辨率的圖像編碼成 Key 和 Value。

　　使用 Transformer 中常用的 Attention 機制，來挖掘每個低分辨率 Query 所對應(yīng)的高分辨率區(qū)域。從而在保持最終視覺 Token 數(shù)目不變的情況下去提升對高清圖像的響應(yīng)，保證了在大語言模型（LLM）中對于高清圖像的高效編碼。

　　值得一提的是，由于高分辨率分支卷積網(wǎng)絡(luò)的使用，可以根據(jù)需要對圖像所需的分辨率自適應(yīng)調(diào)整。對于圖像的生成部分，Mini-Gemini 借助了 SDXL，使用 LLM 推理后所生成的文本鏈接兩個模型，類似于 DALL・E 3 的流程。

　　對于數(shù)據(jù)，Mini-Gemini 進(jìn)一步收集并優(yōu)化了訓(xùn)練數(shù)據(jù)的質(zhì)量，并加入了跟生成模型結(jié)合的文本數(shù)據(jù)進(jìn)行訓(xùn)練。在僅使用 2-3M 數(shù)據(jù)的情況下，實現(xiàn)了對圖像理解、推理和生成的統(tǒng)一流程。

　　Mini-Gemini 在各種 Zero-shot 的榜單上毫不遜色于各種大廠用大量數(shù)據(jù)訓(xùn)練出來的模型。

　　可以看出，Mini-Gemini 提供了多種普通和高清版本的模型，并且覆蓋了 2B 的小杯到 34B 的超大杯，各個版本都取得了相似參數(shù)量下領(lǐng)先的效果，在許多指標(biāo)上甚至超越 Gemini Pro 和 GPT-4V。

　　值得一提的是，Mini-Gemini 的圖像理解和生成能力已經(jīng)出了 Demo，可以在線跟自定義圖像對話的那種。

　　廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

上一篇：然后平轉(zhuǎn)至設(shè)計線路位置實現(xiàn)橋梁合龍下一篇：i茅臺：一場撬動未來的“愛茅臺”之變

推薦內(nèi)容