谷歌稱,Gemini 2.5 Flash Image的核心亮點是圖像編輯能力,可以將多個圖像混合到一幅圖像中,保持高度的角色一致性,還能使用自然語言進(jìn)行有針對性修改,并充分利用Gemini的世界知識來生成和編輯圖像。一直以來,圖像生成中的一個根本挑戰(zhàn)是如何在多個提示和編輯中保持角色或物體的外觀。谷歌表示,最新更新專門針對這一點,確保朋友、家人甚至寵物始終看起來像他們自己。
谷歌CEO桑達(dá)爾·皮查伊和谷歌DeepMind CEO戴密斯·哈薩比斯親自展示了模型的功能。皮查伊借助最新模型生成了家里愛犬沖浪、做大廚的照片,畫面質(zhì)感相當(dāng)不錯。哈薩比斯則給自己生成了一個肖像照,將照片背景做了修改,切換為古典風(fēng)格,但人物容貌沒有改變。
現(xiàn)在用戶可以免費體驗Gemini App,面向開發(fā)者的版本每張生圖成本也不到3毛錢。Gemini 2.5 Flash Image的定價為30美元/100萬個輸出token,每張圖像為1290個輸出token,每張圖像價格約為0.039美元(約合人民幣0.28元),遠(yuǎn)低于OpenAI的0.19美元/張的價格。
根據(jù)官方介紹,Gemini 2.5 Flash Image除了角色一致性方面,在渲染文本方面也表現(xiàn)出色。模型可以準(zhǔn)確生成包含清晰易讀且位置合理的文本的圖片,非常適合用于徽標(biāo)、圖表和海報。在廣告制作方面,主體特點、主角容貌不變,文字不變形這些都非常重要。谷歌認(rèn)為,他們的模型已經(jīng)能適應(yīng)產(chǎn)品模型和商業(yè)攝影,為電子商務(wù)、廣告或品牌宣傳制作清晰專業(yè)的商品照片。
具體測試顯示,模型在面貌一致性、文本準(zhǔn)確性方面表現(xiàn)優(yōu)異,尤其擅長英文環(huán)境;而在中文理解與復(fù)雜構(gòu)圖指令方面仍存在明顯缺陷。隨著生成效果不斷優(yōu)化與使用成本持續(xù)降低,Gemini 2.5 Flash Image有望加速AI在電商、廣告、設(shè)計乃至專業(yè)攝影領(lǐng)域的影響和替代效應(yīng),重新定義修圖師與部分視覺設(shè)計師的工作內(nèi)容。
當(dāng)?shù)貢r間8月26日,谷歌推出了最新的圖像生成與編輯模型Gemini 2.5 Flash Image,代號“納米香蕉”
2025-08-28 09:06:12谷歌旗下最強圖像模型來了谷歌DeepMind團隊于5月27日宣布推出SignGemma,這是其迄今為止最強大的手語翻譯模型,能夠?qū)⑹终Z轉(zhuǎn)化為口語文本。該開源模型計劃在今年晚些時候加入Gemma模型家族
2025-05-31 23:30:49谷歌DeepMind最強手語翻譯模型登場5月21日凌晨,谷歌在全球開發(fā)者大會“I/O 2025”上發(fā)布了AI全家桶——Google AI Ultra
2025-05-21 09:22:32Google發(fā)布最強AI全家桶