谷歌推最強圖像模型登頂雙榜單(2)

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-08-28 13:57:29 大江網(wǎng)

谷歌稱，Gemini 2.5 Flash Image的核心亮點是圖像編輯能力，可以將多個圖像混合到一幅圖像中，保持高度的角色一致性，還能使用自然語言進(jìn)行有針對性修改，并充分利用Gemini的世界知識來生成和編輯圖像。一直以來，圖像生成中的一個根本挑戰(zhàn)是如何在多個提示和編輯中保持角色或物體的外觀。谷歌表示，最新更新專門針對這一點，確保朋友、家人甚至寵物始終看起來像他們自己。

谷歌CEO桑達(dá)爾·皮查伊和谷歌DeepMind CEO戴密斯·哈薩比斯親自展示了模型的功能。皮查伊借助最新模型生成了家里愛犬沖浪、做大廚的照片，畫面質(zhì)感相當(dāng)不錯。哈薩比斯則給自己生成了一個肖像照，將照片背景做了修改，切換為古典風(fēng)格，但人物容貌沒有改變。

現(xiàn)在用戶可以免費體驗Gemini App，面向開發(fā)者的版本每張生圖成本也不到3毛錢。Gemini 2.5 Flash Image的定價為30美元/100萬個輸出token，每張圖像為1290個輸出token，每張圖像價格約為0.039美元（約合人民幣0.28元），遠(yuǎn)低于OpenAI的0.19美元/張的價格。

根據(jù)官方介紹，Gemini 2.5 Flash Image除了角色一致性方面，在渲染文本方面也表現(xiàn)出色。模型可以準(zhǔn)確生成包含清晰易讀且位置合理的文本的圖片，非常適合用于徽標(biāo)、圖表和海報。在廣告制作方面，主體特點、主角容貌不變，文字不變形這些都非常重要。谷歌認(rèn)為，他們的模型已經(jīng)能適應(yīng)產(chǎn)品模型和商業(yè)攝影，為電子商務(wù)、廣告或品牌宣傳制作清晰專業(yè)的商品照片。

具體測試顯示，模型在面貌一致性、文本準(zhǔn)確性方面表現(xiàn)優(yōu)異，尤其擅長英文環(huán)境；而在中文理解與復(fù)雜構(gòu)圖指令方面仍存在明顯缺陷。隨著生成效果不斷優(yōu)化與使用成本持續(xù)降低，Gemini 2.5 Flash Image有望加速AI在電商、廣告、設(shè)計乃至專業(yè)攝影領(lǐng)域的影響和替代效應(yīng)，重新定義修圖師與部分視覺設(shè)計師的工作內(nèi)容。

首頁上一頁 12共 2 頁

(責(zé)任編輯：0882)

關(guān)閉

谷歌推最強圖像模型 登頂雙榜單(2)

相關(guān)新聞

今日熱點

頻道熱點

谷歌推最強圖像模型登頂雙榜單(2)