中國公司DeepSeek在華爾街周一評估“DeepSeek風(fēng)暴”時,發(fā)布了其最新產(chǎn)品:名為Janus-Pro的多模態(tài)大模型。該模型在圖像生成基準(zhǔn)測試中超越了OpenAI的DALL-E 3,并且是開源的。
除夕凌晨鐘聲敲響前不久,DeepSeek工程師們在“抱抱臉”平臺上傳了Janus Pro 7B和1.5B兩個模型,這是對去年10月發(fā)布的Janus模型的升級。這兩個模型具有15億和70億參數(shù)量,可以在消費級電腦上本地運行。與之前的版本一樣,Janus Pro采用MIT許可證,在商用方面沒有限制。
據(jù)DeepSeek介紹,Janus-Pro是一個新穎的自回歸框架,統(tǒng)一了多模態(tài)理解和生成。通過將視覺編碼分離為“理解”和“生成”兩條路徑,同時仍采用單一的Transformer架構(gòu)進行處理,解決了以往方法的局限性。這種分離不僅緩解了視覺編碼器在理解和生成中的角色沖突,還提升了框架的靈活性。
從報告給出的數(shù)據(jù)來看,在部分文生圖基準(zhǔn)測試中,Janus-Pro 70億參數(shù)模型的表現(xiàn)優(yōu)于OpenAI的DALL-E 3和Stability AI的Stable Diffusion 3-Medium等模型。盡管DALL-E 3是OpenAI在2023年發(fā)布的一款老模型,而Janus Pro目前只能分析和生成規(guī)格較小的圖像(384 x 384),但其在如此緊湊的模型尺寸中依然展現(xiàn)了令人印象深刻的性能。
技術(shù)報告顯示,在視覺生成方面,Janus-Pro通過添加7200萬張高質(zhì)量合成圖像,使得在統(tǒng)一預(yù)訓(xùn)練階段真實數(shù)據(jù)與合成數(shù)據(jù)的比例達到1:1,實現(xiàn)了更具視覺吸引力和穩(wěn)定性的圖像輸出。在多模態(tài)理解的訓(xùn)練數(shù)據(jù)方面,新模型參考了DeepSeek VL2并增加了大約9000萬個樣本。
作為一個多模態(tài)模型,Janus-Pro不僅可以“文生圖”,還能對圖片進行描述,識別地標(biāo)景點(例如杭州的西湖),識別圖像中的文字,并能對圖片中的知識(例如“貓和老鼠”蛋糕)進行介紹。公司在報告中展示了更多圖像生成的案例。
當(dāng)?shù)貢r間12月11日,谷歌CEO桑達爾·皮查伊發(fā)布了一份說明,宣布推出Gemini 2.0,這是他們最強大的模型
2024-12-12 07:52:45谷歌AI大模型Gemini2.0發(fā)布就在DeepSeek在華爾街和應(yīng)用下載榜上引起轟動的同時,深度求索公司在除夕夜再次推出了新的產(chǎn)品
2025-02-01 13:13:44清華翟季冬阿里mPLUG團隊近期發(fā)布了一項新成果——通用多模態(tài)大模型mPLUG-Owl3,這款模型專為理解復(fù)雜多圖和長視頻內(nèi)容設(shè)計
2024-08-19 17:47:52阿里發(fā)通用多模態(tài)大模型mPLUG-Owl3