就在DeepSeek在華爾街和應(yīng)用下載榜上引起轟動的同時,深度求索公司在除夕夜再次推出了新的產(chǎn)品。1月28日凌晨,DeepSeek在Hugging Face平臺上發(fā)布了全新升級的多模態(tài)大模型Janus-Pro 7B和1.5B版本,這是對去年10月發(fā)布的基礎(chǔ)版模型的一次迭代升級。
根據(jù)技術(shù)報告,70億參數(shù)版本的Janus-Pro在多項文生圖基準測試中表現(xiàn)出色,不僅超過了OpenAI的DALL-E 3,還優(yōu)于Stability AI最新推出的Stable Diffusion 3-Medium模型。15億和70億參數(shù)量級使得該模型可以在普通個人電腦上本地運行,并采用MIT開源協(xié)議,允許商業(yè)場景下的無限制應(yīng)用。
從技術(shù)架構(gòu)來看,通過優(yōu)化訓(xùn)練策略和1.6億樣本數(shù)據(jù)集的支持,Janus-Pro在短提示圖像生成領(lǐng)域展現(xiàn)出了出色的穩(wěn)定性和質(zhì)量,解決了以往大模型在短提示生成時容易出錯的問題。官方對比圖顯示,新版模型在圖像細節(jié)呈現(xiàn)和語義理解方面較前代產(chǎn)品有了明顯提升。
為了驗證其實力,進行了幾項實測。首先是視覺理解測試,Janus-Pro成功識別出一張圖片中的波音787型客機,并且在背景有干擾因素的情況下,還能根據(jù)涂裝判斷出該航空公司為全日空。面對帶有惡趣味的梗圖,Janus-Pro也能準確理解其含義,將“分離式視覺編碼”比喻為強壯的健美狗,而“單一視覺編碼器”則被比喻為瘦弱的狗。此外,Janus-Pro在地標(biāo)識別方面也表現(xiàn)出色。
接下來是文生圖測試。面對“畫一個漂亮的小女孩”的短提示,Janus-Pro與其他大模型如DALL·E3和Grok一樣表現(xiàn)突出,都能很好地處理人物面部的細節(jié)。然而,在進階版“三日凌空”的刻畫中,Janus-Pro生成了一幅與語義完全不同的場景。專家分析認為,由于輸入分辨率被限制在384×384,影響了模型在OCR等需要精細識別任務(wù)上的表現(xiàn)。較低的分辨率以及視覺Token編碼器引入的重建損失,導(dǎo)致生成的圖像細節(jié)表現(xiàn)不足,有時還會導(dǎo)致語義理解失敗。
盡管存在一些不足,但Janus-Pro仍然受到了廣泛歡迎。GitHub數(shù)據(jù)顯示,該模型開源24小時內(nèi)就獲得了超過3000次星標(biāo),并衍生出包括Stable Diffusion插件、Photoshop擴展在內(nèi)的7個社區(qū)項目。開源社區(qū)代表張?zhí)煲肀硎?,DeepSeek一貫的開源策略讓開發(fā)者可以無顧慮地將其集成到商業(yè)產(chǎn)品中,這可能會催生新一代AI藝術(shù)創(chuàng)作工具。
8月22日,清華園迎來了新一批的研究生成員,屬于2024級的學(xué)子們踏上了這片充滿歷史與夢想的土地。清華大學(xué)官方微博溫馨發(fā)聲,伴隨著清晨的和煦陽光,清華園再次擁抱了新的主人
2024-08-23 14:01:56楊倩曬清華研究生錄取通知書