DeepSeek“蒸餾模型”是否超越原創(chuàng) 引發(fā)硅谷熱議

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-01-30 15:49:26 第一財(cái)經(jīng)

中國人工智能初創(chuàng)公司DeepSeek在過去一周成為硅谷熱議的對(duì)象，并觸發(fā)了本周一美國科技股的大幅下跌。1月29日，OpenAI聲稱發(fā)現(xiàn)證據(jù)表明DeepSeek使用其專有模型來訓(xùn)練自己的開源模型，暗示這可能違反了OpenAI的服務(wù)條款。但OpenAI沒有具體說明這些證據(jù)。根據(jù)OpenAI的服務(wù)條款，用戶不能“復(fù)制”其任何服務(wù)或“使用其輸出來開發(fā)與OpenAI競(jìng)爭(zhēng)的模型”。

OpenAI的模型系統(tǒng)是封閉的，但個(gè)人用戶仍可付費(fèi)接入其編程接口獲取數(shù)據(jù)。截至發(fā)稿時(shí)，DeepSeek尚未對(duì)此事作出回應(yīng)。此前，美國政府表示正在組織專家緊急評(píng)估DeepSeek的技術(shù)及其影響。美國白宮AI和加密貨幣事務(wù)負(fù)責(zé)人David Sacks提到，未來幾個(gè)月內(nèi)，美國領(lǐng)先的人工智能公司將采取措施，試圖防止其他公司對(duì)“蒸餾技術(shù)”的獲取。

DeepSeek模型的技術(shù)突破引起了美國總統(tǒng)特朗普的關(guān)注。特朗普表示，這款中國AI應(yīng)用程序應(yīng)該成為美國公司的“激勵(lì)因素”。他認(rèn)為如果中國能夠開發(fā)出更便宜的人工智能技術(shù)，美國公司也會(huì)效仿，以減少成本并找到相同的解決方案。

數(shù)據(jù)蒸餾是一種業(yè)內(nèi)常見的技術(shù)做法，通過一系列算法和策略將原始復(fù)雜的數(shù)據(jù)進(jìn)行去噪、降維、提煉等操作，從而得到更為精煉、有用的數(shù)據(jù)。這種技術(shù)旨在將復(fù)雜模型的知識(shí)提煉到簡(jiǎn)單模型中。據(jù)DeepSeek-V3的技術(shù)文檔顯示，該模型使用數(shù)據(jù)蒸餾技術(shù)生成的高質(zhì)量數(shù)據(jù)提升了訓(xùn)練效率。通過已有的高質(zhì)量模型合成少量高質(zhì)量數(shù)據(jù)作為新模型的訓(xùn)練數(shù)據(jù)，從而達(dá)到接近于在原始數(shù)據(jù)上訓(xùn)練的效果。

一位計(jì)算機(jī)研究人員解釋說，以前的大模型訓(xùn)練相當(dāng)于題海戰(zhàn)術(shù)，在大量數(shù)據(jù)中訓(xùn)練；而蒸餾則相當(dāng)于讓優(yōu)秀大模型充當(dāng)新模型的老師，篩選出有效題目，再讓新的大模型訓(xùn)練。不過有學(xué)者認(rèn)為，蒸餾技術(shù)存在“隱性天花板”，雖然可以提高模型訓(xùn)練效率，但開發(fā)的模型無法超越基礎(chǔ)模型的能力，尤其在多模態(tài)數(shù)據(jù)方面效果不佳。然而，DeepSeek的模型打破了這種觀念，其水平已經(jīng)能與原始的基礎(chǔ)模型相提并論。1月28日凌晨，DeepSeek發(fā)布了最新視覺模型Janus-Pro，在多模態(tài)理解和文生圖指令遵從能力方面顯著提升，并在多個(gè)基準(zhǔn)上超越了DALL-E 3與Stable Diffusion。

12 全文共 2 頁下一頁

關(guān)閉

DeepSeek“蒸餾模型”是否超越原創(chuàng) 引發(fā)硅谷熱議

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)