他先統(tǒng)計(jì)了模型在創(chuàng)意寫作(creativewriting)的輸出中,比人類文本更常出現(xiàn)的詞和n-gram(詞組)。
然后他把這些大數(shù)據(jù)整合起來(lái),形成一個(gè)特征集。
最后把這些高頻特征進(jìn)行層次聚類(hierarchicalclustering),生成了一張“相似性圖”。
通過(guò)比較相似性圖中模型的遠(yuǎn)近位置,就可以發(fā)現(xiàn)Mistral-small-3.2和DeepSeek-v3在圖中非常接近,這就表明了它們的輸出模式高度相似。
最新的爆料則進(jìn)一步指明,Mistral模型和DeepSeek相似不是巧合,而是可能使用了蒸餾。
由于爆料人Susan Zhang的推特設(shè)置可見范圍,更多爆料信息暫時(shí)無(wú)從得知。
但這里需要說(shuō)明,蒸餾并不是一件違規(guī)的事,現(xiàn)在很多模型都是通過(guò)這一方法快速提升能力。
Mistral的問(wèn)題在于,可能隱藏了這部分事實(shí)。
離職員工說(shuō),Mistral這樣做是在
假裝自家模型的強(qiáng)化學(xué)習(xí)有效
,這不僅
歪曲了基準(zhǔn)測(cè)試結(jié)果,而且誤導(dǎo)公眾
。
不少人也認(rèn)同這一觀點(diǎn):蒸餾模型必須標(biāo)注,保持透明性才是關(guān)鍵。
此外還有網(wǎng)友表示,蒸餾實(shí)際上為模型開發(fā)開辟了一條捷徑,好讓大家不用再重復(fù)造輪子。
這事兒頗具爭(zhēng)議,除了事件本身,主要還在于Mistral在開源AI圈的地位不低。
它成立于2023年,base法國(guó)巴黎,一直被稱為歐洲版OpenAI。由前Google DeepMind的Arthur Mensch和前Meta的Guillaume Lample與Timothée Lacroix聯(lián)合創(chuàng)立。