DeepSeek的寫(xiě)作能力為何飛躍?PTX是否真正做到了繞開(kāi)CUDA的壟斷?
智東西2月3日?qǐng)?bào)道,五位高校教授在線上討論了DeepSeek的技術(shù)原理與未來(lái)方向,解析其優(yōu)化方法如何提升算力能效。他們探討了復(fù)現(xiàn)o1大推理模型、DeepSeek R1技術(shù)路線和訓(xùn)練流程亮點(diǎn)、降低成本策略等問(wèn)題。
北京交通大學(xué)教授金一主持了這場(chǎng)線上分享。復(fù)旦大學(xué)教授邱錫鵬、清華大學(xué)長(zhǎng)聘副教授劉知遠(yuǎn)、清華大學(xué)教授翟季冬以及上海交通大學(xué)副教授戴國(guó)浩分別從不同專業(yè)角度分享了對(duì)DeepSeek的思考,并延伸到對(duì)中國(guó)大模型高質(zhì)量發(fā)展路徑的啟發(fā)。
邱錫鵬教授主持開(kāi)發(fā)了國(guó)內(nèi)首個(gè)開(kāi)源對(duì)話式大語(yǔ)言模型MOSS。劉知遠(yuǎn)教授是大模型創(chuàng)企面壁智能的首席科學(xué)家。翟季冬教授是AI基礎(chǔ)設(shè)施創(chuàng)企清程極智的首席科學(xué)家。戴國(guó)浩教授是AI基礎(chǔ)設(shè)施創(chuàng)企無(wú)問(wèn)芯穹的聯(lián)合創(chuàng)始人。
邱錫鵬解讀了R1技術(shù)路線圖,指出強(qiáng)推理模型最終落腳點(diǎn)是Agent。他提到OpenAI o1是一個(gè)非?,F(xiàn)象級(jí)的推理模型,在競(jìng)賽題目上達(dá)到了人類專家水平。邱錫鵬認(rèn)為,o1的核心在于強(qiáng)化學(xué)習(xí),通過(guò)預(yù)訓(xùn)練、提示工程、監(jiān)督微調(diào)等手段讓模型具有初始的類人推理行為。他還詳細(xì)介紹了R1的技術(shù)路線,包括冷啟動(dòng)、推理導(dǎo)向的強(qiáng)化學(xué)習(xí)、拒絕抽樣和監(jiān)督微調(diào)以及適用于所有場(chǎng)景的強(qiáng)化學(xué)習(xí)四個(gè)階段。
劉知遠(yuǎn)從宏觀角度介紹DeepSeek R1所代表的大規(guī)模強(qiáng)化學(xué)習(xí)技術(shù)及其基本原理。他認(rèn)為DeepSeek可能是全球第一個(gè)能夠通過(guò)純強(qiáng)化學(xué)習(xí)技術(shù)復(fù)現(xiàn)OpenAI o1能力的團(tuán)隊(duì),并開(kāi)源發(fā)布詳細(xì)技術(shù)介紹。劉知遠(yuǎn)強(qiáng)調(diào),DeepSeek的意義在于它展示了深度思考的能力,類似于2023年初的“ChatGPT時(shí)刻”,讓大家感受到大模型的能力又邁進(jìn)了一步。