還對真正增進對當前大模型功能和局限性理解的工作感興趣,無論在經(jīng)驗上還是理論上。
陳丹琦團隊的大模型工作,量子位也有持續(xù)關(guān)注。
比如,提出的大模型降本大法——數(shù)據(jù)選擇算法LESS,只篩選出與任務最相關(guān)5%數(shù)據(jù)來進行指令微調(diào),效果比用整個數(shù)據(jù)集還要好。
而指令微調(diào)正是讓基礎(chǔ)模型成為類ChatGPT助手模型的關(guān)鍵一步。
提出爆火的“羊駝剪毛”大法——LLM-Shearing大模型剪枝法,只用3%的計算量、5%的成本取得SOTA,統(tǒng)治了1B-3B規(guī)模的開源大模型。
除了這兩位,業(yè)界、學術(shù)界姚班校友在搞大模型的還有很多。
之前火爆全網(wǎng)的大模型原生應用《完蛋!我被大模型包圍了》及其續(xù)作《我把大模型玩壞了》,就是由姚班學霸帶隊開發(fā)的。
游戲作者
范浩強
,曠視6號員工。當年以IOI金牌、保送清華姚班、高二實習等傳奇事跡被譽為天才少年。如今他已是曠視科技研究總經(jīng)理,谷歌學術(shù)h-index 32的行業(yè)大佬。
馬斯克xAI首個研究成果——Tensor Programs VI,共同一作中也有姚班校友的身影。
Tensor Programs VI是xAI創(chuàng)始成員、丘成桐弟子楊格
(Greg Yang)
之前Tensor Programs系列工作的延續(xù),論文重點探討了“如何訓練無限深度網(wǎng)絡(luò)”。
據(jù)說Tensor Programs相關(guān)成果,在GPT-4中已有應用。為解讀論文,楊格本人當時還專門在X上進行了一場直播分享。
共同一作
Dingli Yu
,本科畢業(yè)于清華姚班,目前Dingli Yu也快要在普林斯頓計算機科學系博士畢業(yè)了。
7月8日早晨9點10分,四川省2024年的第一封大學錄取通知書從四川大學望江校區(qū)啟程,預示著接下來四川省的考生們將會陸陸續(xù)續(xù)收到屬于自己的大學錄取通知
2024-07-08 10:03:00四川首封高考錄取通知書來了隨著2024年高考落下帷幕,煙臺市的教育成果再次成為亮點。該市共有13名學生在全省排名前100,7名更是闖入前50,這份驕人的成績映射出煙臺教育的深厚底蘊
2024-07-08 10:08:28高考706分的煙臺考生王銘宇:想去清華大學姚班高考進程過半,部分“學霸”已提前完成了他們的考試征程。根據(jù)浙江現(xiàn)行的新高考制度,學生在首考中若取得滿意成績,可選擇在后續(xù)的正式高考中免試某些科目。
2024-06-11 14:56:07學霸1天考完高考江蘇省中醫(yī)院消化系腫瘤外科主任姚學權(quán),在經(jīng)歷6年與癌癥的斗爭后,于2024年7月12日下午2時28分在南京離世,終年59歲
2024-07-16 20:00:5859歲腫瘤專家姚學權(quán)病逝