中國電信發(fā)布單體稠密萬億參數(shù)語義模型 用了普通訓練方案9%的算力資源
6月19日,中國電信人工智能研究院(TeleAI)與北京智源人工智能研究院合作,推出了全球首個單體稠密萬億參數(shù)的語義模型——Tele-FLM-1T。這一成就使TeleAI成為國內率先進入稠密萬億參數(shù)大模型領域的機構之一。
針對大模型訓練過程中高算力消耗的問題,TeleAI與智源的研究團隊采用了模型生長和損失預測等創(chuàng)新技術,共同研發(fā)Tele-FLM系列模型。與業(yè)界常規(guī)訓練方案相比,這一方法顯著降低了算力需求,僅使用了9%的算力資源。通過112臺A800服務器,在四個月的時間內,團隊成功完成了3個模型總計2.3萬億tokens的訓練任務。
中國電信表示,Tele-FLM-1T模型即將開放源代碼,旨在為行業(yè)提供萬億稠密模型訓練的技術參考案例,助力解決模型訓練中可能出現(xiàn)的收斂難題。
作為率先布局并開放大模型的央企研究機構,TeleAI在過去一年中展現(xiàn)了其在該領域的持續(xù)進步。繼去年推出千億參數(shù)級別的“星辰”語義大模型之后,今年2月,“星辰”大模型通過了“境內深度合成服務算法備案”。5月15日,根據(jù)相關公告,“星辰”大模型再度完成產(chǎn)品備案,這意味著它已具備正式對外提供生成式人工智能服務的資格。
在開源領域,TeleAI持續(xù)發(fā)力,相繼公布了7B、12B、52B參數(shù)規(guī)模的大模型。隨著TeleChat系列模型的問世,TeleAI還對其多個大模型應用項目實施了性能升級,例如,在某城市民服務項目中,集成TeleChat-52B模型后,整體服務效能提高了40%。
2024世界人工智能大會與人工智能全球治理高級別會議于7月4日在上海拉開帷幕。會上,百度的創(chuàng)始人、董事長兼CEO李彥宏進行了主題演講,分享了他對當前人工智能領域發(fā)展的一些見解
2024-07-04 15:59:30李彥宏批“百模大戰(zhàn)”:“卷模型”造成巨大的算力浪費民生證券最近的研究報告強調,量子計算作為一種前沿技術,有望突破人工智能算力限制,帶來顛覆性變革。它與傳統(tǒng)計算方法不同,不僅大幅增強了數(shù)據(jù)處理的并行性,還顯著降低了能源消耗
2024-05-21 13:26:39機構:量子計算有望解決AI算力瓶頸黃仁勛最近親自向OpenAI贈送了全球首臺Nvidia DGX H200超級計算機,這一舉動再次凸顯了英偉達與領先研究機構在推動AI、計算及人類進步方面的合作
2024-04-30 09:08:51黃仁勛的“人肉快遞”6月7日,阿里云在技術博客上宣布了一個重要進展:他們發(fā)布了名為Qwen2-72B的開源模型,這款模型在全球范圍內以其卓越的性能脫穎而出
2024-06-07 10:49:47阿里云發(fā)布開源模型Qwen26月20日,Anthropic發(fā)布了一款名為Claude 3.5 Sonnet的AI模型,這款模型在多個領域超越了競爭對手,包括GPT-4o及自家的Claude 3 Opus
2024-06-21 10:45:07Claude3.5突然發(fā)布!GPT-4o不香了