1月2日消息,年春剛剛過去的節又2025年中,萬眾期待的熱鬧DeepSeek全新大模型沒有問世,但是新論DeepSeek并沒有閑著,這一年中繼續打磨了DeepSeek V3.X大模型,文暗還發布了多項新技術。已完
2026年元旦假期,成訓DeepSeek又發了一個新論文,年春提出了名為“流形約束超連接”(mHC)的節又框架,又一次引發了熱議。熱鬧
這篇論文非常專業,新論術語太多,文暗普通人很難理解,已完感興趣的成訓網友可以從微博、知乎、年春公眾號等渠道搜索專業人士的解讀。
殘差連接是字節公司的何愷明于2016年提出的一種深度學習技術,十年來這個技術領域成為AI大模型研究的一個突破點,2024年業界提出了HC(Hyper-Connections)超連接的概念,但HC的問題在于累積多了就不穩定了。
DeepSeek新論文中提到,他們以27B參數的模型訓練為例,HC在大約1200步時就會損失激增,放大倍數峰值達到了3000,訓練要崩潰了,沒法持續下去。
他們提出的mHC技術就是解決這個問題的,控制總量不變,理論上將放大倍數控制在了1,實際能做到了大約1.6,相比3000倍的放大倍數極大地降低了,能讓訓練全程穩定。
DeepSeek也在論文中公布了mHC技術的效果,在 27B 參數模型的測試中,mHC訓練時間僅增加6.7%,但復雜推理任務從 43.8%提升到了51.0%,閱讀理解任務從47.0% 提升到 53.9%。
用普通人能理解的方法來解釋,殘差連接是開辟了一條AI大模型的新型高速公路,HC技術提高了車道數,但會車速越快越容易失控,DeepSeek的mHC相當于裝了紅綠燈,確保高速的同時也不失控。
更值得關注的是,在這個論文中DeepSeek提到他們在mHC技術研究的結論已經得到了內部大規模實驗的進一步證實。
這一句話暗示DeepSeek已經完成了新一代基座大模型DeepSeek V4的訓練,雖然這事本身已經不是什么新聞,現在大家最關心的是DeepSeek V4什么時候發布。
參考去年DeepSeek R1的節點,DeepSeek V4應該會在春節期間發布,也就是2月初,這也是很多網友期待的時間點,年度大餐就指望它了。
更關鍵的則是DeepSeek V4會帶來多大的影響,去年的DeepSeek V3/R1一舉讓開源大模型登頂,意義是非凡的,今年的DeepSeek V4也需要有這樣的創舉才行。
DeepSeek V4可以確定的是會支持FP8算子,會支持國產AI芯片訓練,應該會是多模態的。
最后,此前傳聞以后不會有DeepSeek R2這種推理大模型了,但是考慮到當前的形勢,一切都不好說,DeepSeek也可以針對現實將大模型分為兩個方向,V4專攻通用市場,R2做Claude這樣的專用大模型,在編程上給業界帶來一點震撼。