娛樂 2026-01-04 12:28:18 223

26年春節又熱鬧了新論文暗示DeepSeek V4已完成訓練

1月2日消息，年春剛剛過去的節又2025年中，萬眾期待的熱鬧DeepSeek全新大模型沒有問世，但是新論DeepSeek并沒有閑著，這一年中繼續打磨了DeepSeek V3.X大模型，文暗還發布了多項新技術。已完

2026年元旦假期，成訓DeepSeek又發了一個新論文，年春提出了名為“流形約束超連接”(mHC)的節又框架，又一次引發了熱議。熱鬧

這篇論文非常專業，新論術語太多，文暗普通人很難理解，已完感興趣的成訓網友可以從微博、知乎、年春公眾號等渠道搜索專業人士的解讀。

殘差連接是字節公司的何愷明于2016年提出的一種深度學習技術，十年來這個技術領域成為AI大模型研究的一個突破點，2024年業界提出了HC（Hyper-Connections）超連接的概念，但HC的問題在于累積多了就不穩定了。

DeepSeek新論文中提到，他們以27B參數的模型訓練為例，HC在大約1200步時就會損失激增，放大倍數峰值達到了3000，訓練要崩潰了，沒法持續下去。

他們提出的mHC技術就是解決這個問題的，控制總量不變，理論上將放大倍數控制在了1，實際能做到了大約1.6，相比3000倍的放大倍數極大地降低了，能讓訓練全程穩定。

DeepSeek也在論文中公布了mHC技術的效果，在 27B 參數模型的測試中，mHC訓練時間僅增加6.7%，但復雜推理任務從 43.8%提升到了51.0%，閱讀理解任務從47.0% 提升到 53.9%。

用普通人能理解的方法來解釋，殘差連接是開辟了一條AI大模型的新型高速公路，HC技術提高了車道數，但會車速越快越容易失控，DeepSeek的mHC相當于裝了紅綠燈，確保高速的同時也不失控。

更值得關注的是，在這個論文中DeepSeek提到他們在mHC技術研究的結論已經得到了內部大規模實驗的進一步證實。

這一句話暗示DeepSeek已經完成了新一代基座大模型DeepSeek V4的訓練，雖然這事本身已經不是什么新聞，現在大家最關心的是DeepSeek V4什么時候發布。

參考去年DeepSeek R1的節點，DeepSeek V4應該會在春節期間發布，也就是2月初，這也是很多網友期待的時間點，年度大餐就指望它了。

更關鍵的則是DeepSeek V4會帶來多大的影響，去年的DeepSeek V3/R1一舉讓開源大模型登頂，意義是非凡的，今年的DeepSeek V4也需要有這樣的創舉才行。

DeepSeek V4可以確定的是會支持FP8算子，會支持國產AI芯片訓練，應該會是多模態的。

最后，此前傳聞以后不會有DeepSeek R2這種推理大模型了，但是考慮到當前的形勢，一切都不好說，DeepSeek也可以針對現實將大模型分為兩個方向，V4專攻通用市場，R2做Claude這樣的專用大模型，在編程上給業界帶來一點震撼。