您現在的位置是：熱點 >>正文

SuperCLUE最新評測：360zhinao3

熱點3343人已圍觀

簡介近日，中文精確指令遵循測評基準SuperCLUE-CPIF）正式發布，360zhinao3-o1.5以78.97分位居國產大模型第一，在任務類型、指令數量兩類劃分中均為國內榜首，其在精確指令遵循上的卓 ...

近日，新評中文精確指令遵循測評基準（SuperCLUE-CPIF）正式發布，新評360zhinao3-o1.5以78.97分位居國產大模型第一，新評在任務類型、新評指令數量兩類劃分中均為國內榜首，新評其在精確指令遵循上的新評卓越表現，正是新評AI技術提升“可用性”和“實用性”、從實驗室走向大規模產業應用的新評關鍵一步。

本次測評涵蓋 GPT-5.1(high)、新評Gemini-3-Pro-Preview、新評GPT-5(high)、新評DeepSeek-V3.2-Exp-Thinking、新評Claude-Sonnet-4.5-Reasoning等共15個國內外模型參與。新評基于實際生產環境特點，新評SuperCLUE-CPIF 重點評估大型語言模型（LLM）在中文環境下精確遵循復雜、新評多約束指令的能力。測評結果顯示，國產主流大模型中，360zhinao3-o1.5以78.97分位居國產大模型第一，ERNIE-X1.1和DeepSeek-V3.2-Exp-Thinking 分別以75.90分和74.36分位居國內二、三。

（圖說：SuperCLUE-CPIF 測評截圖）

360zhinao3-o1.5指令遵循訓練部分的工作已經發布在論文Light-IF系列上。該模型直面現有大語言模型在處理交織多重約束的復雜指令時普遍存在的“懶惰推理”現象，通過自動化指令構建與難度感知強化學習兩大核心技術，驅動模型從被動執行向“主動檢查-修改-再檢查”的演進，顯著提升了在復雜指令下的精準遵循度。

（圖說：Light-IF系列模型論文發表）

另外，360zhinao3-o1.5的訓練模型Light-IF論文曾被頂會AAAI 2026成功收錄。據悉，AAAI 2025共收到12957篇有效投稿，錄用3032篇，錄取率為23.4%，其中Oral論文占比4.6%。而AAAI 2026的投稿量進一步飆升至23680篇，僅錄用4167篇，錄取率降至17.6%，Oral錄用率更是進一步降低。Light-IF能在如此激烈的競爭中脫穎而出，可見其在精準指令遵循上的突破性。值得一提的是，Light-IF系列模型已陸續在Hugging Face開源，供全球開發者使用、對比與復現。

將小參數模型的能力推向極致，是360智腦團隊持續深耕的技術路徑。此前，360與北京大學聯合研發的Tiny-R1-32B模型，僅以5%的參數量便在數學等領域逼近了千億級模型的性能，是一次在模型優化與融合上的深厚積累。這種對“小而精”垂類模型的持續打磨，為AI智能體（Agent）的爆發奠定了堅實基礎。

Tags：

上一篇：石頭科技亮相2025中國高端家電價值增長峰會：以技術創新重構清潔價值

下一篇：小鵬IRON機械骨骼細節照感受下：既酷又悲壯

全運賽場 “新”潮澎湃（全運大視野）
熱點
第十五屆全國運動會的比賽已近尾聲，中國體育健兒奮力拼搏的身影在粵港澳三地躍動。全運賽場上的新力量、新項目、新變化，描繪著中國體育的無限精彩。新力量本屆全運會，山東隊游泳選手張展碩吸引了不少目光，18歲 ...

2025-11-22 07:17【熱點】
閱讀更多
長征十一號運載火箭發射成功
熱點
中新社北京11月9日電 11月9日5時01分，中國太原衛星發射中心在山東海陽附近海域使用長征十一號運載火箭，成功將試驗三十二號衛星01星、02星、03星發射升空，衛星順利進入預定軌道。該衛星主要用于開 ...

2025-11-22 06:58【熱點】
閱讀更多
江蘇規模最大越野賽事在宜興舉行
熱點
中新網宜興11月9日電 (記者唐娟)11月8日至9日，樂祺·2025無錫宜興陽羨100越野挑戰賽(簡稱“陽羨100越野賽”)在江蘇宜興舉行。3500名來自全球15個國家和地區的越野愛好者奔赴山野，在 ...

2025-11-22 06:09【熱點】
閱讀更多

友情鏈接

（粵港澳全運會）張雨霏奪得全運會50米蝶泳冠軍
RTX 5050借冰箱散熱：頻率激增23%至3.5GHz！打破世界紀錄
《半條命3》要來了！最快兩周內公布：明年3月發售

您現在的位置是：熱點 >>正文

SuperCLUE最新評測：360zhinao3

相關文章

全運賽場 “新”潮澎湃（全運大視野）

長征十一號運載火箭發射成功

江蘇規模最大越野賽事在宜興舉行

熱門文章

最新文章

友情鏈接