當前位置：首頁 > 百科 > Kimi最強開源思考模型 Kimi K2 Thinking發(fā)布：推理等超越GPT

Kimi最強開源思考模型 Kimi K2 Thinking發(fā)布：推理等超越GPT

發(fā)表于 2025-11-22 05:42:51 來源：企業(yè)錄(www.155tp.com)-公司信息發(fā)布,網(wǎng)上買賣交易門戶

11月7日消息，最強日前，開源月之暗面宣布發(fā)布Kimi K2 Thinking，思考這是模型Kimi 迄今能力最強的開源思考模型。

目前，布推該模型已上線kimi.com和最新版Kimi手機應用的最強常規(guī)對話模式。

據(jù)了解，開源Kimi K2 Thinking原生掌握“邊思考，思考邊使用工具”的模型能力，在人類最后的布推考試（Humanity's Last Exam）、自主網(wǎng)絡瀏覽能力（BrowseComp）、最強復雜信息收集推理（SEAL-0）等多項基準測試中表現(xiàn)達到SOTA水平，開源超越GPT-5。思考

在Agentic搜索、模型Agentic編程、布推寫作和綜合推理能力等方面也取得全面提升。

據(jù)介紹，該模型無需人類干預，即可自主實現(xiàn)高達300輪的工具調用和持續(xù)穩(wěn)定的多輪思考能力，從而幫助用戶解決更復雜的問題。

人類最后的考試是一項涵蓋100多個專業(yè)領域的終極封閉式學術測試。

在允許使用工具——搜索、Python、網(wǎng)絡瀏覽工具的同等情況下，Kimi K2 Thinking在這項基準評測中取得了44.9%的SOTA成績。

根據(jù)官方示例顯示，Kimi K2 Thinking經(jīng)過5輪搜索和推理，結合每輪搜索到的新信息，層層深入，最終推理出了答案：

此外，在復雜搜索和瀏覽場景中，Kimi K2 Thinking模型也表現(xiàn)出色。

BrowseComp是由OpenAI發(fā)布的一個專門評估AI Agent網(wǎng)絡瀏覽能力的基準測試，這項測試的初衷是衡量AI Agent在信息過載環(huán)境中展現(xiàn)出的堅持性與創(chuàng)造力，即能否像人類研究員一樣“刨根問底”。

在這項極具挑戰(zhàn)的任務上，人類平均只能達到29.2%的成績。

Kimi K2 Thinking在這項基準測試中展現(xiàn)出極強的鉆研能力，以60.2%的成績成為新的SOTA模型。

在長程規(guī)劃和自主搜索能力的驅動下，Kimi K2 Thinking可借助多達上百輪的“思考→搜索→瀏覽網(wǎng)頁→思考→編程”動態(tài)循環(huán)，持續(xù)地提出并完善假設、驗證證據(jù)、進行推理，并構建出邏輯一致的答案。

這種邊主動搜索邊持續(xù)思考的能力，使Kimi K2 Thinking能夠將模糊且開放式的問題分解為清晰、可執(zhí)行的子任務。

在官方示例中，Kimi K2 Thinking經(jīng)過兩輪搜索和思考，先根據(jù)股票回購的已知信息找到了這家制造快速的公司，然后在美國證券交易委員會（SEC）的官網(wǎng)上找到了股票回購公告信息，得出了準確的答案：

上一篇：蔚來發(fā)布雪松1.3.5系統(tǒng)：六大升級巡航紅綠燈來了
下一篇：小米具身大模型MiMo

喜歡63 討厭68

隨機為您推薦

熱門文章

全球最速量產(chǎn)車！仰望U9 Xtreme橫掃國內四大專業(yè)賽道
大疆 Mini 5 Pro深度評測：1 英寸大底加持入門級無人機迎來畫質天花板
滿血40Gbps速率！LaCie Rugged SSD4金剛鉆Plus評測：移動數(shù)據(jù)最佳載體專業(yè)人士的不二選擇
復購率超行業(yè)均值28% 上鮮無抗雞翅中憑何成為京東上的“爆款”
華為打通蘋果生態(tài)！鴻蒙星河互聯(lián)App上架App Store：支持文件互傳
6TB空間滿血下載！夸克網(wǎng)盤SVIP大促年卡96元新低
隨身攜帶的135英寸巨幕！雷鳥 Air 4 Pro評測：全球首款HDR智能眼鏡
首發(fā)第五代驍龍8至尊版！小米17 Pro Max評測：五年高端之路的集大成者
AI重構工作方式中國全球新能源500強企業(yè)一半用釘釘
滿血40Gbps速率！LaCie Rugged SSD4金剛鉆Plus評測：移動數(shù)據(jù)最佳載體專業(yè)人士的不二選擇

文章排行