月之暗面 Kimi-Researcher 深度研究模型開啟內(nèi)測(cè)：可生成易追溯的萬字報(bào)告

2025/6/21 8:34:54 來源：IT之家作者：清源責(zé)編：清源

評(píng)論：

IT之家 6 月 21 日消息，IT之家從月之暗面 Kimi 公眾號(hào)獲悉，Kimi 的第一個(gè) Agent（智能體）Kimi-Researcher 于 20 日開啟小范圍灰度測(cè)試。

Kimi-Researcher 是基于端到端自主強(qiáng)化學(xué)習(xí)（end-to-end agentic RL）技術(shù)訓(xùn)練的新一代 Agent 模型，也是一個(gè)專為深度研究任務(wù)而生的 Agent 產(chǎn)品。其后，月之暗面也將逐步開源 Kimi-Researcher 基礎(chǔ)預(yù)訓(xùn)練模型及強(qiáng)化學(xué)習(xí)后的模型。

對(duì)于每一個(gè)問題，Kimi-Researcher 都會(huì)自主規(guī)劃任務(wù)執(zhí)行流程，最終交付完整結(jié)果：

澄清問題（clarification）：理解問題時(shí)主動(dòng)反問，構(gòu)建更清晰的問題空間；
深入思考：每個(gè)任務(wù)平均進(jìn)行 23 步推理，自主梳理并解決需求；
主動(dòng)搜索：每個(gè)任務(wù)，平均規(guī)劃 74 個(gè)關(guān)鍵詞，找到 206 個(gè)網(wǎng)址，由模型判斷并篩選出信息質(zhì)量最高的前 3.2% 內(nèi)容，剔除冗余、低質(zhì)信息；
調(diào)用工具，交付結(jié)果：自主調(diào)用瀏覽器、代碼等工具，處理原始數(shù)據(jù)、自動(dòng)生成分析結(jié)論，端到端完成交付。

為了保證輸出的質(zhì)量和信息覆蓋度，Kimi-Researcher 采用異步執(zhí)行方式，用更多時(shí)間逐步推理、檢索和撰寫內(nèi)容。

用戶最終將收到 2 個(gè)交付成果。

一份信息詳實(shí)、可溯源的深度研究報(bào)告

報(bào)告的平均長(zhǎng)度在萬字以上；
平均引用約 26 個(gè)高質(zhì)量、可溯源的信源；
所有引用都內(nèi)嵌在正文中，點(diǎn)擊即可跳轉(zhuǎn)，并高亮原文，便于驗(yàn)證與追溯。

一個(gè)可交互、可分享的動(dòng)態(tài)可視化報(bào)告

結(jié)構(gòu)化排版、思維導(dǎo)圖，讓趨勢(shì)、異常等重要信息一眼可見；
無需閱讀全文，也能迅速把握整體結(jié)構(gòu)與核心結(jié)論；
支持在線生成鏈接并分享，方便展示。

官方宣布，在專為 AI 設(shè)計(jì)的高難度 benchmark“人類最后一次考試（Humanity's Last Exam,HLE）”中，Kimi-Researcher 在完全零結(jié)構(gòu)、無流程設(shè)計(jì)的設(shè)置下，得分如下：

Pass@1 準(zhǔn)確率：26.9%
Pass@4 準(zhǔn)確率：40.17%

這一表現(xiàn)超過了 Claude 4 Opus（10.7%）、Gemini 2.5 Pro（21.6%），略高于 OpenAI Deep Research（26.6%），和 Gemini-Pro 的 Deep Research Agent（26.9%）打平，是目前已知最高水平之一。在紅杉中國(guó)發(fā)布的 xbench 基準(zhǔn)測(cè)試中 —— 一套對(duì)齊真實(shí)任務(wù)場(chǎng)景的 AI 能力評(píng)估體系，Kimi-Researcher 在 DeepSearch 任務(wù)中取得 69% 的平均通過率，領(lǐng)先該榜中其他模型。

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

月之暗面 Kimi-Researcher 深度研究模型開啟內(nèi)測(cè)：可生成易追溯的萬字報(bào)告

相關(guān)文章