IT之家 6 月 21 日消息,IT之家從月之暗面 Kimi 公眾號(hào)獲悉,Kimi 的第一個(gè) Agent(智能體)Kimi-Researcher 于 20 日開啟小范圍灰度測(cè)試。

Kimi-Researcher 是基于端到端自主強(qiáng)化學(xué)習(xí)(end-to-end agentic RL)技術(shù)訓(xùn)練的新一代 Agent 模型,也是一個(gè)專為深度研究任務(wù)而生的 Agent 產(chǎn)品。其后,月之暗面也將逐步開源 Kimi-Researcher 基礎(chǔ)預(yù)訓(xùn)練模型及強(qiáng)化學(xué)習(xí)后的模型。
對(duì)于每一個(gè)問題,Kimi-Researcher 都會(huì)自主規(guī)劃任務(wù)執(zhí)行流程,最終交付完整結(jié)果:
澄清問題(clarification):理解問題時(shí)主動(dòng)反問,構(gòu)建更清晰的問題空間;
深入思考:每個(gè)任務(wù)平均進(jìn)行 23 步推理,自主梳理并解決需求;
主動(dòng)搜索:每個(gè)任務(wù),平均規(guī)劃 74 個(gè)關(guān)鍵詞,找到 206 個(gè)網(wǎng)址,由模型判斷并篩選出信息質(zhì)量最高的前 3.2% 內(nèi)容,剔除冗余、低質(zhì)信息;
調(diào)用工具,交付結(jié)果:自主調(diào)用瀏覽器、代碼等工具,處理原始數(shù)據(jù)、自動(dòng)生成分析結(jié)論,端到端完成交付。
為了保證輸出的質(zhì)量和信息覆蓋度,Kimi-Researcher 采用異步執(zhí)行方式,用更多時(shí)間逐步推理、檢索和撰寫內(nèi)容。

用戶最終將收到 2 個(gè)交付成果。
一份信息詳實(shí)、可溯源的深度研究報(bào)告
報(bào)告的平均長(zhǎng)度在萬字以上;
平均引用約 26 個(gè)高質(zhì)量、可溯源的信源;
所有引用都內(nèi)嵌在正文中,點(diǎn)擊即可跳轉(zhuǎn),并高亮原文,便于驗(yàn)證與追溯。

一個(gè)可交互、可分享的動(dòng)態(tài)可視化報(bào)告
結(jié)構(gòu)化排版、思維導(dǎo)圖,讓趨勢(shì)、異常等重要信息一眼可見;
無需閱讀全文,也能迅速把握整體結(jié)構(gòu)與核心結(jié)論;
支持在線生成鏈接并分享,方便展示。

官方宣布,在專為 AI 設(shè)計(jì)的高難度 benchmark“人類最后一次考試(Humanity's Last Exam,HLE)”中,Kimi-Researcher 在完全零結(jié)構(gòu)、無流程設(shè)計(jì)的設(shè)置下,得分如下:
Pass@1 準(zhǔn)確率:26.9%
Pass@4 準(zhǔn)確率:40.17%
這一表現(xiàn)超過了 Claude 4 Opus(10.7%)、Gemini 2.5 Pro(21.6%),略高于 OpenAI Deep Research(26.6%),和 Gemini-Pro 的 Deep Research Agent(26.9%)打平,是目前已知最高水平之一。在紅杉中國(guó)發(fā)布的 xbench 基準(zhǔn)測(cè)試中 —— 一套對(duì)齊真實(shí)任務(wù)場(chǎng)景的 AI 能力評(píng)估體系,Kimi-Researcher 在 DeepSearch 任務(wù)中取得 69% 的平均通過率,領(lǐng)先該榜中其他模型。

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。