在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

阿里千問(wèn)推出新一代 Agent 基準(zhǔn)測(cè)試 DeepPlanning,已在 Hugging Face 開(kāi)源

2026/1/30 22:14:10 來(lái)源:IT之家 作者:潞源(實(shí)習(xí)) 責(zé)編:潞源
感謝IT之家網(wǎng)友 斯文當(dāng)不了飯吃、DomadoNuc_F 的線索投遞!

IT之家 1 月 30 日消息,阿里千問(wèn)今天在公眾號(hào)平臺(tái)發(fā)文,宣布推出新一代 Agent 基準(zhǔn)測(cè)試 DeepPlanning。

據(jù)介紹,DeepPlanning 與傳統(tǒng)的推理任務(wù)截然不同,要求 AI 在面對(duì)現(xiàn)實(shí)世界的復(fù)雜規(guī)劃時(shí)通盤(pán)考慮,不能只專(zhuān)注于局部

例如:多日旅行規(guī)劃要精確到分鐘級(jí)排期,同時(shí)守住時(shí)間、預(yù)算的硬上限;復(fù)雜購(gòu)物場(chǎng)景要懂得疊加優(yōu)惠券、知道如何動(dòng)態(tài)組合商品才能滿減,以實(shí)現(xiàn)整體價(jià)格最優(yōu)。而且這些“硬要求”不只是讓 AI 單純?cè)谀囊徊酵瓿删秃?/strong>,必須貫穿整個(gè)計(jì)劃始終。

最終實(shí)測(cè)結(jié)果表明,即使是目前頂尖的 GPT-5.2、Claude 4.5、Gemini 以及 Qwen 3 模型,在全局優(yōu)化以及長(zhǎng)周期一致性上仍存在部分短板,距離真正成為擁有 100% 自主決策能力的“行動(dòng)派”還有一定距離。

值得注意的是,阿里千問(wèn)還在 Hugging Face 和 ModelScope 平臺(tái)開(kāi)源了這款基準(zhǔn),IT之家附上鏈接如下:

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:DeepPlanning,阿里千問(wèn)

軟媒旗下網(wǎng)站: IT之家 最會(huì)買(mǎi) - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買(mǎi) 要知