指令跟隨大比拼：Meta 發(fā)布多輪多語言基準 Multi-IF，覆蓋 8 種語言超 4500 種任務(wù)

新智元 2024/11/25 14:01:08 責(zé)編：清源

評論：

Meta 全新發(fā)布的基準 Multi-IF 涵蓋八種語言、4501 個三輪對話任務(wù)，全面揭示了當(dāng)前 LLM 在復(fù)雜多輪、多語言場景中的挑戰(zhàn)。所有模型在多輪對話中表現(xiàn)顯著衰減，表現(xiàn)最佳的 o1-preview 模型在三輪對話的準確率從 87.7% 下降到 70.7%；在非拉丁文字語言上，所有模型的表現(xiàn)顯著弱于英語。

在大語言模型（LLMs）不斷發(fā)展的背景下，如何評估這些模型在多輪對話和多語言環(huán)境下的指令遵循（instruction following）能力，成為一個重要的研究方向。

現(xiàn)有評估基準多集中于單輪對話和單語言任務(wù)，難以揭示復(fù)雜場景中的模型表現(xiàn)。

最近，Meta GenAI 團隊發(fā)布了一個全新基準 Multi-IF，專門用于評估 LLM 在多輪對話和多語言指令遵循 (instruction following) 中的表現(xiàn)，包含了 4501 個三輪對話的多語言指令任務(wù)，覆蓋英語、中文、法語、俄語等八種語言，以全面測試模型在多輪、跨語言場景下的指令執(zhí)行能力。

指令跟隨大比拼：Meta 發(fā)布多輪多語言基準 Multi-IF，覆蓋 8 種語言超 4500 種任務(wù)

論文鏈接：https://arxiv.org/abs/2410.15553
Multi-IF下載鏈接：https://huggingface.co/datasets/facebook/Multi-IF

實驗結(jié)果表明，多數(shù) LLM 在多輪對話中表現(xiàn)出顯著的性能衰減。

例如，表現(xiàn)最佳的 o1-preview 模型在第一輪指令的平均準確率為 87.7%，但到第三輪下降至 70.7%

此外，非拉丁文字語言（如印地語、俄語和中文）的錯誤率明顯更高，反映出模型在多語言任務(wù)中的局限性。這些發(fā)現(xiàn)展示了當(dāng)前 LLM 在處理復(fù)雜多輪和多語言指令任務(wù)上的挑戰(zhàn)和改進空間。

Multi-IF 的發(fā)布為研究人員提供了更具挑戰(zhàn)性的評估基準，有望推動 LLM 在全球化、多語言應(yīng)用中的發(fā)展。

數(shù)據(jù)集構(gòu)建

Multi-IF 數(shù)據(jù)集的構(gòu)建過程經(jīng)過了多輪精細的設(shè)計和篩選，既有模型也有人類專家的參與。

多輪擴展

首先，研究團隊基于已有的單輪指令遵循數(shù)據(jù)集 IFEval，將每個單輪指令擴展為多輪指令序列。通過隨機采樣和模型生成，研究團隊為每個初始指令增加了兩輪新指令，形成一個完整的三輪對話場景。

首先隨機采樣一個指令類型（Intruction Type）比如「字數(shù)限制」、「限制輸出格式為列表」、「添加特定關(guān)鍵短語」等等，然后將之前的指令和這個指令類型提供給語言模型，讓它生成一個符合上下文的指令，比如「旅行計劃不超過 400 詞」；隨機采樣可能導(dǎo)致指令之間存在沖突。

為了確保多輪指令的邏輯一致性和層次遞進性，研究團隊設(shè)計了一套兩步?jīng)_突過濾機制：

1. 模型過濾：使用 Llama 3.1 405B 模型自動檢測可能存在矛盾的指令組合。例如，如果第一輪要求生成詳細描述，而第二輪要求簡潔總結(jié)，這種沖突指令會被篩選出來。

2. 人工審核：在初步過濾后，團隊通過人工標(biāo)注對指令進行細化和調(diào)整，以確保每一輪指令既具有挑戰(zhàn)性又保持邏輯連貫。

多語言擴展

為了提高數(shù)據(jù)集的多語言適用性，研究團隊采用了以下方法將數(shù)據(jù)集從英文擴展至多語言版本：

1. 自動翻譯：使用 Llama 3.1 405B 模型將原始英語指令翻譯為中文、法語、俄語、印地語、西班牙語、意大利語和葡萄牙語七種語言。

2. 人工校對：翻譯結(jié)果經(jīng)過語言專家的人工審校，以確保在語義和語法上貼合各語言的自然使用習(xí)慣，同時消除因翻譯可能帶來的歧義或誤導(dǎo)。

這一多輪擴展和多語言適配的構(gòu)建流程，使 Multi-IF 成為全面評估 LLM 指令遵循能力的強大工具。

指令跟隨大比拼：Meta 發(fā)布多輪多語言基準 Multi-IF，覆蓋 8 種語言超 4500 種任務(wù)

總體實驗結(jié)果

在 Multi-IF 基準上，Meta 團隊對 14 種最先進的大語言模型（LLMs）進行了評估，涵蓋了 OpenAI 的 o1-preview、o1-mini，GPT-4o，Llama 3.1（8B、70B 和 405B），Gemini 1.5 系列，Claude 3 系列，Qwen-2.5 72B，以及 Mistral Large 等。

實驗顯示，整體上 o1-preview 和 Llama 3.1 405B 表現(xiàn)最佳，在平均準確率上領(lǐng)先其他模型。特別是在多輪指令任務(wù)中，o1-preview 和 Llama 3.1 405B 模型在三輪指令的平均準確率分別為 78.9% 和 78.1%，展現(xiàn)了較高的指令遵循能力。

指令跟隨大比拼：Meta 發(fā)布多輪多語言基準 Multi-IF，覆蓋 8 種語言超 4500 種任務(wù)

多輪對話中的指令遵循

實驗表明，所有模型在多輪對話中的指令遵循準確率隨著輪次增加而顯著下降。這種下降在某些模型中尤為明顯，如 Qwen-2.5 72B 在第一輪準確率較高，但在后續(xù)輪次中的表現(xiàn)迅速下滑。

相比之下，o1-preview 和 Llama 3.1 405B 在多輪任務(wù)中的準確率相對穩(wěn)定，展現(xiàn)出較強的持續(xù)指令遵循能力?？傮w而言，這些結(jié)果說明，多輪對話對當(dāng)前 LLM 構(gòu)成了較大挑戰(zhàn)，模型在多輪次中遵循指令的能力有待提高。

指令跟隨大比拼：Meta 發(fā)布多輪多語言基準 Multi-IF，覆蓋 8 種語言超 4500 種任務(wù)

多輪對話中的指令遺忘

在多輪對話中，模型往往出現(xiàn)「指令遺忘」現(xiàn)象，即在后續(xù)輪次中未能遵循前一輪成功執(zhí)行的指令，研究團隊引入了「指令遺忘率」（Instruction Forgetting Ratio, IFR）來量化這種現(xiàn)象。

IFR 值表明，高性能模型如 o1-preview 和 Llama 3.1 405B 在多輪對話中的遺忘率相對較低，而有些模型比如 Gemini 在 IFR 值上明顯偏高，表現(xiàn)出較高的指令遺忘傾向。

指令跟隨大比拼：Meta 發(fā)布多輪多語言基準 Multi-IF，覆蓋 8 種語言超 4500 種任務(wù)

此外，對于 Llama 3.1 系列模型，隨著模型規(guī)模從 8B 擴展到 405B，其指令遺忘率（即 IFR）逐漸降低。這表明，增大模型規(guī)模可以有效提升其在多輪對話中保持指令一致性的能力。

多輪對話中的自我糾正

模型在多輪任務(wù)中是否能夠糾正之前的錯誤也是一個重要的性能衡量標(biāo)準，實驗通過計算「錯誤自我修正率」（Error Correction Ratio, ECR）來評估這一能力。

結(jié)果顯示，o1-preview 和 o1-mini 在錯誤自我修正方面表現(xiàn)突出，能夠在后續(xù)輪次中糾正約 25% 的之前未遵循的指令。這些模型似乎能夠利用某種“反思”能力來提高指令執(zhí)行的水平。

指令跟隨大比拼：Meta 發(fā)布多輪多語言基準 Multi-IF，覆蓋 8 種語言超 4500 種任務(wù)

相比之下，其他模型在自我修正方面表現(xiàn)一般，這一結(jié)果表明，具備反思能力的模型在多輪任務(wù)中能夠更好地處理錯誤并提升指令遵循的穩(wěn)定性。

多語言指令遵循

在多語言環(huán)境下，模型的指令遵循能力表現(xiàn)出顯著的語言差異。實驗顯示，英語的指令執(zhí)行準確率普遍最高，尤其是在 Llama 3.1 405B 模型上，英語準確率接近 0.85。法語和意大利語的表現(xiàn)也較為接近英語，而俄語、印地語和中文等非拉丁文字的準確率則明顯較低。

例如，o1-preview 模型在俄語和印地語中的準確率低于其在英語、法語等語言中的表現(xiàn)。總體而言，非拉丁文字語言的錯誤率高于拉丁文字語言，這在多語言指令任務(wù)中尤為突出。

實驗結(jié)果還表明，不同模型在多語言指令遵循中的表現(xiàn)存在一定差異。o1-preview 在所有語言中的表現(xiàn)相對穩(wěn)定，并在中文、西班牙語、意大利語和印地語中稍勝 Llama 3.1 405B，而 GPT-4o 的表現(xiàn)則略遜于前兩者。

指令跟隨大比拼：Meta 發(fā)布多輪多語言基準 Multi-IF，覆蓋 8 種語言超 4500 種任務(wù)

平均而言，非拉丁文字的語言往往會出現(xiàn)更高的指令遵循錯誤，表明當(dāng)前模型在多語言環(huán)境，尤其是對非拉丁文字的支持方面，仍有提升空間。

這些結(jié)果反映出，盡管現(xiàn)有的先進 LLM 在多語言任務(wù)上已經(jīng)展現(xiàn)出一定的能力，但在處理俄語、印地語和中文等非拉丁文字語言的指令遵循任務(wù)時仍存在明顯的局限性。這也為未來多語言模型的改進指出了明確的方向。

結(jié)論

綜上所述，Multi-IF 基準通過多輪對話和多語言環(huán)境的復(fù)雜指令任務(wù)，揭示了當(dāng)前大語言模型在指令遵循能力上的不足之處。

實驗結(jié)果表明，多數(shù)模型在多輪任務(wù)中存在準確率下降和指令遺忘的問題，且在非拉丁文字的多語言任務(wù)中表現(xiàn)較差。Multi-IF 為進一步提升 LLM 的多輪對話和跨語言指令遵循能力提供了重要的參考。

作者介紹

指令跟隨大比拼：Meta 發(fā)布多輪多語言基準 Multi-IF，覆蓋 8 種語言超 4500 種任務(wù)

通訊作者 Yun He（賀赟）是 Meta GenAI 團隊的一名研究科學(xué)家，博士畢業(yè)于 Texas A&M University，專注于大語言模型 Post-training 的研究和應(yīng)用。

他的主要研究方向包括指令跟隨（instruction following）、推理能力（Reasoning）以及工具使用（tool usage），旨在推動大語音模型在復(fù)雜多輪對話中的表現(xiàn)。

指令跟隨大比拼：Meta 發(fā)布多輪多語言基準 Multi-IF，覆蓋 8 種語言超 4500 種任務(wù)

共同一作金帝是 Meta GenAI Senior Research Scientist，負責(zé) Meta AI Agentic Code Execution 和 Data Analysis 方向，博士畢業(yè)于 MIT。

主要研究方向為大模型后訓(xùn)練對齊（RLHF，Alignment），模型推（Model Reasoning），和大模型智能體（Agent）方向。

參考資料：

https://arxiv.org/abs/2410.15553

本文來自微信公眾號：微信公眾號（ID：null），作者：新智元

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

指令跟隨大比拼：Meta 發(fā)布多輪多語言基準 Multi-IF，覆蓋 8 種語言超 4500 種任務(wù)

數(shù)據(jù)集構(gòu)建

總體實驗結(jié)果

結(jié)論

作者介紹

相關(guān)文章

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

指令跟隨大比拼：Meta 發(fā)布多輪多語言基準 Multi-IF，覆蓋 8 種語言超 4500 種任務(wù)

數(shù)據(jù)集構(gòu)建

總體實驗結(jié)果

結(jié)論

作者介紹

相關(guān)文章

指令跟隨大比拼：Meta 發(fā)布多輪多語言基準 Multi-IF，覆蓋 8 種語言超 4500 種任務(wù)