基準(zhǔn)測(cè)試揭秘大模型“字?jǐn)?shù)危機(jī)”：26 個(gè)模型長(zhǎng)文本生成普遍拉胯，最大輸出長(zhǎng)度過(guò)度宣傳

量子位 2025/5/29 14:57:53 責(zé)編：清源

評(píng)論：

你是否曾對(duì)大語(yǔ)言模型（LLMs）下達(dá)過(guò)明確的“長(zhǎng)度指令”？

比如，“寫(xiě)一篇 10,000 字的長(zhǎng)文，詳細(xì)分析某個(gè)議題。”看似簡(jiǎn)單的要求，實(shí)際卻往往讓這些模型“力不從心”：

不是生成內(nèi)容不足，就是重復(fù)啰嗦，甚至直接罷工拒絕生成。

一篇最新研究論文《LIFEBENCH: Evaluating Length Instruction Following in Large Language Models》對(duì)這一問(wèn)題進(jìn)行了深入探討，提出了一個(gè)全新的基準(zhǔn)測(cè)試集 LIFEBENCH，系統(tǒng)評(píng)估大語(yǔ)言模型在長(zhǎng)度指令遵循方面的表現(xiàn)。

研究結(jié)果揭示：這些看似無(wú)所不能的模型在長(zhǎng)度指令，特別是長(zhǎng)文本生成任務(wù)中，表現(xiàn)不盡人意。當(dāng)模型被明確要求生成特定長(zhǎng)度的文本時(shí)，大多數(shù)模型表現(xiàn)糟糕。

接下來(lái)，讓我們一起來(lái)看看這篇論文是如何揭示這些“瓶頸”的！

基準(zhǔn)測(cè)試揭秘大模型“字?jǐn)?shù)危機(jī)”：26 個(gè)模型長(zhǎng)文本生成普遍拉胯，最大輸出長(zhǎng)度過(guò)度宣傳

LIFEBENCH：專注長(zhǎng)度指令遵循的基準(zhǔn)測(cè)試

LIFEBENCH，全稱“Length Instruction Following Evaluation Benchmark”，是一套專門(mén)評(píng)估大語(yǔ)言模型在長(zhǎng)度指令下表現(xiàn)的測(cè)試集。它不僅覆蓋了從短篇到長(zhǎng)文的多種長(zhǎng)度范圍，還囊括了多種任務(wù)類型和語(yǔ)言，全面揭示了大模型在長(zhǎng)度控制上的能力邊界。

基準(zhǔn)測(cè)試揭秘大模型“字?jǐn)?shù)危機(jī)”：26 個(gè)模型長(zhǎng)文本生成普遍拉胯，最大輸出長(zhǎng)度過(guò)度宣傳

LIFEBENCH 的三大核心特性：

數(shù)據(jù)集的多樣性

為了測(cè)試模型的全方位能力，LIFEBENCH 設(shè)計(jì)了多維度的數(shù)據(jù)集：

任務(wù)多樣性：涵蓋四類自然語(yǔ)言生成（NLG）任務(wù)，包括問(wèn)答、摘要、推理和創(chuàng)意生成，以全面評(píng)估模型的長(zhǎng)度指令遵循能力。
長(zhǎng)短結(jié)合的輸入場(chǎng)景：測(cè)試數(shù)據(jù)既包含短輸入（<2000 字），也包含長(zhǎng)輸入（>2000 字），以評(píng)估模型在不同輸入規(guī)模下的表現(xiàn)。
雙語(yǔ)支持：同時(shí)支持中文和英文任務(wù)，分別從獨(dú)立數(shù)據(jù)集中構(gòu)建，以便分析模型是否存在語(yǔ)言偏差。

全面的長(zhǎng)度范圍與指令類型

LIFEBENCH 是首個(gè)系統(tǒng)性評(píng)估模型長(zhǎng)度指令遵循能力的基準(zhǔn)測(cè)試，它設(shè)計(jì)了三種常見(jiàn)的長(zhǎng)度控制方法：

等于（Equal To）：生成長(zhǎng)度必須等于目標(biāo)長(zhǎng)度。
不超過(guò)（At Most）：生成長(zhǎng)度不得超過(guò)目標(biāo)長(zhǎng)度。
至少（At Least）：生成長(zhǎng)度必須達(dá)到目標(biāo)長(zhǎng)度。

同時(shí)，長(zhǎng)度輸出范圍覆蓋從短文本（<100 字）、中等長(zhǎng)度（100–2000 字）到長(zhǎng)文本（>2000 字）的任務(wù)，評(píng)測(cè)的全面性遠(yuǎn)超以往研究。

創(chuàng)新的評(píng)測(cè)指標(biāo)

為了更精準(zhǔn)地分析模型的表現(xiàn)，LIFEBENCH 提出了兩項(xiàng)專門(mén)指標(biāo)：

長(zhǎng)度偏差（Length Deviation, LD）：衡量生成文本長(zhǎng)度與目標(biāo)長(zhǎng)度之間的差異，包括偏差方向和偏差幅度。

基準(zhǔn)測(cè)試揭秘大模型“字?jǐn)?shù)危機(jī)”：26 個(gè)模型長(zhǎng)文本生成普遍拉胯，最大輸出長(zhǎng)度過(guò)度宣傳

長(zhǎng)度評(píng)分（Length Score, LS）：綜合評(píng)價(jià)模型對(duì)長(zhǎng)度指令的遵循能力，量化偏差的整體影響。

基準(zhǔn)測(cè)試揭秘大模型“字?jǐn)?shù)危機(jī)”：26 個(gè)模型長(zhǎng)文本生成普遍拉胯，最大輸出長(zhǎng)度過(guò)度宣傳

相較于簡(jiǎn)單的字?jǐn)?shù)匹配，這兩項(xiàng)指標(biāo)提供了更細(xì)致的分析維度。

通過(guò)上述設(shè)計(jì)，LIFEBENCH 不僅覆蓋了現(xiàn)有研究中涉及的所有長(zhǎng)度指令評(píng)測(cè)范圍，還首次系統(tǒng)性探索了模型在不同任務(wù)、語(yǔ)言和長(zhǎng)度限制下的表現(xiàn)。

實(shí)驗(yàn)結(jié)果：大語(yǔ)言模型的“長(zhǎng)度危機(jī)”

研究團(tuán)隊(duì)對(duì) 26 個(gè)主流大語(yǔ)言模型進(jìn)行了評(píng)測(cè)，結(jié)果揭示了它們?cè)陂L(zhǎng)度指令遵循上的重大不足，尤其是在長(zhǎng)文本生成場(chǎng)景下。以下是一些關(guān)鍵發(fā)現(xiàn)：

1. 總體表現(xiàn)：長(zhǎng)度指令“等于”最難達(dá)標(biāo)

當(dāng)模型被明確要求生成特定長(zhǎng)度的文本時(shí)，大多數(shù)模型表現(xiàn)糟糕。

在 26 個(gè)模型中，有 23 個(gè)模型的長(zhǎng)度評(píng)分（LS）低于 60 分，只有少數(shù)模型（如 o3-mini、Claude-Sonnet-Thinking 和 Gemini-2.5-Pro）勉強(qiáng)達(dá)到了 75.4 分、61.3 分和 60 分。

在“不超過(guò)”（At Most）和“至少”（At Least）指令下，由于限制更寬松，模型表現(xiàn)顯著改善。其中，有 19 個(gè)模型在“不超過(guò)”指令下的長(zhǎng)度評(píng)分超過(guò) 90 分，而“至少”指令下也有 6 個(gè)模型表現(xiàn)優(yōu)異。

2. 長(zhǎng)文本生成：模型普遍“拉胯”

大多數(shù)模型在短文本限制下表現(xiàn)穩(wěn)定，如 o3-mini 和 Gemini-2.5-Pro 分別獲得了 80 分和 70 分以上的長(zhǎng)度評(píng)分。隨著長(zhǎng)度限制增加，模型的表現(xiàn)開(kāi)始下降。雖然 o3-mini 依然保持了較強(qiáng)的穩(wěn)定性（評(píng)分 > 70），但 Gemini-2.5-Pro 的評(píng)分從 81 分驟降至 37 分。

在長(zhǎng)文本生成任務(wù)中，所有模型的長(zhǎng)度評(píng)分均顯著下降，普遍低于 40 分，長(zhǎng)文本生成成為模型的最大挑戰(zhàn)。

3. 輸入特性：任務(wù)與語(yǔ)言的雙重影響

模型在不同任務(wù)中的表現(xiàn)差異顯著。摘要任務(wù)的長(zhǎng)度評(píng)分最低，有 19 個(gè)模型在這一任務(wù)中的表現(xiàn)顯著下降，創(chuàng)意生成任務(wù)的評(píng)分則最高，14 個(gè)模型表現(xiàn)優(yōu)異。

幾乎所有模型在中文任務(wù)中的表現(xiàn)均劣于英文任務(wù)。此外，模型在處理中文指令時(shí)，出現(xiàn)了明顯的“過(guò)度生成”現(xiàn)象，可能反映了模型對(duì)中文數(shù)據(jù)的處理能力不足。

基準(zhǔn)測(cè)試揭秘大模型“字?jǐn)?shù)危機(jī)”：26 個(gè)模型長(zhǎng)文本生成普遍拉胯，最大輸出長(zhǎng)度過(guò)度宣傳

模型“過(guò)度宣傳”了它們的最大輸出長(zhǎng)度

當(dāng)面對(duì)極限長(zhǎng)度指令時(shí)（比如“至少生成 32,768 字”），大部分大語(yǔ)言模型的表現(xiàn)堪稱“言過(guò)其實(shí)”。它們的宣傳似乎暗示自己是“長(zhǎng)篇巨制大師”，但實(shí)際生成結(jié)果卻經(jīng)常讓人失望。研究發(fā)現(xiàn)：

1. 僅少數(shù)模型達(dá)標(biāo)

在 26 個(gè)模型中，只有 Claude 系列和 Qwen 系列的 7 個(gè)模型能在其 10% 最長(zhǎng)輸出中勉強(qiáng)符合長(zhǎng)度要求。如果將目標(biāo)放寬到 25% 最長(zhǎng)輸出，情況依然不樂(lè)觀 —— 只有 Qwen2.5-72B-Instruct 和 Qwen3-235B-A22B 達(dá)到了設(shè)定的長(zhǎng)度要求。這些模型雖然聲明的最大輸出長(zhǎng)度較其他模型“低調(diào)”許多，但恰恰因?yàn)槿绱耍鼈兊谋憩F(xiàn)更接近實(shí)際能力，算得上“務(wù)實(shí)派”。

2. 大部分模型表現(xiàn)不符預(yù)期

其他模型則頗具“宣傳藝術(shù)”。除 Gemini-2.0-Flash 和部分 Qwen 系列模型因最大 token 限制受限外，其余模型的表現(xiàn)遠(yuǎn)低于它們聲稱的“最大輸出能力”。換句話說(shuō)，這些模型的不足并不是因?yàn)闊o(wú)法達(dá)到技術(shù)上限，而是生成能力本身存在局限性。

有些模型在宣傳時(shí)或許給人一種“我可以寫(xiě)出戰(zhàn)爭(zhēng)與和平”的錯(cuò)覺(jué)，但實(shí)際上，生成一篇“長(zhǎng)篇朋友圈”都可能顯得力不從心。

基準(zhǔn)測(cè)試揭秘大模型“字?jǐn)?shù)危機(jī)”：26 個(gè)模型長(zhǎng)文本生成普遍拉胯，最大輸出長(zhǎng)度過(guò)度宣傳

模型遵循長(zhǎng)度指令的三大“瓶頸”

基于上面的實(shí)驗(yàn)結(jié)果，論文深入分析了這個(gè)問(wèn)題，總結(jié)出以下三大核心瓶頸：

1. 缺乏準(zhǔn)確的長(zhǎng)度感知能力

很多模型在“理解”目標(biāo)長(zhǎng)度上顯得模糊不清：短輸出任務(wù)時(shí)高估長(zhǎng)度：目標(biāo)是 100 字，模型可能“熱情過(guò)度”寫(xiě)到 150 字。而長(zhǎng)輸出任務(wù)時(shí)反而低估長(zhǎng)度：目標(biāo)是 5000 字，模型卻生成 3000 字，仿佛在說(shuō)“這么長(zhǎng)，夠用了吧？”，除此之外模型還有假遵循現(xiàn)象：有些模型生成后自信滿滿地“認(rèn)為自己已經(jīng)完成了任務(wù)”，但實(shí)際結(jié)果卻大相徑庭：這種現(xiàn)象表明，模型更像是在“自我感覺(jué)良好”，而非真正理解并執(zhí)行了指令。

基準(zhǔn)測(cè)試揭秘大模型“字?jǐn)?shù)危機(jī)”：26 個(gè)模型長(zhǎng)文本生成普遍拉胯，最大輸出長(zhǎng)度過(guò)度宣傳

2. 對(duì)輸入長(zhǎng)度的敏感性

輸入文本的長(zhǎng)度對(duì)模型的表現(xiàn)影響很大，當(dāng)輸入過(guò)長(zhǎng)時(shí)，模型就有些“暈頭轉(zhuǎn)向”了，特別是在長(zhǎng)輸入場(chǎng)景（>5000 字）中。

這也解釋了為什么摘要任務(wù)尤為糟糕：面對(duì)長(zhǎng)篇輸入時(shí)，模型不僅難以提取關(guān)鍵內(nèi)容，還會(huì)生成過(guò)短或過(guò)長(zhǎng)的內(nèi)容，嚴(yán)重偏離指令要求?？梢哉f(shuō)，輸入越長(zhǎng)，模型越容易“迷失在海量信息中”。

3. 懶惰生成策略

當(dāng)面臨復(fù)雜的長(zhǎng)文本任務(wù)時(shí)，許多模型選擇了“偷懶”：

提前終止：有些模型會(huì)在未完成任務(wù)的情況下突然“省略”后續(xù)部分，例如直接插入提示“（接下來(lái)還有 6000 字）”，仿佛在暗示“我知道還沒(méi)寫(xiě)完，但后面的就不寫(xiě)了”。

拒絕生成：在遇到超長(zhǎng)的任務(wù)時(shí)，一些模型會(huì)直接選擇放棄，例如明確表示“你的要求長(zhǎng)度已經(jīng)超過(guò)了我的能力極限，無(wú)法完成”。這種情況下，模型既沒(méi)有嘗試生成部分內(nèi)容，也沒(méi)有提供替代方案，而是干脆拒絕執(zhí)行指令。

研究發(fā)現(xiàn)，當(dāng)目標(biāo)長(zhǎng)度超過(guò) 8192 字時(shí)，拒絕生成的比例顯著上升，所有模型中平均超過(guò) 10% 因這種懶惰策略而失敗。顯然，越復(fù)雜的任務(wù)，模型越傾向于“放棄治療”。

基準(zhǔn)測(cè)試揭秘大模型“字?jǐn)?shù)危機(jī)”：26 個(gè)模型長(zhǎng)文本生成普遍拉胯，最大輸出長(zhǎng)度過(guò)度宣傳

除了上面的三個(gè)瓶頸，有一些模型也嘗試解決這個(gè)問(wèn)題：

4. 動(dòng)態(tài)校準(zhǔn)的局限性：一場(chǎng)“低效的修補(bǔ)”

為了糾正長(zhǎng)度偏差，一些推理模型嘗試了動(dòng)態(tài)校準(zhǔn)：

他們會(huì)在推理過(guò)程總生成初稿后逐字統(tǒng)計(jì)輸出長(zhǎng)度，發(fā)現(xiàn)長(zhǎng)度不符時(shí)選擇重新生成，如此往復(fù)，直至接近目標(biāo)長(zhǎng)度。

雖然這個(gè)方法在短文本任務(wù)中相對(duì)有效，但是耗時(shí)耗力，因?yàn)閯?dòng)態(tài)校準(zhǔn)需要耗費(fèi)大量計(jì)算資源和生成 token，大幅增加時(shí)間成本。而且動(dòng)態(tài)校準(zhǔn)在長(zhǎng)文本場(chǎng)景中就會(huì)失效：由于校準(zhǔn)過(guò)程過(guò)于低效，模型無(wú)法在長(zhǎng)文本任務(wù)中維持相似的策略，最終還是無(wú)法完成指定長(zhǎng)度的內(nèi)容。

換句話說(shuō)，動(dòng)態(tài)校準(zhǔn)看似“聰明”，但面對(duì)長(zhǎng)文本時(shí)，最終還是成了一場(chǎng)“得不償失”的努力。

從三大“瓶頸”到動(dòng)態(tài)校準(zhǔn)的局限性，我們可以看到：大語(yǔ)言模型在長(zhǎng)度指令遵循上的表現(xiàn)還有很多不足。要讓這些模型真正“聽(tīng)話”，需要在感知能力、信息處理能力和生成策略上進(jìn)行全面優(yōu)化。

深挖模型長(zhǎng)度指令遵循的隱藏問(wèn)題

通過(guò)更深入的分析，研究揭示了一些隱藏在模型長(zhǎng)度指令遵循能力背后的有趣現(xiàn)象和改進(jìn)可能。以下是關(guān)鍵發(fā)現(xiàn)：

基準(zhǔn)測(cè)試揭秘大模型“字?jǐn)?shù)危機(jī)”：26 個(gè)模型長(zhǎng)文本生成普遍拉胯，最大輸出長(zhǎng)度過(guò)度宣傳

1. 長(zhǎng)文本生成質(zhì)量的“起伏之路”

模型在不同長(zhǎng)度限制下的表現(xiàn)如同一條“起伏的曲線”：

短文本（512 字）：“還行”：生成質(zhì)量較高。

中等長(zhǎng)度（1024–2048 字）：“巔峰表現(xiàn)”：大多數(shù)模型在這個(gè)區(qū)間表現(xiàn)最好，輸出邏輯清晰，內(nèi)容質(zhì)量穩(wěn)定。

長(zhǎng)文本（4096–8192 字）：“質(zhì)量滑坡”：許多模型在此階段開(kāi)始掉鏈子，生成內(nèi)容重復(fù)甚至拒絕生成。例如，有些模型會(huì)在生成到一半時(shí)插入“（接下來(lái)還有 6000 字）”，直接“擺爛”。

少數(shù)模型（如 Claude-3.7-Sonnet）在超長(zhǎng)文本上偶爾“逆風(fēng)翻盤(pán)”，但這類情況較為罕見(jiàn)。大多數(shù)模型的長(zhǎng)文本內(nèi)容，質(zhì)量隨長(zhǎng)度增加而顯著下降，重復(fù)問(wèn)題尤為突出。

2. 格式化輸出的“疊加挑戰(zhàn)”

在要求遵循長(zhǎng)度指令的同時(shí)，還需要生成特定格式（如 Markdown、HTML 或 LaTeX）時(shí)，模型的表現(xiàn)進(jìn)一步惡化，復(fù)雜格式讓模型“抓狂”：格式越復(fù)雜，模型越容易出錯(cuò)，甚至格式和內(nèi)容雙雙崩潰。

長(zhǎng)文本中的額外壓力：在 8192 字限制下，生成一篇帶復(fù)雜格式的文檔對(duì)模型來(lái)說(shuō)幾乎是“地獄難度”。生成的內(nèi)容不僅格式錯(cuò)誤，甚至可能中途放棄，輸出一堆不完整的內(nèi)容片段。

3. EoS 信號(hào)的“提前規(guī)劃”

在長(zhǎng)文本生成任務(wù)中，EoS（End of Sequence，生成結(jié)束信號(hào)） token 的異常行為揭示出一些有趣的現(xiàn)象：

短文本時(shí)表現(xiàn)乖巧：在 2000 字以下的限制下，模型的 EoS 預(yù)測(cè)較為正常，生成內(nèi)容完整且符合目標(biāo)要求，EoS 信號(hào)通常在內(nèi)容接近目標(biāo)長(zhǎng)度時(shí)觸發(fā)。

長(zhǎng)文本時(shí)“提前規(guī)劃”傾向：當(dāng)目標(biāo)長(zhǎng)度達(dá)到 4096 或 8192 字時(shí)，模型的行為變得耐人尋味 —— 它似乎在生成開(kāi)始前就“打好了自己的算盤(pán)”。EoS 信號(hào)的觸發(fā)概率一開(kāi)始就顯著升高，導(dǎo)致生成的內(nèi)容遠(yuǎn)遠(yuǎn)少于目標(biāo)長(zhǎng)度，甚至僅生成寥寥數(shù)百字便戛然而止。這種現(xiàn)象表明，模型在生成之前可能已經(jīng)“規(guī)劃”好了要寫(xiě)多少，而不是在生成過(guò)程中逐步調(diào)整。

這種提前終止的行為可能源于模型在長(zhǎng)文本生成中的不確定性或自我限制，反映了其對(duì)任務(wù)長(zhǎng)度的規(guī)劃能力仍存在局限性。模型在面對(duì)超長(zhǎng)文本指令時(shí)，可能會(huì)傾向于“保守估計(jì)”，提前結(jié)束生成以避免過(guò)度消耗計(jì)算資源或偏離任務(wù)要求。

4. 預(yù)訓(xùn)練與后訓(xùn)練的“雙管齊下”

模型在長(zhǎng)文本生成中的不足，既源于預(yù)訓(xùn)練的限制，也可以通過(guò)后訓(xùn)練優(yōu)化：

預(yù)訓(xùn)練的“偷懶基因”：由于預(yù)訓(xùn)練階段長(zhǎng)文本數(shù)據(jù)覆蓋不足，模型可能學(xué)到了一些“偷懶策略”，比如提前終止或拒絕回答，以規(guī)避長(zhǎng)文本中的復(fù)雜邏輯和連貫性問(wèn)題。

后訓(xùn)練的“預(yù)規(guī)劃策略”：后訓(xùn)練提供了改進(jìn)的機(jī)會(huì)。通過(guò)讓模型在生成前先規(guī)劃整體結(jié)構(gòu)或章節(jié)大綱，生成內(nèi)容更貼合長(zhǎng)度要求，邏輯也更加清晰。例如，模型可以先生成“目錄”，再逐步填充內(nèi)容。這種方法顯著提升了長(zhǎng)文本的質(zhì)量，且讓模型對(duì)長(zhǎng)度指令的遵循更為精準(zhǔn)。

從生成質(zhì)量的“起伏之路”到復(fù)雜格式的雙重挑戰(zhàn)，再到 EoS 信號(hào)的“提前規(guī)劃”，這些隱藏的現(xiàn)象揭示了模型長(zhǎng)度指令遵循能力的深層次不足。不過(guò)，通過(guò)擴(kuò)充預(yù)訓(xùn)練數(shù)據(jù)和引入預(yù)規(guī)劃策略，未來(lái)的模型完全有希望實(shí)現(xiàn)“字夠了，內(nèi)容也對(duì)了”。

總結(jié)

論文提出了 LIFEBENCH，用于評(píng)估大型語(yǔ)言模型（LLMs）在多種任務(wù)、語(yǔ)言和長(zhǎng)度限制下遵循長(zhǎng)度指令的能力。

分析表明，當(dāng)前 LLMs 在長(zhǎng)度指令執(zhí)行上仍存在顯著問(wèn)題，尤其在長(zhǎng)文本限制下，生成長(zhǎng)度常低于聲稱的能力范圍，甚至表現(xiàn)出“提前結(jié)束””的傾向。模型表現(xiàn)還受到任務(wù)類型、語(yǔ)言和輸入長(zhǎng)度等因素的顯著影響。

這些發(fā)現(xiàn)揭示了 LLMs 在長(zhǎng)度指令遵循上的關(guān)鍵短板，表明未來(lái)需要更優(yōu)的訓(xùn)練策略，以及更全面的評(píng)估體系，來(lái)提升其對(duì)長(zhǎng)度指令的執(zhí)行能力和實(shí)際表現(xiàn)。

github 倉(cāng)庫(kù): https://github.com/LIFEBench/LIFEBench

huggingface 鏈接: https://huggingface.co/datasets/LIFEBench/LIFEBench

論文地址: https://arxiv.org/ abs / 2505.16234

本文來(lái)自微信公眾號(hào)：量子位（ID：QbitAI），作者：關(guān)注前沿科技

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

基準(zhǔn)測(cè)試揭秘大模型“字?jǐn)?shù)危機(jī)”：26 個(gè)模型長(zhǎng)文本生成普遍拉胯，最大輸出長(zhǎng)度過(guò)度宣傳