Llama3-8B 秒殺 700 億巨獸？北大博士生等全新 BoT 框架推理暴漲 70 倍，24 點圖形推理一步成神

新智元 2024/6/8 20:39:16 責(zé)編：問舟

評論：

24 點游戲、幾何圖形、一步將死問題，這些推理密集型任務(wù)，難倒了一片大模型，怎么破？北大、UC 伯克利、斯坦福研究者最近提出了一種全新的 BoT 方法，用思維模板大幅增強了推理性能。而 Llama3-8B 在 BoT 的加持下，竟多次超越 Llama3-70B！

大語言模型不擅長推理怎么辦？用思維緩沖區(qū)（Buffer of Thoughts，BoT）來解決！

最近，北大、UC 伯克利、斯坦福的研究人員提出了一種元緩沖區(qū)（meta-buffer）。它可以存儲一系列信息豐富的高級思維，也就是所謂的「思維模板」，它是從各種任務(wù)的問題解決過程中蒸餾出來的。

Llama3-8B 秒殺 700 億巨獸？北大博士生等全新 BoT 框架推理暴漲 70 倍，24 點圖形推理一步成神

論文地址：https://arxiv.org/ abs / 2406.04271

然后，對于每個問題，都可以檢索相關(guān)的思維模板，然后用特定的推理結(jié)構(gòu)讓它自適應(yīng)，這樣就可以進(jìn)行有效的推理了！

在以往，24 點游戲（Game of 24）、幾何圖形任務(wù)（Geometric Shapes）、一步將死問題（Checkmate-in-One）這些推理密集型任務(wù)，難倒了不少 LLM。

Llama3-8B 秒殺 700 億巨獸？北大博士生等全新 BoT 框架推理暴漲 70 倍，24 點圖形推理一步成神

24 點游戲

而使用思維緩沖區(qū)（BoT）后，與之前的 SOTA 相比，LLM 在 24 點游戲的性能提升了 11%，幾何圖形任務(wù)的性能提升了 20%，一步將死問題的性能則一舉提升了 50%。

分析顯示，BoT 具有卓越的泛化能力和模型魯棒性。

甚至，原本在各項任務(wù)中慘敗的 Llama3-8B 小模型，在 BoT 的加持下，竟然性能大升級，在多項任務(wù)上一舉超越了 Llama3-70B！

Llama3-8B 秒殺 700 億巨獸？北大博士生等全新 BoT 框架推理暴漲 70 倍，24 點圖形推理一步成神

在實驗過程中，團(tuán)隊設(shè)計了一種緩沖區(qū)管理器（buffer-manager）。這種管理器可以從各種解決方案中，蒸餾出思維模板，而隨著 LLM 解決的任務(wù)越來越多，元緩沖區(qū)的容量也在不斷增大。

而且，BoT 的成本也很香，平均只需要多查詢提示方法成本的 12%。

Llama3-8B 秒殺 700 億巨獸？北大博士生等全新 BoT 框架推理暴漲 70 倍，24 點圖形推理一步成神

幾何圖形推理任務(wù)

LLM 推理難，兩種方法均有局限

咱們都知道，GPT-4、PaLM、Llama 這些大模型選手，都是完成推理任務(wù)的佼佼者了。

怎么能讓它們的推理性能變強，更上一層樓呢？

除了擴大模型規(guī)模，還有一個辦法，就是通過更有效的提示方法。

具體來說，這些方法分為兩類。

1. 單查詢推理

這類方法主要是靠提示工程，讓推理過程在單個查詢中完成，比如 CoT 的「讓我們一步一步思考」。

或者 Few-shot Prompting，能提供與任務(wù)相關(guān)的示例來幫助生成答案。

Llama3-8B 秒殺 700 億巨獸？北大博士生等全新 BoT 框架推理暴漲 70 倍，24 點圖形推理一步成神

然而，單查詢推理通常需要事先假設(shè)或推理過程的相關(guān)示例，逐個任務(wù)地手動設(shè)計，顯然是不切實際的。因而它缺乏普適性和泛化性。

2. 多查詢推理

包括 Least-to-Most、ToT、GoT 等，它們側(cè)重于利用多個 LLM 查詢，來引出不同的合理推理路徑，從而將復(fù)雜問題分解為一系列更簡單的子問題。

Llama3-8B 秒殺 700 億巨獸？北大博士生等全新 BoT 框架推理暴漲 70 倍，24 點圖形推理一步成神

然而，由于推理路徑的遞歸擴展，多查詢推理在為每個特定任務(wù)找到推理過程背后唯一的內(nèi)在結(jié)構(gòu)時，通常是計算密集型的。

另外，這兩種方法都受限于設(shè)計范例和推理結(jié)構(gòu)的限制，而且之前的任務(wù)做完了就做完了，它們不會從中得到高級的指導(dǎo)方針和思維。再遇到類似問題時，它們依然效率很低。

因此，BoT 誕生了！

這種新穎、多功能的思維增強框架，能夠規(guī)避上述兩種方法的弱點。

Llama3-8B 秒殺 700 億巨獸？北大博士生等全新 BoT 框架推理暴漲 70 倍，24 點圖形推理一步成神

單查詢、多查詢都和 BoT 方法之間的比較

BoT 有三個關(guān)鍵優(yōu)勢 ——

1. 準(zhǔn)確性：通過共享的思維模板，LLM 可以自適應(yīng)地實例化高層次思維來解決不同任務(wù)，由于期間無需從頭構(gòu)建推理結(jié)構(gòu)，因此推理的準(zhǔn)確性便得到了提高。

2. 推理效率：通過思維增強推理，LLM 能夠直接利用信息豐富的歷史推理結(jié)構(gòu)進(jìn)行推理，由于期間無需復(fù)雜的多查詢過程，因此推理的效率便得到了提高。

3. 魯棒性：從思維檢索到思維實例化的過程，類似于人類的思維過程，這就讓 LLM 能夠以一致的方式解決類似問題，從而顯著增強了模型的魯棒性。

Llama3-8B 秒殺 700 億巨獸？北大博士生等全新 BoT 框架推理暴漲 70 倍，24 點圖形推理一步成神

國際象棋中的「一步將死」

Buffer of Thoughts

從圖 2 中，可以看出 BoT 是怎樣用核心思維增強推理任務(wù)的。

對于給定的特定任務(wù)，團(tuán)隊首先會用問題蒸餾器來提取關(guān)鍵認(rèn)為的具體信息，以及相關(guān)限制。

蒸餾出這些信息后，就可以在包含了一系列高級思維（思維模板）的元緩沖區(qū)中進(jìn)行搜索了。這個過程中，會檢索到與任務(wù)最相關(guān)的思維模板。

Llama3-8B 秒殺 700 億巨獸？北大博士生等全新 BoT 框架推理暴漲 70 倍，24 點圖形推理一步成神

隨后，就可以用更多特定任務(wù)的推理結(jié)構(gòu)，實例化搜索到的思維模板，進(jìn)行推理過程。

最后一步，就是使用緩沖區(qū)管理器來總結(jié)整個問題解決過程，并且蒸餾出增加其容量的高層思維。

Llama3-8B 秒殺 700 億巨獸？北大博士生等全新 BoT 框架推理暴漲 70 倍，24 點圖形推理一步成神

不同推理過程的示意圖（橙色為思維模板，藍(lán)色為實例化的思維）

問題蒸餾器

大多數(shù)復(fù)雜任務(wù)，都包含隱含的約束、復(fù)雜的對象關(guān)系以及上下文中的復(fù)雜變量和參數(shù)。

因此，在推理階段，LLM 需要克服三個主要挑戰(zhàn)：提取重要信息、識別潛在約束以及進(jìn)行準(zhǔn)確推理。

對于單個 LLM，這些挑戰(zhàn)會造成顯著的負(fù)擔(dān)。

因此，團(tuán)隊選擇將任務(wù)信息的提取和理解階段與最終的推理階段分開，通過在推理過程中添加一個問題蒸餾器來實現(xiàn)。

為此，他們設(shè)計了一個元提示（meta prompt）φ，用于首先蒸餾和形式化任務(wù)信息。

蒸餾后的任務(wù)信息可以表示為：

Llama3-8B 秒殺 700 億巨獸？北大博士生等全新 BoT 框架推理暴漲 70 倍，24 點圖形推理一步成神

問題蒸餾器的詳細(xì)元提示如下：

Llama3-8B 秒殺 700 億巨獸？北大博士生等全新 BoT 框架推理暴漲 70 倍，24 點圖形推理一步成神

作為信息蒸餾領(lǐng)域的高度專業(yè)和智能專家，你擅長從用戶輸入查詢中提取關(guān)鍵信息以解決問題。你能夠熟練地將提取的信息轉(zhuǎn)化為適合相應(yīng)問題類型的格式。
請分類并提取解決問題所需的關(guān)鍵信息，包括：
1. 關(guān)鍵信息：從用戶輸入中提取的關(guān)鍵變量的值和信息，這些信息將交給相應(yīng)的專家進(jìn)行任務(wù)解決，確保提供解決問題所需的所有必要信息。
2. 限制條件：問題的目標(biāo)和相應(yīng)的約束。
3. 蒸餾任務(wù)：基于 1 和 2 擴展問題，總結(jié)一個可以解決用戶查詢并處理更多輸入和輸出變化的元問題。結(jié)合擴展問題的真實場景以及原始問題中的關(guān)鍵變量類型和信息約束來限制擴展問題中的關(guān)鍵變量。之后，使用用戶查詢輸入的關(guān)鍵信息作為輸入來解決問題作為示例。

用元緩沖區(qū)，讓思維推理增強

- 動機

人類在解決問題時，常常總結(jié)和歸納出高層次的指導(dǎo)方針，然后將其應(yīng)用于相關(guān)問題。

正是受此啟發(fā)，團(tuán)隊提出了元緩沖區(qū)（meta-buffer），這是一種包含一系列高層次思維（思維模板）的輕量級庫，用于解決各種類型的問題。

與傳統(tǒng)方法不同，這種高層次思維模板可以在解決不同問題時自適應(yīng)地實例化，從而為 LLM 提供更高的精度和靈活性。

- 思維模板

作為一種高層次的指導(dǎo)方針，思維模板存儲在元緩沖區(qū)中，并由緩沖區(qū)管理器從各種問題解決過程中獲取。

為了讓 BoT 能夠為各種任務(wù)提供通用的推理方法，團(tuán)隊相應(yīng)地將思維模板分類為六類：文本理解、創(chuàng)造性語言生成、常識推理、數(shù)學(xué)推理、代碼編程和應(yīng)用調(diào)度。

這樣的思維模板分類，可以促進(jìn)模板檢索，找到最適合解決不同問題的方案。

其中，思維模板、模板描述及其對應(yīng)的類別表示為 (Ti, D_Ti, Ck)，其中 i 表示元模板的索引，k∈Z^+ 且 1≤k≤6。

以下就是六個不同類別的思維模板示例。

1. 文本理解

在這個任務(wù)中，LLM 需要分析一張涉及企鵝各種屬性（如姓名、年齡、身高、體重）的表格，然后回答有關(guān)這些屬性的問題。

Llama3-8B 秒殺 700 億巨獸？北大博士生等全新 BoT 框架推理暴漲 70 倍，24 點圖形推理一步成神

解決方案描述：
為了準(zhǔn)確回答有關(guān)企鵝屬性的問題，必須能夠解釋表格形式的數(shù)據(jù)，理解自然語言提供的附加信息，并運用邏輯推理來識別正確的屬性。
思維模板：
步驟 1：解析初始表格，提取標(biāo)題信息和每只企鵝的屬性到結(jié)構(gòu)化格式中（例如，一個字典列表）。
步驟 2：閱讀并整合任何更新或添加到表格中的自然語言信息，確保數(shù)據(jù)保持一致。
步驟 3：識別所問的屬性（例如，最老的企鵝、最重的企鵝）和表格中的相應(yīng)列。
步驟 4：運用邏輯推理比較所有條目的相關(guān)屬性，以找到正確答案（例如，最老的企鵝的最高年齡）。
步驟 5：從提供的選項中選擇與邏輯比較結(jié)果相匹配的答案。

Llama3-8B 秒殺 700 億巨獸？北大博士生等全新 BoT 框架推理暴漲 70 倍，24 點圖形推理一步成神

2. 創(chuàng)造性語言生成

在這項任務(wù)中，LLM 需要生成一首十四行詩，遵循傳統(tǒng)的押韻模式「ABAB CDCD EFEF GG」，并在詩中逐字包含三個特定的詞。

Llama3-8B 秒殺 700 億巨獸？北大博士生等全新 BoT 框架推理暴漲 70 倍，24 點圖形推理一步成神

解決方案描述：
寫十四行詩需要創(chuàng)作 14 行詩歌，遵循特定的押韻模式。這些詩行通常采用抑揚格五音步，但為了創(chuàng)意可以在節(jié)奏上進(jìn)行適當(dāng)調(diào)整。給定的押韻模式規(guī)定了每行的結(jié)尾音，以確保詩歌的結(jié)構(gòu)性。逐字包含提供的三個詞需要在詩行中進(jìn)行巧妙安排，以保持詩歌的連貫性和主題一致性。
思維模板：
步驟 1：確定必須包含在十四行詩中的三個詞。
步驟 2：理解押韻模式「ABAB CDCD EFEF GG」，并準(zhǔn)備一份可以使用的押韻詞列表。
步驟 3：為十四行詩設(shè)計一個可以自然包含這三個詞的主題或故事。
步驟 4：開始起草十四行詩，按照「ABAB」押韻模式寫第一節(jié)（四行），確保包含一個或多個提供的詞。
步驟 5：繼續(xù)寫第二節(jié)「CDCD」，第三節(jié)「EFEF」，最后是結(jié)束的對聯(lián)「GG」，每次根據(jù)需要包含提供的詞。
步驟 6：檢查十四行詩的連貫性、流暢性和對押韻模式的遵循情況，并根據(jù)需要進(jìn)行調(diào)整。

Llama3-8B 秒殺 700 億巨獸？北大博士生等全新 BoT 框架推理暴漲 70 倍，24 點圖形推理一步成神

3. 常識推理

在這項任務(wù)中，會給出任務(wù)的日期和事件（例如假期或歷史事件），讓 LLM 確定日期。

Llama3-8B 秒殺 700 億巨獸？北大博士生等全新 BoT 框架推理暴漲 70 倍，24 點圖形推理一步成神

解決方案描述：
要確定下一個日期，我們需要考慮日歷的結(jié)構(gòu)、每個月的天數(shù)以及是否是閏年。通常，每月的天數(shù)是固定的，但二月可能因閏年而有所不同。一年中的第二天通常是日期增加一天，除非是月底，那么第二天將是下個月的第一天。對于年底第二天將是下一年的 1 月 1 日。
思維模板：
步驟 1：識別給定日期的月份和日期。
步驟 2：檢查是否是月底；如果是，則確認(rèn)下個月的開始日期。
步驟 3：如果不是月底，只需在日數(shù)上加一即可。
步驟 4：特別注意年底，確保年份遞增。

Llama3-8B 秒殺 700 億巨獸？北大博士生等全新 BoT 框架推理暴漲 70 倍，24 點圖形推理一步成神

4. 數(shù)學(xué)推理

在這項任務(wù)中，LLM 需要解決形式為 ax^2 + bx + c = 0 的二次方程，并考慮所有可能的情況。

Llama3-8B 秒殺 700 億巨獸？北大博士生等全新 BoT 框架推理暴漲 70 倍，24 點圖形推理一步成神

5. 代碼編程

在這項任務(wù)中，會給定一組數(shù)字，此時 LLM 需要嘗試?yán)盟姆N基本數(shù)學(xué)運算（加、減、乘、除）來得到目標(biāo)數(shù)字。

Llama3-8B 秒殺 700 億巨獸？北大博士生等全新 BoT 框架推理暴漲 70 倍，24 點圖形推理一步成神

6. 應(yīng)用調(diào)度

在這項任務(wù)中，LLM 需要根據(jù)給定的國際象棋的標(biāo)準(zhǔn)代數(shù)記譜法（SAN）棋步，更新棋盤狀態(tài)。

Llama3-8B 秒殺 700 億巨獸？北大博士生等全新 BoT 框架推理暴漲 70 倍，24 點圖形推理一步成神

- 模板檢索

對于每個任務(wù)，BoT 會通過計算描述 D_Ti 和蒸餾問題 xd 之間的嵌入相似性，檢索出與蒸餾問題 xd 高度相似的思維模板 Ti。

其中，檢索過程可以表述為：

- 實例化推理

第一種情況是 BoT 成功為任務(wù)檢索到一個思維模板 Tj。

這時，BoT 將使用團(tuán)隊設(shè)計的實例化提示自適應(yīng)地實例化為合適的推理結(jié)構(gòu)。

例如，在一步將死問題中，就會使用蒸餾信息 xd 和檢索到的模板 Tj 對任務(wù) x 進(jìn)行實例化推理，并生成其解決方案 Sx，如下所示：

Llama3-8B 秒殺 700 億巨獸？北大博士生等全新 BoT 框架推理暴漲 70 倍，24 點圖形推理一步成神

第二種情況是 BoT 將該任務(wù)被識別為一個新的任務(wù)。

為此，團(tuán)隊準(zhǔn)備了三個通用的粗粒度思維模板，而 BoT 則會基于蒸餾的任務(wù)信息 xd，自動分配一個合適的思維模板到推理過程中。

Llama3-8B 秒殺 700 億巨獸？北大博士生等全新 BoT 框架推理暴漲 70 倍，24 點圖形推理一步成神

你是一位元推理者，精通各個領(lǐng)域的知識，包括計算機科學(xué)、數(shù)學(xué)、物理、文學(xué)、歷史、化學(xué)、邏輯推理、文化、語言等。你還能根據(jù)不同任務(wù)找到合適的高級思維方式。以下是三種推理結(jié)構(gòu)：
i) 基于提示的結(jié)構(gòu)：在處理常識推理、應(yīng)用調(diào)度等問題時表現(xiàn)良好。
ii) 基于過程的結(jié)構(gòu)：在處理創(chuàng)造性任務(wù)如創(chuàng)造性語言生成和文本理解時表現(xiàn)良好。
iii) 基于編程的結(jié)構(gòu)：在處理數(shù)學(xué)推理和代碼編程時表現(xiàn)良好，還可以將現(xiàn)實世界的問題轉(zhuǎn)化為編程問題，從而高效地解決問題。
（推理實例化）
你的任務(wù)是：
1. 深思熟慮地考慮上下文和問題蒸餾器蒸餾出的響應(yīng)中的問題，并利用你對問題的理解找到適合解決問題的領(lǐng)域?qū)＜摇?/p>
2. 考慮蒸餾的信息，為問題選擇一種推理結(jié)構(gòu)。
3. 如果提供了思維模板，請直接按照思維模板實例化給定問題。

緩沖區(qū)管理器

緩沖區(qū)管理器（buffer-manager）的作用是，總結(jié)從每個問題解決過程中獲得的高層次指導(dǎo)方針和思維。

它可以將每個具體解決方案推廣到更多問題中，并以思維模板的形式將關(guān)鍵的蒸餾知識存儲在元緩沖區(qū)中。

與為每個問題臨時生成示例或指令的方法不同，緩沖區(qū)管理器可以確保在準(zhǔn)確性、效率和魯棒性方面的永久性提升。

Llama3-8B 秒殺 700 億巨獸？北大博士生等全新 BoT 框架推理暴漲 70 倍，24 點圖形推理一步成神

模板蒸餾提示：
用戶：[問題描述]+[解決方案步驟或代碼]
要提取和總結(jié)解決此類問題的高級范例和一般方法，請按照以下步驟進(jìn)行回復(fù)：
1. 核心任務(wù)總結(jié)：
識別并描述問題的基本類型和核心挑戰(zhàn)，例如將其分類為數(shù)學(xué)問題（例如，求解二次方程）、數(shù)據(jù)結(jié)構(gòu)問題（例如，數(shù)組排序）、算法問題（例如，搜索算法）等，并分析解決問題的最有效方法。
2. 求解步驟描述：概述求解的一般步驟，包括如何定義問題、確定變量、列出關(guān)鍵方程或約束、選擇合適的求解策略和方法，以及如何驗證結(jié)果的正確性。
3. 通用答案模板：根據(jù)上述分析，提出一個可以泛應(yīng)用于此類問題的模板或方法，包括可能的變量、函數(shù)、類定義等如果是編程問題，提供一組基類和接口可用于構(gòu)建具體問題的解決方案。
請確保你的回答高度簡潔和結(jié)構(gòu)化，以便具體解決方案可以轉(zhuǎn)化為可推廣的方法。
[可選] 以下是思想模板的一些示例：(選擇跨任務(wù)或-基于核心任務(wù)總結(jié)分析的任務(wù)范例。)

- 模板蒸餾

為了提取通用的思維模板，團(tuán)隊提出了一個三步法：

（1）核心任務(wù)總結(jié)：識別并描述問題的基本類型和核心挑戰(zhàn)；

（2）解決步驟描述：總結(jié)解決問題的一般步驟；

（3）通用回答模板：基于上述分析，提出一個可以廣泛應(yīng)用于類似問題的解決模板或方法。

此外，為了提高模板蒸餾的泛化能力和穩(wěn)定性，團(tuán)隊精心設(shè)計了兩種上下文示例來生成思維模板 —— 任務(wù)內(nèi)示例和跨任務(wù)示例。

跨任務(wù)示是指，選擇從某個任務(wù)中蒸餾出的模板，來解決其他任務(wù)的問題。例如，用與代碼相關(guān)的思維模板來解決數(shù)學(xué)問題。

從輸入任務(wù) x 中蒸餾出的新模板可以表示為：

Llama3-8B 秒殺 700 億巨獸？北大博士生等全新 BoT 框架推理暴漲 70 倍，24 點圖形推理一步成神

- 元緩沖區(qū)的動態(tài)更新

在模板蒸餾之后，需要考慮是否將蒸餾的模板更新到元緩沖區(qū)中。

- 如果初始化了一個空的元緩沖區(qū)或遇到?jīng)]有合適思維模板的問題，蒸餾的思維模板將直接存儲在元緩沖區(qū)中；

- 如果是用了檢索到的思維模板解決的問題，也可能會在實例化某個思維模板的過程中會產(chǎn)生新的見解。

因此，為了在保持新生成有用思維的同時避免元緩沖區(qū)的冗余，需要計算

和

Llama3-8B 秒殺 700 億巨獸？北大博士生等全新 BoT 框架推理暴漲 70 倍，24 點圖形推理一步成神

的嵌入向量之間的相似性，并根據(jù)以下規(guī)則更新元緩沖區(qū)：

Llama3-8B 秒殺 700 億巨獸？北大博士生等全新 BoT 框架推理暴漲 70 倍，24 點圖形推理一步成神

否則，這意味著元緩沖區(qū)已經(jīng)具備解決此任務(wù)所需的知識，不需要進(jìn)行更新。

這種動態(tài)更新策略有效減少了模板檢索的計算負(fù)擔(dān)，同時確保了元緩沖區(qū)的輕量化特性。

實驗結(jié)果

- 數(shù)據(jù)集和任務(wù)

為了評估 BoT 的有效性，并與之前的方法進(jìn)行比較，團(tuán)隊選擇了一組多樣化的任務(wù)和數(shù)據(jù)集。

這些任務(wù)和數(shù)據(jù)集需要不同程度的數(shù)學(xué)和算法推理、特定領(lǐng)域知識以及文學(xué)創(chuàng)造力：

1. 來自 ToT 的 24 點游戲（Game of 24）

2. 三個 BIG-Bench Hard （BBH）任務(wù)：幾何圖形（Geometric Shapes），多步算術(shù)二（Multi-Step Arithmetic Two），和單詞排序（Word Sorting）；

Llama3-8B 秒殺 700 億巨獸？北大博士生等全新 BoT 框架推理暴漲 70 倍，24 點圖形推理一步成神

3. 直接從 BIG-Bench 中獲得的三個推理任務(wù)：一步將死（Checkmate-in-One）、企鵝（Penguins），以及日期理解（DateUnderstanding）；

4. Python 編程題（P3），一組用 Python 編寫的具有不同難度級別的挑戰(zhàn)性編程題；

5. 多語言小學(xué)數(shù)學(xué)（MGSM），GSM8K 數(shù)據(jù)集的多語言版本，包含十種語言類型（包括孟加拉語、日語和斯瓦希里語）；

6. 根據(jù)元提示進(jìn)行的莎士比亞十四行詩寫作（Sonnet Writing）。

Llama3-8B 秒殺 700 億巨獸？北大博士生等全新 BoT 框架推理暴漲 70 倍，24 點圖形推理一步成神

- 實現(xiàn)和基線

為了與之前的方法進(jìn)行公平比較，團(tuán)隊選擇了 GPT-4 作為 BoT 的基線模型。

并且還在 NVIDIA A100-PCIE-40GB GPU 上使用 Llama3-8B 和 Llama3-70B 進(jìn)行了分析。

更好的準(zhǔn)確性、效率和魯棒性

- 推理準(zhǔn)確性

結(jié)果顯示，BoT 在多個具有挑戰(zhàn)性的基準(zhǔn)測試中始終優(yōu)于所有之前的提示方法，特別是在諸如如 24 點游戲和一步將死這類的復(fù)雜推理任務(wù)上。

在 24 點游戲中，與原始 GPT-4 相比，BoT 的準(zhǔn)確性實現(xiàn)了高達(dá) 79.4% 的驚人提升；而與該項之前的 SOTA——ToT 相比，BoT 也實現(xiàn)了 8.4% 的提升。

與最近提出的元提示相比，BoT 在 24 點游戲中提高了 23% 的準(zhǔn)確性，在幾何圖形中提高了 20%，在一步將死中提高了 51%。

現(xiàn)有方法需要復(fù)雜的、迭代的和啟發(fā)式的搜索策略來逐個解決這些問題。

而 BoT 則會利用思維模板中的歷史見解和信息性指導(dǎo)方針，并自適應(yīng)地實例化一個更優(yōu)的推理結(jié)構(gòu)來解決這些復(fù)雜問題。

Llama3-8B 秒殺 700 億巨獸？北大博士生等全新 BoT 框架推理暴漲 70 倍，24 點圖形推理一步成神

- 推理效率

除了在準(zhǔn)確性上有著顯著提升之外，作為一種多查詢方法，BoT 在各種任務(wù)中還可以實現(xiàn)與單查詢方法相當(dāng)?shù)耐评頃r間，同時顯著少于傳統(tǒng)的多查詢方法（如 ToT）。

例如，在 24 點游戲中，單查詢和多查詢方法都需要迭代和啟發(fā)式搜索來找到可行的解決方案。

這個過程特別耗時且效率低下，尤其是對于多查詢方法，它涉及進(jìn)行多次查詢搜索和回溯階段。

相比之下，BoT 能夠直接檢索代碼格式的思維模板，從而實例化一個程序來遍歷數(shù)字和符號的組合，從而無需從頭構(gòu)建推理結(jié)構(gòu)。

這使得在調(diào)用問題蒸餾器后，僅用一次查詢即可解決問題，顯著減少了復(fù)雜推理所需的時間。

值得注意的是，BoT 平均僅需多查詢方法 12% 的成本。

Llama3-8B 秒殺 700 億巨獸？北大博士生等全新 BoT 框架推理暴漲 70 倍，24 點圖形推理一步成神

- 推理魯棒性

為了更好地評估 BoT，團(tuán)隊設(shè)計了一種用于評估推理魯棒性的新指標(biāo) —— 成功率。

首先，從各種基準(zhǔn)中隨機抽取 1000 個示例作為測試子集，并在該子集上評估不同的方法。其次，重復(fù)這一評估過程 10 次，并將平均準(zhǔn)確率作為不同方法在每個基準(zhǔn)上的成功率。

結(jié)果顯示，與其他方法相比，BoT 在各種任務(wù)中都保持著最高的成功率 ——

不僅在平均成績上，比 ToT 高出了 10%；甚至在 24 點游戲中，比原始的 GPT-4 高出了 71% 之多。

這是因為 BoT 在不同任務(wù)中蒸餾的思維模板，有著出色的泛化能力。通過利用思維模板中提供高層次思維，BoT 在不同任務(wù)中的穩(wěn)定性得到了極大提升。

Llama3-8B 秒殺 700 億巨獸？北大博士生等全新 BoT 框架推理暴漲 70 倍，24 點圖形推理一步成神

模型分析

- 思維模板的分布分析

測試結(jié)果顯示，在包含更多多樣化場景的 MGSM 任務(wù)中，BoT 生成了更多的思維模板。而在相對簡單的任務(wù)中，則生成了更具針對性的固定思維模板。

模板的分布表明，BoT 可以有效地為不同的基準(zhǔn)發(fā)現(xiàn)合適的思維模板。

- 時間成本分布分析

在時間成本方面，蒸餾任務(wù)信息和模板檢索所需的時間相對較短，而實例化推理所需的時間較長。

考慮到不同組件的復(fù)雜性，BoT 整體上還是實現(xiàn)了相對平衡的時間成本分布，展示出了新框架的高效。

Llama3-8B 秒殺 700 億巨獸？北大博士生等全新 BoT 框架推理暴漲 70 倍，24 點圖形推理一步成神

思維模板和時間的分布分析（左為思維模板；右為時間成本）

- 更好的規(guī)模與性能權(quán)衡

可以看到，原始 Llama3-8B 和 Llama3-70B 模型在測試任務(wù)中的表現(xiàn)很差，但在獲得 BoT 的加持之后，它們的準(zhǔn)確性都有顯著提升。

不僅如此，BoT+Llama3-8B 還在 24 點游戲和一步將死任務(wù)中成功實現(xiàn)了對 Llama3-70B 的大幅超越。

Llama3-8B 秒殺 700 億巨獸？北大博士生等全新 BoT 框架推理暴漲 70 倍，24 點圖形推理一步成神

消融研究

- 問題蒸餾器的影響

當(dāng)問題蒸餾器被禁用時，Llama3-70B 和 GPT-4 的準(zhǔn)確性都有所下降。

其中，在諸如 24 點游戲和一步將死這類更為復(fù)雜的問題上，降幅更為明顯。而在諸如單詞排序和 MGSM 這類相對簡單的問題上，降幅較小。

這是因為，在處理復(fù)雜問題時，提取關(guān)鍵信息和潛在約束更具挑戰(zhàn)性，由此使得問題蒸餾器的作用更加突出。

Llama3-8B 秒殺 700 億巨獸？北大博士生等全新 BoT 框架推理暴漲 70 倍，24 點圖形推理一步成神

- 元緩沖區(qū)的影響

當(dāng)元緩沖區(qū)被禁用時，Llama3-70B 和 GPT-4 模型的性能顯著下降，特別是在需要復(fù)雜推理的基準(zhǔn)測試中，如 24 點游戲和一步將死。

這進(jìn)一步強調(diào)了我們元緩沖區(qū)在解決復(fù)雜問題上的優(yōu)勢。

Llama3-8B 秒殺 700 億巨獸？北大博士生等全新 BoT 框架推理暴漲 70 倍，24 點圖形推理一步成神

- 緩沖區(qū)管理器的影響

實驗共分 4 輪，每一輪都會從各個基準(zhǔn)中隨機抽取 50 個問題并進(jìn)行推理。

隨著輪次的增加，帶有緩沖區(qū)管理器的模型不斷擴展元緩沖區(qū)，同時利用從先前解決的問題中獲得的思維模板來幫助解決后續(xù)類似的問題。

因此可以看到，BoT 的準(zhǔn)確性在每一輪中穩(wěn)步提高。相反，沒有緩沖區(qū)管理器的模型未能表現(xiàn)出上升趨勢。

Llama3-8B 秒殺 700 億巨獸？北大博士生等全新 BoT 框架推理暴漲 70 倍，24 點圖形推理一步成神

推理時間方面，當(dāng)輪次增加時，帶有緩沖區(qū)管理器的模型的推理效率會持續(xù)提高。

這是因為隨著元緩沖區(qū)的不斷擴展，檢索到合適思維模板的可能性也增加。因此，模型可以避免從頭構(gòu)建推理結(jié)構(gòu)，從而相應(yīng)地提高推理效率。

Llama3-8B 秒殺 700 億巨獸？北大博士生等全新 BoT 框架推理暴漲 70 倍，24 點圖形推理一步成神

作者介紹

Ling Yang

Llama3-8B 秒殺 700 億巨獸？北大博士生等全新 BoT 框架推理暴漲 70 倍，24 點圖形推理一步成神

論文的共同一作 Ling Yang 目前是北京大學(xué)的三年級博士生，導(dǎo)師是 Bin Cui、Luxia Zhang 和 Ming-Hsuan Yang。

他的研究興趣包括擴散模型（Diffusion Models）、多模態(tài)學(xué)習(xí)（Multimodal Learning）和 AI for Science。

他曾擔(dān)任多個國際會議和期刊的程序委員會成員或?qū)徃迦?，包?SIGGRAPH、TPAMI、ICML、ICLR、NeurIPS、CVPR、KDD、AAAI。

崔斌（Bin Cui）

Llama3-8B 秒殺 700 億巨獸？北大博士生等全新 BoT 框架推理暴漲 70 倍，24 點圖形推理一步成神

崔斌現(xiàn)為北京大學(xué)計算機學(xué)院教授、博士生導(dǎo)師，擔(dān)任數(shù)據(jù)科學(xué)與工程研究所長。在相關(guān)領(lǐng)域頂級會議和期刊發(fā)表學(xué)術(shù)論文 300 多篇。

他主持和承擔(dān)多個科研項目，如國家自然科學(xué)基金、國家重點研發(fā)計劃、核高基項目、863 計劃等。

他擔(dān)任 / 曾擔(dān)任中國計算機學(xué)會理事、數(shù)據(jù)庫專委會副主任，VLDB 理事會理事，DSE 期刊主編，IEEE TKDE、VLDB Journal、DAPD 等國際期刊編委，擔(dān)任過數(shù)十個國際會議的程序委員會委員，包括一流國際會議 SIGMOD、VLDB、ICDE、KDD 等。

參考資料：

https://arxiv.org/abs/2406.04271

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

Llama3-8B 秒殺 700 億巨獸？北大博士生等全新 BoT 框架推理暴漲 70 倍，24 點圖形推理一步成神

LLM 推理難，兩種方法均有局限

Buffer of Thoughts

問題蒸餾器

用元緩沖區(qū)，讓思維推理增強

緩沖區(qū)管理器

實驗結(jié)果

更好的準(zhǔn)確性、效率和魯棒性

作者介紹

Ling Yang

相關(guān)文章

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

Llama3-8B 秒殺 700 億巨獸？北大博士生等全新 BoT 框架推理暴漲 70 倍，24 點圖形推理一步成神

LLM 推理難，兩種方法均有局限

Buffer of Thoughts

問題蒸餾器

用元緩沖區(qū)，讓思維推理增強

緩沖區(qū)管理器

實驗結(jié)果

更好的準(zhǔn)確性、效率和魯棒性

作者介紹

Ling Yang

相關(guān)文章

LLM 推理難，兩種方法均有局限

用元緩沖區(qū)，讓思維推理增強

更好的準(zhǔn)確性、效率和魯棒性