admin管理员组

文章数量:1028043

ThinkPatterns

大语言模型(LLMs)通过思考然后响应的范式展示了增强的性能,在这个范式中,模型在最终回应之前会生成内部思考(即,系统2思考)。然而,现有的研究缺乏对思考模式如何影响不同规模模型性能的系统性理解。在本工作中,作者对各种思考类型对模型性能的影响进行了全面分析,并引入了ThinkPatterns-21k数据集,该数据集包含21000个指令-回应对(问答),从现有指令跟随数据集中收集而来,并包括五种思考类型。对于每一对,作者在保持相同指令和回应的同时,增加五个不同的内部思考模式:一种无结构思考(独白)和四种结构化变体(分解、自我提问、自我辩论和自我批判)。

通过在不同规模的模型(参数从3亿到32亿)上进行广泛评估,作者得出了两个关键发现:

(1)较小的模型(<300亿参数)可以从大多数结构化思考模式中获益,而较大的32亿参数模型使用结构化思考如分解则会导致性能下降;

(2)无结构独白在不同规模的模型中表现出广泛的有效性。

最后,作者将所有数据集、预训练权重及各种思考模式的训练日志公开,以实现可重复性,旨在促进后续研究工作的开展。

1 Introduction

大语言模型(LLMs)传统上被设计为在接收到人类指令后立即生成响应。然而,像OpenAI的O1/O3、QwQ(Team,2024b)和Deepseek R1 这类具备推理能力的模型的出现,展示了新的范式:先思考后响应,也即系统2思考(Evans,2003)。在这种范式下,模型会在最终响应前进行明确的思考过程。这种方法已经显示出显著的成功,实现了甚至超越了人类水平的性能,在多个领域都有所体现,包括数学问题解决、编程任务等。

然而,当前环境中存在一个根本性的挑战:传统的大语言模型并未被本初设计为遵循“思考然后回应”的范式,因此需要专门的训练以诱导这种行为。具体而言,现有的训练数据往往完全忽略了思考过程(Zelikman等,2024),并且缺乏系统标注的思考模式标注(Wu等,2024),这些可以指导模型进行推理。近期的研究探讨了几种技术手段来应对这一挑战。其中一类方法专注于合成数据生成,包括使用蒙特卡洛树搜索生成推理路径,利用GPT-4o生成思考示范,以及从现有推理模型中提炼知识。这种方法直接解决了训练数据中缺少思考过程标注的局限性。

另一条路线采用强化学习(RL)(Sutton, 2018),以Deepseek R1 Zero为例,这种方法使模型能够自主学习推理路径,而无需明确标注思考过程。然而,这些方法仍面临显著的局限性。首先,基于RL的方法通常生成无结构的思考模式,而现有的合成数据生成方法也主要集中在无结构的思考模式上。鉴于结构化 Prompt 技术(如自我提问(Press等,2023)、辩论(Liang等,2024)、分而治之(Wang等,2023;Khot等,2023))在提升模型性能方面的有效性,作者认为让模型在推理过程中遵循结构化的思考模式是很有前景的。此外,关于不同思考模式在不同模型规模下表现的理解仍然有限,这使得在不进行大量实验的情况下确定最优的思考模式变得困难。

为了克服这些限制,作者对不同的思维模式对大语言模型性能的影响进行了全面研究,跨越了不同规模的模型。如图1所示,作者构建了一个包含21000个指令-响应对的大规模数据集,并为每一对添加了五种不同的思维模式——一种无结构思维(独白)和四种结构化变体(分解、自我提问、自我辩论和自我批评)。

值得注意的是,作者在每种模式下保持相同的指令和响应,但改变了内部的思维过程。通过在不同规模模型(从3B到32B参数)的Arena Hard(Li等人,2024)和Alpaca Eval 2(Li等人,2023)基准上的系统实验,作者发现较小的模型(参数少于30B)能够从大多数结构化思维模式中获益,而较大的模型(32B参数)则更适合无结构思维。尤为重要的是,无结构独白在大多数模型规模中表现出一致的有效性。作者的贡献可以总结如下:

作者介绍了包含21000个指令-响应对的大规模数据集ThinkPatterns-21k,并为每个数据对增补了五种不同的内部思维模式(一种无结构和四种有结构的变体),旨在促进该领域的进一步研究。

作者首次全面研究了模型规模与思考模式之间的交互作用,表明较小规模的模型(少于30B参数)可以从中受益最多的结构化思考模式,而较大的模型(32亿参数)则更适合无结构化思考。作者的分析还揭示出,无结构化独白在大多数模型规模中展现出一致的有效性。

2 Related Work

Prompt 工程在语言模型推理方面的进展 语言模型推理的发展通过 Prompt 工程技术取得了显著进步。在Chain-of-Thought (CoT) (Wei等人,2022) 的开创性工作之后,研究行人提出了多种思考框架。这些框架包括Self-Ask (Press等人,2023) 用于交互式问题分解、Self-Debate (Liang等人,2024) 用于辩证推理,以及Divide-and-Conquer (Wang等人,2023;Khot等人,2023) 用于系统问题解决。然而,这些方法仅关注 Prompt 工程,并未将这些思考模式内化到模型的参数中。

模型训练以增强推理能力 在增强推理能力的努力中,除了prompt工程之外,另一个研究方向是通过数据合成和模型训练来提升推理能力。最近的进展包括应用蒙特卡洛树搜索进行推理路径生成,以及利用GPT-4进行示范合成(Chen等人,2024)。来自高级推理模型的知识蒸馏也显示出良好的前景。虽然这些方法显示出了有希望的结果,但它们仍未彻底探讨结构化思维模式的优势,而模型规模与思维模式效果之间的关系仍主要处于未探索状态。

LLM 测试时间计算扩展测试时间计算扩展已被证明是一种提升大语言模型推理能力的有效方法。总体而言,这种方法可以分为两种策略:生成单一的延伸型链式思考(CoT)和重复采样 CoT 响应。

在单一长链条思考方法中,模型(如 OpenAI 的 O1/O3、QwQ 和 Deepseek R1)被训练以生成单独且较长的链式思考序列,这些序列包含上下文相关的反思和回溯,用以应对复杂的推理任务(Guo 等,2025;Jaech 等,2024;团队,2024b)。另一方面,重复采样技术(例如 Best-of-N 策略或基于搜索机制的方法,如 MCTS)通过生成多个候选响应来提高推理性能,这些响应通常由搜索算法或奖励模型引导,并最终选择最有效的结果(Snell 等,2024;Brown 等,2024)。在本项工作中,作者专注于单一延伸型链式思考方法,并探索不同类型单一链式思考的结构变体。

3 Dataset

在本节中,作者介绍作者的ThinkPatterns21k数据集,并描述其关键规范。

其中, 为无结构独白; 为分解思考; 为自我提问思考; 为自我辩论思考; 为自我批判思考。

因此,作者的最终数据集ThinkPatterns-21k可以表示为,

3.1 Thinking patterns in set

作者的数据集包含五种思维模式。下面作者将详细介绍每种思维模式。详见附录A中的具体示例。

未结构化独白表现为一种不受明确结构约束的自由思考模式,如图3所示。大多数现有的推理模型,例如OpenAI的O1系列,通过这种方式不仅提高了推理路径的效率,还增强了其可解释性。

etal., 2024) 和 Deepseek R1 (Guo et al., 2025) 遵循这种无结构的独白思考模式来生成其推理过程。

自我提问思考是另一种可能有效的方法,受到了苏格拉底式提问流程的启发(Press等,2023)。如图5所示,在这种类型的思考中,模型会基于用户的指令从多个角度迭代地提出子问题,并自行回答这些问题。通过参与这种递归的提问模式,模型可以更深入地探索问题,识别潜在的知识盲点,并生成更为详尽和合乎逻辑的回应。

分解思维是一种系统化和结构化的思考框架,采用分而治之的原则(Wang等,2023;Khot等,2023)。它有条不紊地将复杂问题拆解为更小、更易于管理的部分,并通过迭代解决这些部分,从而在五个步骤中实现更加透明和可追踪的推理过程,如图4所示。这种分解策略不仅增强了问题解决的能力。

自我辩论思维是一种推理框架,能够在单智能体推理过程中通过采用对立视角进行结构化的内部辩论。借鉴多智能体辩论方法的研究(Chan等,2024;Liang等,2024),这种方法通过结构化论辩展示了增强的性能,作者的机制(如图6所示)将这些优势内化,通过系统的自我对话实现这一目标。这种方法使模型能够利用辩论式推理的优势,而无需使用多个独立的智能体,从而有效地将外部多智能体辩论转化为内部推理过程。

自我批判思维是一种迭代推理框架,其中模型会对自己最初的回答进行自我评论和修正,如图7所示。在这个过程中,模型首先生成一个草稿答案,然后通过提供详细的评论对其自身的回应进行批判性评估,最后产生一个精炼的最终输出。此前的研究表明,这种自我评论和修订的工作流程可以显著提高模型性能(Madaan等,2024)。通过这一系统的自我审核机制,作者旨在通过识别并解决初始草稿中的潜在弱点来提高模型回答的质量和可靠性。

3.2 Dataset Construction Process

指令-响应对集合 为了构建包含明确内部思考过程的数据集,作者首先从现有的指令跟随数据集中采样了指令-响应对。由于其涵盖了多种多样的指令跟随场景,作者选择了Infinite Instruct数据集作为种子数据集。在过滤掉非英语数据后,作者随机采样了21000条指令-响应对,并确保不同类型的任务分布保持平衡(如图8所示)。

思维模式构建。为了为每对指令-响应生成内部思维模式,作者采用了GPT-4o作为主要注解模型。作者设计了特定的 Prompt 词(详见附录A),以此引导GPT-4o(Hurst等人,2024)生成与作者设计的五种思维模式相一致的内部思考过程。这些 Prompt 词经过精心设计,以确保生成的思考过程反映自然的认知发展进程,保持思维过程与最终响应的一致性,并涵盖每个任务类型相关问题解决的各个方面。

为了质量验证,三位标注员对生成的内部思维样本进行了抽查。审查重点检查了推理链的逻辑连贯性和其与原始指令的相关性。这种基于抽样的验证有助于确保作者思维模拟方法的基本质量,同时保持合理的指令-响应关系。

思维模式的统计分析

表1对五种思维模式进行了全面分析,揭示了它们在Token长度和互动动态方面的显著特征。这些模式在结构设计和冗余度上表现出明显的差异。自我辩论显示了最高的Token计数,反映了它通过平均24.38轮次深入探讨多种视角的辩证性质。自我提问则展现了最高的平均轮次数 ,表明其高度迭代的问题解答方式,同时维持适中的Token长度。相比之下,独白、分解和自我批判遵循更为结构化的格式,并有预设的轮次数。独白采用单一回合的方式,在一次轮次中生成平均1300.50个Token。尽管分解有固定的五步结构,但它展示了最为简洁的Token使用情况。自我批判在其两步过程中结合初步回应与后续评论,导致大量的Token生成。

这种思维模式的多样性表明它们可能具有互补的角色:自我辩论擅长全面探索,自我提问在逐步推理方面表现出色,分解在结构化分析中发挥作用,独白则擅长直接回应,而自我批判在反思性思考中有优势。

4 Experiment about Thinking Patterns

4.1 Experiment Setup

为了严谨地评估作者数据集的有效性,作者在多种模型规模上进行了全面实验。本节详细介绍了作者的实验设置、评价方法以及基准测试策略。

基模型 为了系统地评估不同规模模型的表现,作者在Qwen-2.5系列中选择了从3亿到32亿参数的基模型(Team, 2024a)。

评价基准 作者采用了两种广受认可的基准来评估开放式语言模型的表现:

AlpacaEval 2 (Li等, 2023): 包含805个多样化的指令,来源于真实的用户交互,涵盖了广泛的实际应用场景。该基准使用GPT-4-Turbo (1106) 作为对比评价的 Baseline 。

Arena-Hard (李等, 2024): 包含了500个特别具有挑战性的用户 Query ,旨在测试高级推理能力。该基准使用GPT-4-0314作为评价基准。

两种基准均采用大语言模型作为评判者进行自动化对比评估,其中模型生成的响应与 Baseline 响应进行对比以确定相对性能。

评价指标 作者的评估框架包含了多种互补的指标:

胜率 (WR): 标准比较指标,用于衡量偏好响应的比例与基础模型相比。· 响应长度控制胜率 (LC): 对于 AlpacaEval 2,此指标对响应长度进行了标准化处理,以最小化长度偏差。

作者的程序遵循了一项仔细控制的协议:

训练配置:模型使用作者的ThinkPatterns21k数据集进行了3轮微调。

数据格式:每个训练样本遵循默认的对话模板,要求模型生成一个思考过程(用和Token 包围)以及最终回复。这种结构化的格式使得思考过程与最终回复可以分离,便于对回复进行独立评估。

推理设置:两个基准均采用了贪婪解码以确保可重复性和公平比较。

指令:为什么很多科学家不相信上帝或撒旦? 独白:为什么许多科学家不相信上帝或撒旦?这是一个有趣的问题。初看起来,这似乎是信仰与证据之间的直接对立,但实际上可能不仅仅是如此。让作者来拆解一下这个问题。科学本质上是通过观察、实验和证据来理解自然界的过程。它依赖于实证数据和逻辑推理……[223词]……等等,也许作者可以从另一个角度考虑。许多科学家可能会认为……[338词]……哦!现在我明白了……这也是因为科学的本质寻求用自然原因解释自然科学现象。

生成回答:许多科学家不相信上帝或撒旦的原因是多方面且复杂的,并且需要指出的是,个人信仰之间存在广泛的差异。以下是一些可能导致这种观点的因素:1. 科学方法和实证证据……[623词]……5. 科学与宗教的分离:一些科学家维持科学与宗教之间的区别,认为两者是处理不同类型问题的不同领域……[34词]……6. 个人经历和背景:个人背景、成长环境、教育和生活经历在塑造一个人的信仰中起着重要作用……[16词]……7. 怀疑精神与批判性思维:科学界对怀疑主义和批判性思维的强烈重视鼓励人们质疑和挑战……[22词]……需要注意的是,并非所有科学家都持有这种观点,而且许多人确实持有宗教信仰。此外,科学与宗教之间的关系是复杂且因人而异的。

Generated Response:

许多科学家可能不相信上帝或撒旦存在的原因有几点:1. 科学方法:科学依赖于实证证据、观察和实验来理解自然界。……2. 缺乏证据:科学家通常在接受一个断言为真之前需要证据。……3. 自然解释:科学试图通过自然原因和过程来解释现象。……4. 哲学观点:许多科学家坚持某种哲学……5. 历史背景:历史上,科学与有组织的宗教之间一直存在着紧张关系……需要注意的是,并非所有科学家持有相同的信仰,也有许多科学家相信上帝或撒旦。个人信念是主观的,在不同个体间有所差异。……

4.2 Main Results Analysis

表2展示了不同思考模式在Qwen2.5系列不同规模模型之间的全面实验结果比较。作者的分析揭示了几项关键发现:

在AlpacaEval2中,长度控制胜率达到了29.53%,所有思考模式的胜率均超过40%,表现最佳的模式达到了44.68%。这一趋势表明,模型容量与思考模式的有效性之间存在正相关关系。

整体有效性 所有思考模式在不同模型规模下显著优于 Baseline 指令-响应方法。特别是在大型模型中,性能差距随着模型规模的增加而扩大。例如,在Qwen2.5-14B中, Baseline 方法达到的结构化与非结构化思考模式之间的差异尤为明显:代表非结构化方法的独白模式在不同模型规模(3B、14B和32B)下始终表现出色,特别是在大型模型中表现尤为突出(在Arena-Hard测试中,14B模型的胜率为66.20%,32B模型的胜率为71.60%)。相比之下,高度结构化的分解思考模式与模型规模呈反比关系——虽然对小型模型有效,但随着模型规模的增加,效果逐渐减弱,并最终导致32B模型在所有模式中表现最差(在Arena-Hard测试中的胜率为50.80%)。

第3和第4部分的结果定性分析提供了对该现象的一些见解。对于采用分解思维模式的Qwen14B,其僵硬且结构化的思考过程似乎限制了模型的灵活性,在面对多样性的指令时导致了次优反应。相比之下,采用无结构独白模式的Qwen-14B则表现出更高的适应能力,能够进行全方位多视角的分析,并生成更为全面的回应。这表明,虽然结构化的思考支架可能有利于较小的模型,但较大的模型似乎更适合使用更灵活且无结构的思考方法,以便充分利用其增强的能力。

不同思维模式的效果表现出明显的模型大小依赖性。在较小的模型(3B-7B)中,结构化和非结构化的思维模式在 Baseline 之上展现出相当的改进效果。中等大小的模型(14B)似乎是一个转折点,在此模型下所有思维模式都能提供显著的增益。然而,在最大的模型(32B)中,作者观察到非结构化思维模式具有明显的优越性,单独思考显著优于结构化方法。这种不同模型大小下的效果差异表明,应根据模型大小选择最优的思维模式。

两阶段思考稳定性如自我批评式思维模式 自我批评式的思维模式执行生成和评估的两阶段思考过程,展现出在不同模型规模中的显著稳定性。无论模型大小如何,它始终保持良好的表现,从未出现最差情况,并且偶尔还能取得最佳效果(例如,在 AlpacaEval 2 中,7B 模型的长度控制胜率高达 36.42%)。这种稳定性表明,评估与改进的迭代思考范式可能是一种适用于所有模型规模的普遍有益方法。此外,即使在 32B 模型中,它也维持了竞争力,其在 ArenaHard 上的胜率为 71.40%,这表明该方法的有效性随着模型规模的增加而良好扩展。

5 Conclusion

在本研究中,作者对不同的思考模式如何影响不同规模语言模型的性能进行了全面分析。通过使用ThinkPatterns-21k数据集进行大量实验,作者发现较小规模的语言模型(参数量小于30B)可以从结构化的思考模式中受益,而大规模模型(32B参数)则更适合采用非结构化的策略。值得注意的是,非结构化的独白思考模式在大多数模型规模下都表现出了持续的有效性。作者发布了ThinkPatterns-21k数据集及相关预训练权重和训练日志,为研究界提供了宝贵的资源。

作者的发现为探索模型规模与思考模式之间的关系开辟了新的途径,并有助于更高效地推进语言模型推理方法的发展。

局限性 虽然作者的工作在增强语言模型的推理能力方面取得了令人鼓舞的结果,但作者承认存在几个局限性。首先也是最重要的一点,作者的数据集仅构建于英语之中,这可能限制了其在多语言场景中的应用,并且可能无法捕捉到其他语言和文化中特有的推理模式。这种单一语言的焦点可能导致当模型应用于非英语任务或跨语言推理场景时表现出偏见。

参考

[0]. ThinkPatterns-21k: A Systematic Study on the Impact of Thinking Patterns in LLMs .

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-04-28,如有侵权请联系 cloudcommunity@tencent 删除框架模型数据系统性能

ThinkPatterns

大语言模型(LLMs)通过思考然后响应的范式展示了增强的性能,在这个范式中,模型在最终回应之前会生成内部思考(即,系统2思考)。然而,现有的研究缺乏对思考模式如何影响不同规模模型性能的系统性理解。在本工作中,作者对各种思考类型对模型性能的影响进行了全面分析,并引入了ThinkPatterns-21k数据集,该数据集包含21000个指令-回应对(问答),从现有指令跟随数据集中收集而来,并包括五种思考类型。对于每一对,作者在保持相同指令和回应的同时,增加五个不同的内部思考模式:一种无结构思考(独白)和四种结构化变体(分解、自我提问、自我辩论和自我批判)。

通过在不同规模的模型(参数从3亿到32亿)上进行广泛评估,作者得出了两个关键发现:

(1)较小的模型(<300亿参数)可以从大多数结构化思考模式中获益,而较大的32亿参数模型使用结构化思考如分解则会导致性能下降;

(2)无结构独白在不同规模的模型中表现出广泛的有效性。

最后,作者将所有数据集、预训练权重及各种思考模式的训练日志公开,以实现可重复性,旨在促进后续研究工作的开展。

1 Introduction

大语言模型(LLMs)传统上被设计为在接收到人类指令后立即生成响应。然而,像OpenAI的O1/O3、QwQ(Team,2024b)和Deepseek R1 这类具备推理能力的模型的出现,展示了新的范式:先思考后响应,也即系统2思考(Evans,2003)。在这种范式下,模型会在最终响应前进行明确的思考过程。这种方法已经显示出显著的成功,实现了甚至超越了人类水平的性能,在多个领域都有所体现,包括数学问题解决、编程任务等。

然而,当前环境中存在一个根本性的挑战:传统的大语言模型并未被本初设计为遵循“思考然后回应”的范式,因此需要专门的训练以诱导这种行为。具体而言,现有的训练数据往往完全忽略了思考过程(Zelikman等,2024),并且缺乏系统标注的思考模式标注(Wu等,2024),这些可以指导模型进行推理。近期的研究探讨了几种技术手段来应对这一挑战。其中一类方法专注于合成数据生成,包括使用蒙特卡洛树搜索生成推理路径,利用GPT-4o生成思考示范,以及从现有推理模型中提炼知识。这种方法直接解决了训练数据中缺少思考过程标注的局限性。

另一条路线采用强化学习(RL)(Sutton, 2018),以Deepseek R1 Zero为例,这种方法使模型能够自主学习推理路径,而无需明确标注思考过程。然而,这些方法仍面临显著的局限性。首先,基于RL的方法通常生成无结构的思考模式,而现有的合成数据生成方法也主要集中在无结构的思考模式上。鉴于结构化 Prompt 技术(如自我提问(Press等,2023)、辩论(Liang等,2024)、分而治之(Wang等,2023;Khot等,2023))在提升模型性能方面的有效性,作者认为让模型在推理过程中遵循结构化的思考模式是很有前景的。此外,关于不同思考模式在不同模型规模下表现的理解仍然有限,这使得在不进行大量实验的情况下确定最优的思考模式变得困难。

为了克服这些限制,作者对不同的思维模式对大语言模型性能的影响进行了全面研究,跨越了不同规模的模型。如图1所示,作者构建了一个包含21000个指令-响应对的大规模数据集,并为每一对添加了五种不同的思维模式——一种无结构思维(独白)和四种结构化变体(分解、自我提问、自我辩论和自我批评)。

值得注意的是,作者在每种模式下保持相同的指令和响应,但改变了内部的思维过程。通过在不同规模模型(从3B到32B参数)的Arena Hard(Li等人,2024)和Alpaca Eval 2(Li等人,2023)基准上的系统实验,作者发现较小的模型(参数少于30B)能够从大多数结构化思维模式中获益,而较大的模型(32B参数)则更适合无结构思维。尤为重要的是,无结构独白在大多数模型规模中表现出一致的有效性。作者的贡献可以总结如下:

作者介绍了包含21000个指令-响应对的大规模数据集ThinkPatterns-21k,并为每个数据对增补了五种不同的内部思维模式(一种无结构和四种有结构的变体),旨在促进该领域的进一步研究。

作者首次全面研究了模型规模与思考模式之间的交互作用,表明较小规模的模型(少于30B参数)可以从中受益最多的结构化思考模式,而较大的模型(32亿参数)则更适合无结构化思考。作者的分析还揭示出,无结构化独白在大多数模型规模中展现出一致的有效性。

2 Related Work

Prompt 工程在语言模型推理方面的进展 语言模型推理的发展通过 Prompt 工程技术取得了显著进步。在Chain-of-Thought (CoT) (Wei等人,2022) 的开创性工作之后,研究行人提出了多种思考框架。这些框架包括Self-Ask (Press等人,2023) 用于交互式问题分解、Self-Debate (Liang等人,2024) 用于辩证推理,以及Divide-and-Conquer (Wang等人,2023;Khot等人,2023) 用于系统问题解决。然而,这些方法仅关注 Prompt 工程,并未将这些思考模式内化到模型的参数中。

模型训练以增强推理能力 在增强推理能力的努力中,除了prompt工程之外,另一个研究方向是通过数据合成和模型训练来提升推理能力。最近的进展包括应用蒙特卡洛树搜索进行推理路径生成,以及利用GPT-4进行示范合成(Chen等人,2024)。来自高级推理模型的知识蒸馏也显示出良好的前景。虽然这些方法显示出了有希望的结果,但它们仍未彻底探讨结构化思维模式的优势,而模型规模与思维模式效果之间的关系仍主要处于未探索状态。

LLM 测试时间计算扩展测试时间计算扩展已被证明是一种提升大语言模型推理能力的有效方法。总体而言,这种方法可以分为两种策略:生成单一的延伸型链式思考(CoT)和重复采样 CoT 响应。

在单一长链条思考方法中,模型(如 OpenAI 的 O1/O3、QwQ 和 Deepseek R1)被训练以生成单独且较长的链式思考序列,这些序列包含上下文相关的反思和回溯,用以应对复杂的推理任务(Guo 等,2025;Jaech 等,2024;团队,2024b)。另一方面,重复采样技术(例如 Best-of-N 策略或基于搜索机制的方法,如 MCTS)通过生成多个候选响应来提高推理性能,这些响应通常由搜索算法或奖励模型引导,并最终选择最有效的结果(Snell 等,2024;Brown 等,2024)。在本项工作中,作者专注于单一延伸型链式思考方法,并探索不同类型单一链式思考的结构变体。

3 Dataset

在本节中,作者介绍作者的ThinkPatterns21k数据集,并描述其关键规范。

其中, 为无结构独白; 为分解思考; 为自我提问思考; 为自我辩论思考; 为自我批判思考。

因此,作者的最终数据集ThinkPatterns-21k可以表示为,

3.1 Thinking patterns in set

作者的数据集包含五种思维模式。下面作者将详细介绍每种思维模式。详见附录A中的具体示例。

未结构化独白表现为一种不受明确结构约束的自由思考模式,如图3所示。大多数现有的推理模型,例如OpenAI的O1系列,通过这种方式不仅提高了推理路径的效率,还增强了其可解释性。

etal., 2024) 和 Deepseek R1 (Guo et al., 2025) 遵循这种无结构的独白思考模式来生成其推理过程。

自我提问思考是另一种可能有效的方法,受到了苏格拉底式提问流程的启发(Press等,2023)。如图5所示,在这种类型的思考中,模型会基于用户的指令从多个角度迭代地提出子问题,并自行回答这些问题。通过参与这种递归的提问模式,模型可以更深入地探索问题,识别潜在的知识盲点,并生成更为详尽和合乎逻辑的回应。

分解思维是一种系统化和结构化的思考框架,采用分而治之的原则(Wang等,2023;Khot等,2023)。它有条不紊地将复杂问题拆解为更小、更易于管理的部分,并通过迭代解决这些部分,从而在五个步骤中实现更加透明和可追踪的推理过程,如图4所示。这种分解策略不仅增强了问题解决的能力。

自我辩论思维是一种推理框架,能够在单智能体推理过程中通过采用对立视角进行结构化的内部辩论。借鉴多智能体辩论方法的研究(Chan等,2024;Liang等,2024),这种方法通过结构化论辩展示了增强的性能,作者的机制(如图6所示)将这些优势内化,通过系统的自我对话实现这一目标。这种方法使模型能够利用辩论式推理的优势,而无需使用多个独立的智能体,从而有效地将外部多智能体辩论转化为内部推理过程。

自我批判思维是一种迭代推理框架,其中模型会对自己最初的回答进行自我评论和修正,如图7所示。在这个过程中,模型首先生成一个草稿答案,然后通过提供详细的评论对其自身的回应进行批判性评估,最后产生一个精炼的最终输出。此前的研究表明,这种自我评论和修订的工作流程可以显著提高模型性能(Madaan等,2024)。通过这一系统的自我审核机制,作者旨在通过识别并解决初始草稿中的潜在弱点来提高模型回答的质量和可靠性。

3.2 Dataset Construction Process

指令-响应对集合 为了构建包含明确内部思考过程的数据集,作者首先从现有的指令跟随数据集中采样了指令-响应对。由于其涵盖了多种多样的指令跟随场景,作者选择了Infinite Instruct数据集作为种子数据集。在过滤掉非英语数据后,作者随机采样了21000条指令-响应对,并确保不同类型的任务分布保持平衡(如图8所示)。

思维模式构建。为了为每对指令-响应生成内部思维模式,作者采用了GPT-4o作为主要注解模型。作者设计了特定的 Prompt 词(详见附录A),以此引导GPT-4o(Hurst等人,2024)生成与作者设计的五种思维模式相一致的内部思考过程。这些 Prompt 词经过精心设计,以确保生成的思考过程反映自然的认知发展进程,保持思维过程与最终响应的一致性,并涵盖每个任务类型相关问题解决的各个方面。

为了质量验证,三位标注员对生成的内部思维样本进行了抽查。审查重点检查了推理链的逻辑连贯性和其与原始指令的相关性。这种基于抽样的验证有助于确保作者思维模拟方法的基本质量,同时保持合理的指令-响应关系。

思维模式的统计分析

表1对五种思维模式进行了全面分析,揭示了它们在Token长度和互动动态方面的显著特征。这些模式在结构设计和冗余度上表现出明显的差异。自我辩论显示了最高的Token计数,反映了它通过平均24.38轮次深入探讨多种视角的辩证性质。自我提问则展现了最高的平均轮次数 ,表明其高度迭代的问题解答方式,同时维持适中的Token长度。相比之下,独白、分解和自我批判遵循更为结构化的格式,并有预设的轮次数。独白采用单一回合的方式,在一次轮次中生成平均1300.50个Token。尽管分解有固定的五步结构,但它展示了最为简洁的Token使用情况。自我批判在其两步过程中结合初步回应与后续评论,导致大量的Token生成。

这种思维模式的多样性表明它们可能具有互补的角色:自我辩论擅长全面探索,自我提问在逐步推理方面表现出色,分解在结构化分析中发挥作用,独白则擅长直接回应,而自我批判在反思性思考中有优势。

4 Experiment about Thinking Patterns

4.1 Experiment Setup

为了严谨地评估作者数据集的有效性,作者在多种模型规模上进行了全面实验。本节详细介绍了作者的实验设置、评价方法以及基准测试策略。

基模型 为了系统地评估不同规模模型的表现,作者在Qwen-2.5系列中选择了从3亿到32亿参数的基模型(Team, 2024a)。

评价基准 作者采用了两种广受认可的基准来评估开放式语言模型的表现:

AlpacaEval 2 (Li等, 2023): 包含805个多样化的指令,来源于真实的用户交互,涵盖了广泛的实际应用场景。该基准使用GPT-4-Turbo (1106) 作为对比评价的 Baseline 。

Arena-Hard (李等, 2024): 包含了500个特别具有挑战性的用户 Query ,旨在测试高级推理能力。该基准使用GPT-4-0314作为评价基准。

两种基准均采用大语言模型作为评判者进行自动化对比评估,其中模型生成的响应与 Baseline 响应进行对比以确定相对性能。

评价指标 作者的评估框架包含了多种互补的指标:

胜率 (WR): 标准比较指标,用于衡量偏好响应的比例与基础模型相比。· 响应长度控制胜率 (LC): 对于 AlpacaEval 2,此指标对响应长度进行了标准化处理,以最小化长度偏差。

作者的程序遵循了一项仔细控制的协议:

训练配置:模型使用作者的ThinkPatterns21k数据集进行了3轮微调。

数据格式:每个训练样本遵循默认的对话模板,要求模型生成一个思考过程(用和Token 包围)以及最终回复。这种结构化的格式使得思考过程与最终回复可以分离,便于对回复进行独立评估。

推理设置:两个基准均采用了贪婪解码以确保可重复性和公平比较。

指令:为什么很多科学家不相信上帝或撒旦? 独白:为什么许多科学家不相信上帝或撒旦?这是一个有趣的问题。初看起来,这似乎是信仰与证据之间的直接对立,但实际上可能不仅仅是如此。让作者来拆解一下这个问题。科学本质上是通过观察、实验和证据来理解自然界的过程。它依赖于实证数据和逻辑推理……[223词]……等等,也许作者可以从另一个角度考虑。许多科学家可能会认为……[338词]……哦!现在我明白了……这也是因为科学的本质寻求用自然原因解释自然科学现象。

生成回答:许多科学家不相信上帝或撒旦的原因是多方面且复杂的,并且需要指出的是,个人信仰之间存在广泛的差异。以下是一些可能导致这种观点的因素:1. 科学方法和实证证据……[623词]……5. 科学与宗教的分离:一些科学家维持科学与宗教之间的区别,认为两者是处理不同类型问题的不同领域……[34词]……6. 个人经历和背景:个人背景、成长环境、教育和生活经历在塑造一个人的信仰中起着重要作用……[16词]……7. 怀疑精神与批判性思维:科学界对怀疑主义和批判性思维的强烈重视鼓励人们质疑和挑战……[22词]……需要注意的是,并非所有科学家都持有这种观点,而且许多人确实持有宗教信仰。此外,科学与宗教之间的关系是复杂且因人而异的。

Generated Response:

许多科学家可能不相信上帝或撒旦存在的原因有几点:1. 科学方法:科学依赖于实证证据、观察和实验来理解自然界。……2. 缺乏证据:科学家通常在接受一个断言为真之前需要证据。……3. 自然解释:科学试图通过自然原因和过程来解释现象。……4. 哲学观点:许多科学家坚持某种哲学……5. 历史背景:历史上,科学与有组织的宗教之间一直存在着紧张关系……需要注意的是,并非所有科学家持有相同的信仰,也有许多科学家相信上帝或撒旦。个人信念是主观的,在不同个体间有所差异。……

4.2 Main Results Analysis

表2展示了不同思考模式在Qwen2.5系列不同规模模型之间的全面实验结果比较。作者的分析揭示了几项关键发现:

在AlpacaEval2中,长度控制胜率达到了29.53%,所有思考模式的胜率均超过40%,表现最佳的模式达到了44.68%。这一趋势表明,模型容量与思考模式的有效性之间存在正相关关系。

整体有效性 所有思考模式在不同模型规模下显著优于 Baseline 指令-响应方法。特别是在大型模型中,性能差距随着模型规模的增加而扩大。例如,在Qwen2.5-14B中, Baseline 方法达到的结构化与非结构化思考模式之间的差异尤为明显:代表非结构化方法的独白模式在不同模型规模(3B、14B和32B)下始终表现出色,特别是在大型模型中表现尤为突出(在Arena-Hard测试中,14B模型的胜率为66.20%,32B模型的胜率为71.60%)。相比之下,高度结构化的分解思考模式与模型规模呈反比关系——虽然对小型模型有效,但随着模型规模的增加,效果逐渐减弱,并最终导致32B模型在所有模式中表现最差(在Arena-Hard测试中的胜率为50.80%)。

第3和第4部分的结果定性分析提供了对该现象的一些见解。对于采用分解思维模式的Qwen14B,其僵硬且结构化的思考过程似乎限制了模型的灵活性,在面对多样性的指令时导致了次优反应。相比之下,采用无结构独白模式的Qwen-14B则表现出更高的适应能力,能够进行全方位多视角的分析,并生成更为全面的回应。这表明,虽然结构化的思考支架可能有利于较小的模型,但较大的模型似乎更适合使用更灵活且无结构的思考方法,以便充分利用其增强的能力。

不同思维模式的效果表现出明显的模型大小依赖性。在较小的模型(3B-7B)中,结构化和非结构化的思维模式在 Baseline 之上展现出相当的改进效果。中等大小的模型(14B)似乎是一个转折点,在此模型下所有思维模式都能提供显著的增益。然而,在最大的模型(32B)中,作者观察到非结构化思维模式具有明显的优越性,单独思考显著优于结构化方法。这种不同模型大小下的效果差异表明,应根据模型大小选择最优的思维模式。

两阶段思考稳定性如自我批评式思维模式 自我批评式的思维模式执行生成和评估的两阶段思考过程,展现出在不同模型规模中的显著稳定性。无论模型大小如何,它始终保持良好的表现,从未出现最差情况,并且偶尔还能取得最佳效果(例如,在 AlpacaEval 2 中,7B 模型的长度控制胜率高达 36.42%)。这种稳定性表明,评估与改进的迭代思考范式可能是一种适用于所有模型规模的普遍有益方法。此外,即使在 32B 模型中,它也维持了竞争力,其在 ArenaHard 上的胜率为 71.40%,这表明该方法的有效性随着模型规模的增加而良好扩展。

5 Conclusion

在本研究中,作者对不同的思考模式如何影响不同规模语言模型的性能进行了全面分析。通过使用ThinkPatterns-21k数据集进行大量实验,作者发现较小规模的语言模型(参数量小于30B)可以从结构化的思考模式中受益,而大规模模型(32B参数)则更适合采用非结构化的策略。值得注意的是,非结构化的独白思考模式在大多数模型规模下都表现出了持续的有效性。作者发布了ThinkPatterns-21k数据集及相关预训练权重和训练日志,为研究界提供了宝贵的资源。

作者的发现为探索模型规模与思考模式之间的关系开辟了新的途径,并有助于更高效地推进语言模型推理方法的发展。

局限性 虽然作者的工作在增强语言模型的推理能力方面取得了令人鼓舞的结果,但作者承认存在几个局限性。首先也是最重要的一点,作者的数据集仅构建于英语之中,这可能限制了其在多语言场景中的应用,并且可能无法捕捉到其他语言和文化中特有的推理模式。这种单一语言的焦点可能导致当模型应用于非英语任务或跨语言推理场景时表现出偏见。

参考

[0]. ThinkPatterns-21k: A Systematic Study on the Impact of Thinking Patterns in LLMs .

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-04-28,如有侵权请联系 cloudcommunity@tencent 删除框架模型数据系统性能

本文标签: ThinkPatterns