🚀 大语言模型推理链微调新突破

🌟 核心发现

我们提出了一种创新方法 Diverse Chains of Thought (DCoT)，通过微调使大语言模型(LLM)在单次推理中生成多样化的推理链序列。实验表明，这种方法在1.3B到70B的不同规模模型上均能提升性能，特别是在数值答案等结果空间较大的任务中效果显著。模型展现出在单次推理中自我优化初始推理链的能力，实现了以往难以达到的自我改进。

图1: DCoT方法在单次推理中生成k个推理链并选择正确答案 (k=2示例)

🚀 方法创新

首次实现LLM在单次推理中生成序列化多样推理链，无需外部反馈即可进行推理链优化

📈 性能提升

在1.3B到70B的不同规模模型上均优于传统CoT基线，数值类任务提升尤为显著

💡 自我优化

定量分析和人工评估表明，模型能在单次推理中优化初始推理链，实现自我改进

🌍 广泛适用

覆盖科学问答、数学推理、逻辑推理等多种任务类型，展现强大泛化能力

图2: DCoT训练方法 - 通过串联多个CoT进行微调，使模型学会在单次推理中生成多个推理链

🔥 关键结果

在Phi-1.5(1.3B)到LLaMA-2 70B的多种模型规模上均取得显著提升
仅需生成2个推理链(k=2)即可获得大部分性能增益，推理成本增加极小
DCoT@1性能与CoT基线相当，可作为指令微调数据的安全替代
能与其他CoT扩展方法(如自一致性)协同工作，获得额外提升