🚀 DCoT: 多样化推理链微调驱动大语言模型推理优化 🔥

Haritz Puerto, Tilek Chubakov, Xiaodan Zhu, Harish Tayyar Madabushi, Iryna Gurevych
德国达姆施塔特工业大学UKP实验室 | 加拿大女王大学 | 英国巴斯大学
下载论文PDF 访问实验室网站

🌟 核心发现

我们提出了一种创新方法 Diverse Chains of Thought (DCoT),通过微调使大语言模型(LLM)在单次推理中生成多样化的推理链序列。实验表明,这种方法在1.3B到70B的不同规模模型上均能提升性能,特别是在数值答案等结果空间较大的任务中效果显著。模型展现出在单次推理中自我优化初始推理链的能力,实现了以往难以达到的自我改进。

DCoT方法示意图
图1: DCoT方法在单次推理中生成k个推理链并选择正确答案 (k=2示例)

🚀 方法创新

首次实现LLM在单次推理中生成序列化多样推理链,无需外部反馈即可进行推理链优化

📈 性能提升

在1.3B到70B的不同规模模型上均优于传统CoT基线,数值类任务提升尤为显著

💡 自我优化

定量分析和人工评估表明,模型能在单次推理中优化初始推理链,实现自我改进

🌍 广泛适用

覆盖科学问答、数学推理、逻辑推理等多种任务类型,展现强大泛化能力

DCoT训练方法
图2: DCoT训练方法 - 通过串联多个CoT进行微调,使模型学会在单次推理中生成多个推理链

🔥 关键结果