DeepSeek 提出「CodeI/O」:通过代码输入-输出预测提炼推理模式 - OSCHINA - 中文开源技术交流社区

阅读《2024 中国开源开发者报告》赢大奖,扫码申请享特权

DeepSeek 团队最近提出了一种名为「CodeIO」的新方法,用来提升大型语言模型(如 ChatGPT 等)的推理能力。传统方法通常专注于训练模型解决数学题或生成代码,但其他类型的推理任务(如逻辑推理、科学推理)由于缺乏高质量的训练数据,效果往往不佳。

这项研究的核心思路是:用代码教模型 “解题思维”

代码中其实隐藏着丰富的 “解题套路”。例如,一段计算阶乘的代码,本质上包含了 “从 1 连乘到 n” 的数学推理步骤。

CodeIO 的巧妙之处在于:

1. 把代码变成 “输入 - 输出” 练习题:给定一个代码函数和输入,让模型预测输出;或者给定代码和输出,让模型反推输入。
2. 用自然语言描述推理过程:模型需要像学生写解题步骤一样,用文字说明 “为什么输入 A 会得到输出 B”,而不是直接生成代码。这种 “思维链” 训练让模型学会通用的推理方法,比如如何拆解问题、如何验证条件等。

如何实现?

⭐收集代码:从算法题库、数学问题等来源筛选 45 万多个代码函数。
⭐生成练习题:为每个代码函数自动生成多组输入输出对,例如测试阶乘函数时,输入 5 对应输出 120。
⭐让模型 “写解题步骤”:使用一个强大的开源模型(DeepSeek-V2.5)为每个练习题生成自然语言的推理过程。
⭐纠错升级(CoDEI/O++):如果模型预测错误,系统会通过执行代码得到正确答案,并让模型根据反馈重新生成推理步骤。类似老师批改作业后让学生订正。

效果如何?

⭐在 14 个不同类型的推理测试中(涵盖数学、逻辑、常识等),经过 CoDEI/O 训练的模型表现更全面:
⭐不偏科:传统方法可能在数学题上得分高,但逻辑题得分低,而 CoDEI/O 在所有任务中均有提升。
⭐验证可靠:模型的推理步骤可以通过代码执行直接验证,确保正确性。
⭐开源共享:所有训练数据和模型已公开(GitHub),方便后续研究。

总结一下,CodeI/O 就像是一种新的 “思考训练营”,它利用代码这种结构化的信息,让 AI 学习更通用、更可靠的推理能力。


原网址: 访问
创建于: 2025-02-24 17:39:16
目录: default
标签: 无

请先后发表评论
  • 最新评论
  • 总共0条评论