X 上的 meng shao:“推理思维 (Reasoning Thinking) --> 智能体思维 (Agentic Thinking) Junyang 离开 Qwen 后首篇长文,指出 OpenAI o1 和 DeepSeek-R1 证明了强化学习可训练模型"先思考再回答",但这只是过渡阶段,推理是思考如何回答问题,智能体是思考如何行动。 AI LLM https://t.co/37Kxq8sKFz” / X

推理思维 (Reasoning Thinking) --> 智能体思维 (Agentic Thinking) Junyang 离开 Qwen 后首篇长文,指出 OpenAI o1 和 DeepSeek-R1 证明了强化学习可训练模型"先思考再回答",但这只是过渡阶段,推理是思考如何回答问题,智能体是思考如何行动。 AI LLM 领域正从"推理思维"向"智能体思维"范式转移! 从推理到智能体:范式转移的本质 · 核心问题:能否想得足够长?vs 能否在行动中持续取得进展? · 优化目标:内部思考质量 vs 环境交互中的有效行动 · 关键能力:数学证明、代码生成 vs 工具调用、计划修订、失败恢复 · 训练对象:模型本身 vs 模型+环境系统 关键洞察:单纯延长思考链条并不能自动提升智能。过度冗长的推理往往是弱分配的表现——模型未能正确判断何时该停止思考、采取行动。 混合模式的困境与分化 2025年业界普遍尝试将"思考模式"与"指令模式"融合为单一模型: · 通义千问 Qwen3:推出"混合思考模式",支持通过 /think 和 /no_think 标签切换 · Anthropic Claude 3.7/4:坚持集成式哲学,提供用户可控的思考预算 · GLM-4.5/DeepSeek V3.1:同样走向混合推理路线 实践教训:两种模式的数据分布和行为目标根本冲突 · 指令模式:奖励直接、简洁、低延迟,适合企业批量任务 · 思考模式:奖励在困难问题上消耗更多token、探索替代路径。 强行合并易导致双向平庸:思考变得冗长嘈杂,指令响应变得拖沓不可靠。 结果:Qwen3 在 2507 版本中重新分离了 Instruct 和 Thinking 两条产品线,Anthropic 则坚持集成路线——业界尚未达成统一共识。 智能体强化学习的工程挑战 智能体训练对基础设施提出全新要求: 1. 训练-推理解耦:工具调用(代码执行、浏览器、搜索)引入的延迟会阻塞GPU利用率,必须实现异步架构。 2. 环境即核心能力:环境稳定性、反馈丰富度、防作弊机制成为关键研究对象。 3. 奖励黑客风险:模型可能学会直接搜索答案、利用日志漏洞或钻评测空子,而非真正掌握任务。 未来竞争壁垒的转移(推理时代 vs 智能体时代) · RL 算法优化 vs 环境设计与评测鲁棒性 · 反馈信号工程 vs 训练-服务一体化架构 · 可扩展训练管线 vs 多智能体协调与工具链编排 AI 正从"训练模型"的时代进入"训练智能体"乃至"训练系统"的时代。最有价值的思考不再是孤立的内部独白,而是与工具、环境、其他智能体持续交互的行动导向型推理。

[

图像

](https://x.com/shao__meng/status/2037135885796303122/photo/1)

引用

Junyang Lin

@JustinLin610

·

19小时

文章

From "Reasoning" Thinking to "Agentic" Thinking

The last two years reshaped how we evaluate models and what we expect from them. OpenAI's o1 showed that "thinking" could be a first-class capability, something you train for and expose to users....

下午7:53 · 2026年3月26日

·

[

6,226

查看](https://x.com/shao__meng/status/2037135885796303122/analytics)

2

6

26

28

相关


原网址: 访问
创建于: 2026-03-27 13:52:07
目录: default
标签: 无

请先后发表评论
  • 最新评论
  • 总共0条评论