X 上的 meng shao：“推理思维 (Reasoning Thinking) --> 智能体思维 (Agentic Thinking) Junyang 离开 Qwen 后首篇长文，指出 OpenAI o1 和 DeepSeek-R1 证明了强化学习可训练模型"先思考再回答"，但这只是过渡阶段，推理是思考如何回答问题，智能体是思考如何行动。 AI LLM https://t.co/37Kxq8sKFz” / X

安宇雨 - 随手采集
2026-03-27 13:52:18
随手采集
0000-未整理-等待研究

推理思维 (Reasoning Thinking) --> 智能体思维 (Agentic Thinking) Junyang 离开 Qwen 后首篇长文，指出 OpenAI o1 和 DeepSeek-R1 证明了强化学习可训练模型"先思考再回答"，但这只是过渡阶段，推理是思考如何回答问题，智能体是思考如何行动。 AI LLM 领域正从"推理思维"向"智能体思维"范式转移！从推理到智能体：范式转移的本质 · 核心问题：能否想得足够长？vs 能否在行动中持续取得进展？ · 优化目标：内部思考质量 vs 环境交互中的有效行动 · 关键能力：数学证明、代码生成 vs 工具调用、计划修订、失败恢复 · 训练对象：模型本身 vs 模型+环境系统关键洞察：单纯延长思考链条并不能自动提升智能。过度冗长的推理往往是弱分配的表现——模型未能正确判断何时该停止思考、采取行动。混合模式的困境与分化 2025年业界普遍尝试将"思考模式"与"指令模式"融合为单一模型： · 通义千问 Qwen3：推出"混合思考模式"，支持通过 /think 和 /no_think 标签切换 · Anthropic Claude 3.7/4：坚持集成式哲学，提供用户可控的思考预算 · GLM-4.5/DeepSeek V3.1：同样走向混合推理路线实践教训：两种模式的数据分布和行为目标根本冲突 · 指令模式：奖励直接、简洁、低延迟，适合企业批量任务 · 思考模式：奖励在困难问题上消耗更多token、探索替代路径。强行合并易导致双向平庸：思考变得冗长嘈杂，指令响应变得拖沓不可靠。结果：Qwen3 在 2507 版本中重新分离了 Instruct 和 Thinking 两条产品线，Anthropic 则坚持集成路线——业界尚未达成统一共识。智能体强化学习的工程挑战智能体训练对基础设施提出全新要求： 1. 训练-推理解耦：工具调用（代码执行、浏览器、搜索）引入的延迟会阻塞GPU利用率，必须实现异步架构。 2. 环境即核心能力：环境稳定性、反馈丰富度、防作弊机制成为关键研究对象。 3. 奖励黑客风险：模型可能学会直接搜索答案、利用日志漏洞或钻评测空子，而非真正掌握任务。未来竞争壁垒的转移（推理时代 vs 智能体时代） · RL 算法优化 vs 环境设计与评测鲁棒性 · 反馈信号工程 vs 训练-服务一体化架构 · 可扩展训练管线 vs 多智能体协调与工具链编排 AI 正从"训练模型"的时代进入"训练智能体"乃至"训练系统"的时代。最有价值的思考不再是孤立的内部独白，而是与工具、环境、其他智能体持续交互的行动导向型推理。

[

](https://x.com/shao__meng/status/2037135885796303122/photo/1)

引用

Junyang Lin

@JustinLin610

19小时

文章

From "Reasoning" Thinking to "Agentic" Thinking

The last two years reshaped how we evaluate models and what we expect from them. OpenAI's o1 showed that "thinking" could be a first-class capability, something you train for and expose to users....

下午7:53 · 2026年3月26日

[

6,226

查看](https://x.com/shao__meng/status/2037135885796303122/analytics)