推理思维 (Reasoning Thinking) --> 智能体思维 (Agentic Thinking) Junyang 离开 Qwen 后首篇长文,指出 OpenAI o1 和 DeepSeek-R1 证明了强化学习可训练模型"先思考再回答",但这只是过渡阶段,推理是思考如何回答问题,智能体是思考如何行动。 AI LLM 领域正从"推理思维"向"智能体思维"范式转移! 从推理到智能体:范式转移的本质 · 核心问题:能否想得足够长?vs 能否在行动中持续取得进展? · 优化目标:内部思考质量 vs 环境交互中的有效行动 · 关键能力:数学证明、代码生成 vs 工具调用、计划修订、失败恢复 · 训练对象:模型本身 vs 模型+环境系统 关键洞察:单纯延长思考链条并不能自动提升智能。过度冗长的推理往往是弱分配的表现——模型未能正确判断何时该停止思考、采取行动。 混合模式的困境与分化 2025年业界普遍尝试将"思考模式"与"指令模式"融合为单一模型: · 通义千问 Qwen3:推出"混合思考模式",支持通过 /think 和 /no_think 标签切换 · Anthropic Claude 3.7/4:坚持集成式哲学,提供用户可控的思考预算 · GLM-4.5/DeepSeek V3.1:同样走向混合推理路线 实践教训:两种模式的数据分布和行为目标根本冲突 · 指令模式:奖励直接、简洁、低延迟,适合企业批量任务 · 思考模式:奖励在困难问题上消耗更多token、探索替代路径。 强行合并易导致双向平庸:思考变得冗长嘈杂,指令响应变得拖沓不可靠。 结果:Qwen3 在 2507 版本中重新分离了 Instruct 和 Thinking 两条产品线,Anthropic 则坚持集成路线——业界尚未达成统一共识。 智能体强化学习的工程挑战 智能体训练对基础设施提出全新要求: 1. 训练-推理解耦:工具调用(代码执行、浏览器、搜索)引入的延迟会阻塞GPU利用率,必须实现异步架构。 2. 环境即核心能力:环境稳定性、反馈丰富度、防作弊机制成为关键研究对象。 3. 奖励黑客风险:模型可能学会直接搜索答案、利用日志漏洞或钻评测空子,而非真正掌握任务。 未来竞争壁垒的转移(推理时代 vs 智能体时代) · RL 算法优化 vs 环境设计与评测鲁棒性 · 反馈信号工程 vs 训练-服务一体化架构 · 可扩展训练管线 vs 多智能体协调与工具链编排 AI 正从"训练模型"的时代进入"训练智能体"乃至"训练系统"的时代。最有价值的思考不再是孤立的内部独白,而是与工具、环境、其他智能体持续交互的行动导向型推理。
[

](https://x.com/shao__meng/status/2037135885796303122/photo/1)
引用

Junyang Lin
@JustinLin610
·
19小时
文章
From "Reasoning" Thinking to "Agentic" Thinking
The last two years reshaped how we evaluate models and what we expect from them. OpenAI's o1 showed that "thinking" could be a first-class capability, something you train for and expose to users....
·
[
6,226
查看](https://x.com/shao__meng/status/2037135885796303122/analytics)
2
6
26
28
相关
原网址: 访问
创建于: 2026-03-27 13:52:07
目录: default
标签: 无
未标明原创文章均为采集,版权归作者所有,转载无需和我联系,请注明原出处,南摩阿彌陀佛,知识,不只知道,要得到
java windows火焰图_mob64ca12ec8020的技术博客_51CTO博客 - 在windows下不可行,不知道作者是怎样搞的 监听SpringBoot 服务启动成功事件并打印信息_监听springboot启动完毕-CSDN博客 SpringBoot中就绪探针和存活探针_management.endpoint.health.probes.enabled-CSDN博客 u2u转换板 - 嘉立创EDA开源硬件平台 Spring Boot 项目的轻量级 HTTP 客户端 retrofit 框架,快来试试它!_Java精选-CSDN博客 手把手教你打造一套最牛的知识笔记管理系统! - 知乎 - 想法有重合-理论可参考 安宇雨 闲鱼 机械键盘 客制化 开贴记录 文本 linux 使用find命令查找包含某字符串的文件_beijihukk的博客-CSDN博客_find 查找字符串 ---- mac 也适用 安宇雨 打字音 记录集合 B站 bilibili 自行搭建 开坑 真正的客制化 安宇雨 黑苹果开坑 查找工具包maven pom 引用地 工具网站 Dantelis 介绍的玩轴入坑攻略 --- 关于轴的一些说法 --- 非官方 ---- 心得而已 --- 长期开坑更新 [本人问题][新开坑位]关于自动化测试的工具与平台应用 机械键盘 开团 网站记录 -- 能做一个收集的程序就好了 不过现在没时间 -- 信息大多是在群里发的 - 你要让垃圾佬 都去一个地方看难度也是很大的 精神支柱 [超级前台]sprinbboot maven superdesk-app 记录 [信息有用] [环境准备] [基本完成] [sebp/elk] 给已创建的Docker容器增加新的端口映射 - qq_30599553的博客 - CSDN博客 [正在研究] Elasticsearch, Logstash, Kibana (ELK) Docker image documentation elasticsearch centos 安装记录 及 启动手记 正式服务器 39 elasticsearch 问题合集 不断更新 6.1.1 | 6.5.1 两个版本 博客程序 - 测试 - bug记录 等等问题 laravel的启动过程解析 - lpfuture - 博客园 OAuth2 Server PHP 用 Laravel 搭建带 OAuth2 验证的 RESTful 服务 | Laravel China 社区 - 高品质的 Laravel 和 PHP 开发者社区 利用Laravel 搭建oauth2 API接口 附 Unauthenticated 解决办法 - 煮茶的博客 - SegmentFault 思否 使用 OAuth2-Server-php 搭建 OAuth2 Server - 午时的海 - 博客园 基于PHP构建OAuth 2.0 服务端 认证平台 - Endv - 博客园 Laravel 的 Artisan 命令行工具 Laravel 的文件系统和云存储功能集成 浅谈Chromium中的设计模式--终--Observer模式 浅谈Chromium中的设计模式--二--pre/post和Delegate模式 浅谈Chromium中的设计模式--一--Chromium中模块分层和进程模型 DeepMind 4 Hacking Yourself README.md update 20211011
Laravel China 简书 知乎 博客园 CSDN博客 开源中国 Go Further Ryan是菜鸟 | LNMP技术栈笔记 云栖社区-阿里云 Netflix技术博客 Techie Delight Linkedin技术博客 Dropbox技术博客 Facebook技术博客 淘宝中间件团队 美团技术博客 360技术博客 古巷博客 - 一个专注于分享的不正常博客 软件测试知识传播 - 测试窝 有赞技术团队 阮一峰 语雀 静觅丨崔庆才的个人博客 软件测试从业者综合能力提升 - isTester IBM Java 开发 使用开放 Java 生态系统开发现代应用程序 pengdai 一个强大的博主 HTML5资源教程 | 分享HTML5开发资源和开发教程 蘑菇博客 - 专注于技术分享的博客平台 个人博客-leapMie 流星007 CSDN博客 - 舍其小伙伴 稀土掘金 Go 技术论坛 | Golang / Go 语言中国知识社区
最新评论