本周 AI 长文精选|Karpathy 定义 Agentic Engineering,MIT 终结上下文窗口战争
本周 Twitter AI 深度长文共同指向一个范式转移:从「哪个模型最强」转向「怎么用好手里的模型」。Karpathy 提出 Agentic Engineering,MIT RLM 证明上下文窗口不是答案,Meta 论文揭示 Agent 可靠性的密码在推理架构而非更多算力,Claude Code + Codex 双终端 workflow 成为新标准。
研究速览
卷首
这周 Twitter 上最值得读的 AI 长文,背后有一条共同线索:行业正在从「哪个模型最强」的军备竞赛,转向「怎么用好手里的模型」的工程纪律。Karpathy 给这场转向起了个名字——Agentic Engineering。MIT 一篇论文证明上下文窗口扩了五年其实是打错了仗。DeepMind 的工程师发现有人用开源模型替代了 Claude——不是因为开源更强,是因为路由逻辑更好。
以下 5 篇,按推荐阅读顺序排列。
1. Karpathy 定义 Agentic Engineering:Vibe Coding 时代的终结
作者:Andrej Karpathy(@karpathy,OpenAI 创始成员、前 Tesla AI 负责人)
热度:523+ 相关讨论帖 1
Karpathy 上周在公开分享中提出了一个新概念——Agentic Engineering,作为 Vibe Coding 的对立面。核心判断:
- Vibe Coding 抬高了下限:任何人都能用自然语言生成代码,开发门槛被大幅降低。
- Agentic Engineering 守住上限:当系统复杂度超过某个临界点,「感觉差不多」不再够用。你需要的是可验证的规格、Agent 编排策略、人工审核节点。
他主张的工作模式:99% 的工作交给 Agent 自动完成,人只负责两件事——设计和验证。
一位实践者 @dmshirochenko 分享了自己的经验:他用这个模式做了 6 个月产品,「每次出问题我回看的是 spec,不是聊天记录。spec 是持久的,聊天不是」2。
另一条高赞评论来自 @49agents:「Agentic Engineering 就是从『帮我做』变成『这是 spec,跑完我看结果』。编排者 vs 提示者的区别,改变了一切。」3
为什么重要:这不是换个说法,而是 AI 辅助开发的范式切换。从「试到满意为止」的探索模式,到「定义验收标准→Agent 执行→人审核」的工程流水线。能切换到这套模式的团队,交付质量和速度都会拉开差距。
2. MIT RLM:上下文窗口战争结束了,MIT 没参战就赢了
作者:Elias AI(@iam_elias1,AI 教育者)
论文:Zhang, Kraska, Khattab · MIT CSAIL · arXiv:2512.24601
热度:2155 赞 · 446 转 · 32.5 万阅读 · 3215 收藏 4
MIT CSAIL 三位研究员提出了 Recursive Language Models(RLMs)——一个让 AI 在推理时主动写代码来搜索、切片、递归调用自身的架构。核心思路一句话:不要把所有文档塞进 AI 的记忆,而是教 AI 知道去哪找。
工作方式:
- 把原始文档作为 Python 变量存储,完全放在上下文窗口之外
- AI 需要信息时,自己写正则搜索、切到目标段落、只把相关部分拉入活跃窗口
- 发现相关材料后,生成子 AI 实例并行分析,最后汇总
数据相当震撼:
| 对比项 | 传统前沿模型 | RLMs |
|---|---|---|
| 长上下文推理基准 | 接近零分,GPT-5 在 7.5 万 token 任务上不到 10% | 大幅解决 |
| 最大处理量 | 原生上下文窗口上限 | 1000 万 token(100 倍于原生窗口) |
| 单次查询成本 | 基准价 | 与传统方案相当或更低 |
作者追溯了上下文窗口的军备时间线:GPT-3(2020)→ 4000 token,GPT-4 → 3.2 万,Claude 3 → 20 万,Gemini → 100 万,Gemini 2 → 200 万。每一代、每一家公司、数十亿美元——全都押在同一个假设上:更大的窗口 = 更好的性能。
MIT 证明这个假设从根本上错了。代码已开源在 GitHub,无需许可费。Prime Intellect 已将 RLMs 列为重点研究方向,下一步是教模型通过强化学习自主管理上下文,让 Agent 能解决跨越数周甚至数月的任务。
为什么重要:过去五年的上下文窗口研究回答了错误的问题。正确的问题不是「你能强迫 AI 在脑子里装多少东西」,而是「你能不能教 AI 知道去哪找」。这直接关系到所有做长文档处理、代码库分析、法律合同审查的产品团队——你们可能不需要等下一代模型发布,换个推理架构就行。
3. Meta 论文:Agent 可靠性的密码藏在「经验表示」里,不在「更多算力」里
作者:DataDan(@ba_niu80557,数据与 AI 架构师)
论文:Kim et al., "Scaling Test-Time Compute for Agentic Coding", arXiv 2604.16529, Meta, 2026 年 4 月 16 日
热度:虽属冷门发现,但信息密度极高 5
这篇论文被严重低估。核心发现简单但彻底颠覆直觉:
同一个 Claude Opus 4.5 模型,不改权重、不加微调、只换推理策略——SWE-bench Verified 从 70.9% 涨到 77.6%(+6.7 分),Terminal-Bench v2.0 从 46.9% 涨到 59.1%(+12.2 分)。
论文的三个关键洞察:
问题不在算力,在表示。Agent 的每次执行轨迹(execution trace)有几千 token 的噪声——bash 命令、文件读取、错误堆栈、环境日志。让模型比较两段 3000 token 的原始轨迹,准确率不高于随机。信号被埋在噪声里。
解决方案奇简:用结构化摘要替代原始日志。每次 Agent 运行后生成一份压缩摘要,只保留「它假设了什么 → 取得了什么进展 → 在哪失败了 → 学到了什么」。摘要只有原始轨迹的 5-10% 长度,但保留了所有决策相关信息。
两个缩放策略:
- RTV(递归锦标赛投票):N 次尝试 → 各自摘要 → 小组对比淘汰 → 选出最优,比 naive best-of-N 成本低 50-70%
- PDR(并行-蒸馏-精炼):K 次并行尝试 → 摘要汇总成「先验经验」文档 → 喂给下一次尝试。Agent 在单次会话中真正从失败中学习,不需要任何权重更新
对生产环境的三条直接启示:
- 别存原始日志当 Agent 记忆——那是噪声,存结构化摘要
- 「重试」不是可靠性策略——「基于摘要的结构化重试」才是,差距在 Terminal-Bench 上是 12 分
- 用锦标赛式选择替代多数投票——同样的推理预算,可靠性更高
作者 @ba_niu80557 的判断:「2024 年的竞赛是『哪个模型最聪明』,2025 年是『哪个模型每 token 最便宜』,2026 年的竞赛是『哪个推理架构能从同一个模型里榨出最多的可靠性』。」
为什么重要:大多数团队还在为「重试几次」纠结。这篇论文告诉你,重试本身不值钱,值钱的是每次重试前先总结上一次失败的经验。实施成本是一个周末的工作量,收益是生产系统 5-15 个百分点的可靠性提升。
4. Claude Code + Codex 双终端 Workflow:工具是商品,编排是护城河
作者:DataDan(@ba_niu80557,同上)
热度:165 阅读,但方法论价值远超阅读量 6
「Claude Code 还是 Codex?」这是 2025 年的问题。2026 年的答案是:都用——但不是二选一,是按阶段路由。
一组反直觉的数据:Reddit 500+ 开发者调查显示,65% 日常偏好 Codex CLI,但在盲测代码评审中,67% 认为 Claude Code 的输出更干净、更符合惯用法、结构更好。
同一群开发者,选择用「产出更差代码」的工具。这恰好说明他们在不同阶段优化不同的东西。
实际的差异:
| Claude Code(Opus 4.7) | Codex CLI(GPT-5.4) | |
|---|---|---|
| SWE-bench Verified | 87.6% | 77.3% |
| 每任务 Token 消耗 | 高(深度推理) | 约 4 倍更少 |
| 工作模式 | 监督式结对编程 | 自主云端执行,fire-and-forget |
| 安全模型 | 应用层(26 个生命周期钩子) | 内核级沙箱(Seatbelt, Landlock, seccomp) |
| 每复杂任务成本 | $15-20 | $3-5 |
最有效的 2026 工作流:
终端 1(Claude Code):生成实现——「实现带滑动窗口的限流中间件,Redis 后端,按路由配置」 终端 2(Codex):审查 diff——「检查暂存的变更,关注边界情况、安全问题、遗漏的错误处理」
一次公开的 Express.js 重构对比量化了这个模式的效果:Claude Code 用 1 小时 17 分、620 万 token 完成任务,发现了一个竞态条件;Codex 用 150 万 token 完成同样任务,漏掉了竞态条件,但发现了 Claude Code 漏掉的安全漏洞。单独用任何一个工具都发现不了全部问题。两个一起用,两个都发现了。
作者的核心论点:AI 编程工具的差异化已经从「哪个工具更好」转移到「哪个工作流设计更好」。 工具正在趋同(都支持了 MCP、多 Agent、大上下文),差异化的杠杆变成了架构——哪个阶段用什么工具、输出如何流转、每个工具优化什么指标。
模型是商品。工作流是护城河。
为什么重要:如果你还在 Claude Code 和 Codex 之间二选一,你已经落后了。2026 年最有效率的开发者不是选对了工具的人,而是设计对了工作流的人——把推理密集型任务路由给 Claude、把速度和效率优先的任务路由给 Codex、让两个工具互审对方的输出。这个模式也是所有 AI Agent 系统的通用原则:单一模型架构在可靠性上有天然盲区,多模型架构才能捕捉更多失败模式。
5. 开源模型逆袭:Ling 在 Agentic Coding 上击败了内部基准,但没人炫耀
作者:kvro(@0xkvro)
热度:46 赞 · 6045 阅读 · 14 收藏 7
这篇是本周最有趣的叙事。写法是短篇小说——一个 Google DeepMind 的工程师在伦敦咖啡馆偶遇作者,发现他用开源模型 Ling 替代了 Claude 处理编程任务。
关键对话:
「为什么用 Ling 而不是 Claude?」 「Claude 会争论哪个方案更好。Ling 直接把 bug 修了。我不需要辩论。我需要 72.2% SWE-bench 和 Apache 许可证。」
作者的技术栈简洁到让人不安:一个路由函数把编程任务发到 Ling,一个后备路由把其他任务发到 Claude,一个 curl 命令测试。没有看板,没有微调流水线。
DeepMind 工程师的反应:「我们花了三个月做新模型供应商的评估流程。你直接路由了一个真实 bug 过去检查输出就行了。」
最后他给了作者一个意味深长的建议:「别写基准测试帖子。别写带对比表格的 Twitter 线程。别让这看起来像个产品发布。一旦这东西被打磨好,下周一每个 AI 团队负责人都会转发给经理,你的优势就没了。」
为什么重要:这条推文是本周选题的完美收尾——它用故事串起了前面所有主题。开源模型正在逼近甚至超越闭源模型(MIT RLM 开源、Ling 72.2% SWE-bench);路由逻辑比模型选择更重要(Claude Code vs Codex 的论点再次验证);「不要炫耀基准」的提醒恰好呼应了 Meta 论文的观点——真正的护城河不在模型本身,在你围绕模型构建的推理架构和工作流。
本周小结
五篇文章表面看起来话题分散——有 Karpathy 的方法论、有 MIT 的架构突破、有 Meta 的工程论文、有工具对比、有开源逆袭故事。但底层的主题高度一致:
- 模型能力的边际收益在递减——GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro 的能力趋近,用同一个问题的不同问法测不出本质差异
- 差异化正在向推理架构迁移——如何表示 Agent 的经验、如何路由任务到正确的模型、如何编排多工具协作,这些决策带来的收益已经大于换一个新模型
- 开源模型的可控性优势被低估——Apache 许可证意味着「服务条款变更跟你没关系」,这是企业部署时被严重忽视的维度
- 「工程师的判断力」重新成为稀缺资源——不是谁的提示词写得最好,而是谁设计了更好的路由逻辑、验证流程、经验表示
2026 年 5 月的 AI 行业,最大的 story 不是哪个新模型又刷新了榜单,而是同一批模型的潜力远未被用尽。知道自己手头工具的边界、并且能设计出超越单工具能力的编排架构的团队,和还在等下一代模型发布的团队,差距正在拉大。
本周精选基于 Twitter/X 平台 2026 年 5 月 12-18 日公开讨论。数据截止至 5 月 18 日 8:00 CST。
围绕这条内容继续补充观点或上下文。