本周 AI 长文精选｜Karpathy 定义 Agentic Engineering，MIT 终结上下文窗口战争

卷首

这周 Twitter 上最值得读的 AI 长文，背后有一条共同线索：行业正在从「哪个模型最强」的军备竞赛，转向「怎么用好手里的模型」的工程纪律。Karpathy 给这场转向起了个名字——Agentic Engineering。MIT 一篇论文证明上下文窗口扩了五年其实是打错了仗。DeepMind 的工程师发现有人用开源模型替代了 Claude——不是因为开源更强，是因为路由逻辑更好。

以下 5 篇，按推荐阅读顺序排列。

1. Karpathy 定义 Agentic Engineering：Vibe Coding 时代的终结

作者：Andrej Karpathy（@karpathy，OpenAI 创始成员、前 Tesla AI 负责人）热度：523+ 相关讨论帖 1

Karpathy 上周在公开分享中提出了一个新概念——Agentic Engineering，作为 Vibe Coding 的对立面。核心判断：

Vibe Coding 抬高了下限：任何人都能用自然语言生成代码，开发门槛被大幅降低。
Agentic Engineering 守住上限：当系统复杂度超过某个临界点，「感觉差不多」不再够用。你需要的是可验证的规格、Agent 编排策略、人工审核节点。

他主张的工作模式：99% 的工作交给 Agent 自动完成，人只负责两件事——设计和验证。

一位实践者 @dmshirochenko 分享了自己的经验：他用这个模式做了 6 个月产品，「每次出问题我回看的是 spec，不是聊天记录。spec 是持久的，聊天不是」2。

另一条高赞评论来自 @49agents：「Agentic Engineering 就是从『帮我做』变成『这是 spec，跑完我看结果』。编排者 vs 提示者的区别，改变了一切。」3

为什么重要：这不是换个说法，而是 AI 辅助开发的范式切换。从「试到满意为止」的探索模式，到「定义验收标准→Agent 执行→人审核」的工程流水线。能切换到这套模式的团队，交付质量和速度都会拉开差距。

2. MIT RLM：上下文窗口战争结束了，MIT 没参战就赢了

作者：Elias AI（@iam_elias1，AI 教育者）论文：Zhang, Kraska, Khattab · MIT CSAIL · arXiv:2512.24601 热度：2155 赞 · 446 转 · 32.5 万阅读 · 3215 收藏 4

MIT CSAIL 三位研究员提出了 Recursive Language Models（RLMs）——一个让 AI 在推理时主动写代码来搜索、切片、递归调用自身的架构。核心思路一句话：不要把所有文档塞进 AI 的记忆，而是教 AI 知道去哪找。

工作方式：

把原始文档作为 Python 变量存储，完全放在上下文窗口之外
AI 需要信息时，自己写正则搜索、切到目标段落、只把相关部分拉入活跃窗口
发现相关材料后，生成子 AI 实例并行分析，最后汇总

数据相当震撼：

对比项	传统前沿模型	RLMs
长上下文推理基准	接近零分，GPT-5 在 7.5 万 token 任务上不到 10%	大幅解决
最大处理量	原生上下文窗口上限	1000 万 token（100 倍于原生窗口）
单次查询成本	基准价	与传统方案相当或更低

作者追溯了上下文窗口的军备时间线：GPT-3（2020）→ 4000 token，GPT-4 → 3.2 万，Claude 3 → 20 万，Gemini → 100 万，Gemini 2 → 200 万。每一代、每一家公司、数十亿美元——全都押在同一个假设上：更大的窗口 = 更好的性能。

MIT 证明这个假设从根本上错了。代码已开源在 GitHub，无需许可费。Prime Intellect 已将 RLMs 列为重点研究方向，下一步是教模型通过强化学习自主管理上下文，让 Agent 能解决跨越数周甚至数月的任务。

为什么重要：过去五年的上下文窗口研究回答了错误的问题。正确的问题不是「你能强迫 AI 在脑子里装多少东西」，而是「你能不能教 AI 知道去哪找」。这直接关系到所有做长文档处理、代码库分析、法律合同审查的产品团队——你们可能不需要等下一代模型发布，换个推理架构就行。

3. Meta 论文：Agent 可靠性的密码藏在「经验表示」里，不在「更多算力」里

作者：DataDan（@ba_niu80557，数据与 AI 架构师）论文：Kim et al., "Scaling Test-Time Compute for Agentic Coding", arXiv 2604.16529, Meta, 2026 年 4 月 16 日热度：虽属冷门发现，但信息密度极高 5

这篇论文被严重低估。核心发现简单但彻底颠覆直觉：

同一个 Claude Opus 4.5 模型，不改权重、不加微调、只换推理策略——SWE-bench Verified 从 70.9% 涨到 77.6%（+6.7 分），Terminal-Bench v2.0 从 46.9% 涨到 59.1%（+12.2 分）。

论文的三个关键洞察：

问题不在算力，在表示。Agent 的每次执行轨迹（execution trace）有几千 token 的噪声——bash 命令、文件读取、错误堆栈、环境日志。让模型比较两段 3000 token 的原始轨迹，准确率不高于随机。信号被埋在噪声里。

解决方案奇简：用结构化摘要替代原始日志。每次 Agent 运行后生成一份压缩摘要，只保留「它假设了什么 → 取得了什么进展 → 在哪失败了 → 学到了什么」。摘要只有原始轨迹的 5-10% 长度，但保留了所有决策相关信息。

两个缩放策略：

RTV（递归锦标赛投票）：N 次尝试 → 各自摘要 → 小组对比淘汰 → 选出最优，比 naive best-of-N 成本低 50-70%
PDR（并行-蒸馏-精炼）：K 次并行尝试 → 摘要汇总成「先验经验」文档 → 喂给下一次尝试。Agent 在单次会话中真正从失败中学习，不需要任何权重更新

对生产环境的三条直接启示：

别存原始日志当 Agent 记忆——那是噪声，存结构化摘要
「重试」不是可靠性策略——「基于摘要的结构化重试」才是，差距在 Terminal-Bench 上是 12 分
用锦标赛式选择替代多数投票——同样的推理预算，可靠性更高

作者 @ba_niu80557 的判断：「2024 年的竞赛是『哪个模型最聪明』，2025 年是『哪个模型每 token 最便宜』，2026 年的竞赛是『哪个推理架构能从同一个模型里榨出最多的可靠性』。」

为什么重要：大多数团队还在为「重试几次」纠结。这篇论文告诉你，重试本身不值钱，值钱的是每次重试前先总结上一次失败的经验。实施成本是一个周末的工作量，收益是生产系统 5-15 个百分点的可靠性提升。

4. Claude Code + Codex 双终端 Workflow：工具是商品，编排是护城河

作者：DataDan（@ba_niu80557，同上）热度：165 阅读，但方法论价值远超阅读量 6

「Claude Code 还是 Codex？」这是 2025 年的问题。2026 年的答案是：都用——但不是二选一，是按阶段路由。

一组反直觉的数据：Reddit 500+ 开发者调查显示，65% 日常偏好 Codex CLI，但在盲测代码评审中，67% 认为 Claude Code 的输出更干净、更符合惯用法、结构更好。

同一群开发者，选择用「产出更差代码」的工具。这恰好说明他们在不同阶段优化不同的东西。

实际的差异：

	Claude Code（Opus 4.7）	Codex CLI（GPT-5.4）
SWE-bench Verified	87.6%	77.3%
每任务 Token 消耗	高（深度推理）	约 4 倍更少
工作模式	监督式结对编程	自主云端执行，fire-and-forget
安全模型	应用层（26 个生命周期钩子）	内核级沙箱（Seatbelt, Landlock, seccomp）
每复杂任务成本	$15-20	$3-5

最有效的 2026 工作流：

终端 1（Claude Code）：生成实现——「实现带滑动窗口的限流中间件，Redis 后端，按路由配置」 终端 2（Codex）：审查 diff——「检查暂存的变更，关注边界情况、安全问题、遗漏的错误处理」

一次公开的 Express.js 重构对比量化了这个模式的效果：Claude Code 用 1 小时 17 分、620 万 token 完成任务，发现了一个竞态条件；Codex 用 150 万 token 完成同样任务，漏掉了竞态条件，但发现了 Claude Code 漏掉的安全漏洞。单独用任何一个工具都发现不了全部问题。两个一起用，两个都发现了。

作者的核心论点：AI 编程工具的差异化已经从「哪个工具更好」转移到「哪个工作流设计更好」。 工具正在趋同（都支持了 MCP、多 Agent、大上下文），差异化的杠杆变成了架构——哪个阶段用什么工具、输出如何流转、每个工具优化什么指标。

模型是商品。工作流是护城河。

为什么重要：如果你还在 Claude Code 和 Codex 之间二选一，你已经落后了。2026 年最有效率的开发者不是选对了工具的人，而是设计对了工作流的人——把推理密集型任务路由给 Claude、把速度和效率优先的任务路由给 Codex、让两个工具互审对方的输出。这个模式也是所有 AI Agent 系统的通用原则：单一模型架构在可靠性上有天然盲区，多模型架构才能捕捉更多失败模式。

5. 开源模型逆袭：Ling 在 Agentic Coding 上击败了内部基准，但没人炫耀

作者：kvro（@0xkvro）热度：46 赞 · 6045 阅读 · 14 收藏 7

这篇是本周最有趣的叙事。写法是短篇小说——一个 Google DeepMind 的工程师在伦敦咖啡馆偶遇作者，发现他用开源模型 Ling 替代了 Claude 处理编程任务。

关键对话：

「为什么用 Ling 而不是 Claude？」「Claude 会争论哪个方案更好。Ling 直接把 bug 修了。我不需要辩论。我需要 72.2% SWE-bench 和 Apache 许可证。」

作者的技术栈简洁到让人不安：一个路由函数把编程任务发到 Ling，一个后备路由把其他任务发到 Claude，一个 curl 命令测试。没有看板，没有微调流水线。

DeepMind 工程师的反应：「我们花了三个月做新模型供应商的评估流程。你直接路由了一个真实 bug 过去检查输出就行了。」

最后他给了作者一个意味深长的建议：「别写基准测试帖子。别写带对比表格的 Twitter 线程。别让这看起来像个产品发布。一旦这东西被打磨好，下周一每个 AI 团队负责人都会转发给经理，你的优势就没了。」

为什么重要：这条推文是本周选题的完美收尾——它用故事串起了前面所有主题。开源模型正在逼近甚至超越闭源模型（MIT RLM 开源、Ling 72.2% SWE-bench）；路由逻辑比模型选择更重要（Claude Code vs Codex 的论点再次验证）；「不要炫耀基准」的提醒恰好呼应了 Meta 论文的观点——真正的护城河不在模型本身，在你围绕模型构建的推理架构和工作流。

本周小结

五篇文章表面看起来话题分散——有 Karpathy 的方法论、有 MIT 的架构突破、有 Meta 的工程论文、有工具对比、有开源逆袭故事。但底层的主题高度一致：

模型能力的边际收益在递减——GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro 的能力趋近，用同一个问题的不同问法测不出本质差异
差异化正在向推理架构迁移——如何表示 Agent 的经验、如何路由任务到正确的模型、如何编排多工具协作，这些决策带来的收益已经大于换一个新模型
开源模型的可控性优势被低估——Apache 许可证意味着「服务条款变更跟你没关系」，这是企业部署时被严重忽视的维度
「工程师的判断力」重新成为稀缺资源——不是谁的提示词写得最好，而是谁设计了更好的路由逻辑、验证流程、经验表示

2026 年 5 月的 AI 行业，最大的 story 不是哪个新模型又刷新了榜单，而是同一批模型的潜力远未被用尽。知道自己手头工具的边界、并且能设计出超越单工具能力的编排架构的团队，和还在等下一代模型发布的团队，差距正在拉大。

本周精选基于 Twitter/X 平台 2026 年 5 月 12-18 日公开讨论。数据截止至 5 月 18 日 8:00 CST。