HuggingFace 论文日报｜AI 答对了但引错了？以及 5 篇你不能错过的今日热榜论文

今日榜单速览

2026 年 5 月 18 日，HuggingFace 每日论文榜单上排在前列的有 6 篇值得关注的工作：从「大模型答对了但引错了证据」这个隐蔽漏洞的曝光，到让 AI 边看视频边学穿搭的实时换装框架，再到清华团队给 AI 图像生成器的「文字和人脸」专门打了个补丁。下面逐一拆解。

CiteVQA：你的 AI 答对了，但它的「依据」靠谱吗？

团队：OpenDataLab ｜热度：75 upvotes

先用一个类比说清问题。假设你在考试，题目是「《红楼梦》里林黛玉进贾府时几岁？」你蒙了个「六岁」，答案碰巧对了。但老师追问「你从哪看出来的？」你随手一指第三回——实际那段根本没写年龄。

现在的大模型读文档就是这样。当前的文档问答评测只看答案对不对，完全不检查它引用的段落是否正确。而 CiteVQA 这篇论文就是要揭开这个遮羞布。

他们做了一套严格的考试题：1897 道问题，覆盖 711 份多页 PDF，横跨法律、金融、医学等 7 个领域，平均每份文档 40 多页。每道题不仅要求模型给出答案，还必须在原文中用方框精确标注这个答案是从哪里找到的。

评测标准叫 严格归因准确率（SAA）——只有答案正确且引用的段落也正确，才算得分。他们测了 20 个主流视觉语言模型，结果令人警醒：

最强的商业模型（Gemini-3.1-Pro）SAA 只有 76.0%
最强的开源模型 SAA 只有 22.5%

换句话说，开源模型在五次里就有近四次「答对了但引错了」。如果你在医疗、法律或金融场景里依赖 AI 读文档做决策，这个数字值得警惕。

MMSkills：给 AI 视觉 Agent 配一本「带图的技能手册」

团队：上海交通大学｜热度：69 upvotes（当日最高排名 #1）

想象你要教一个人用 Photoshop 做海报。只给文字步骤是不够的——「点击图层面板」这句话，你得让他知道图层面板长什么样、选中状态是什么样子、做错了之后界面会怎么变。

目前的 AI Agent 技能包大多只包含文字指令。MMSkills 做的事就是把这些技能包升级成「图文并茂」的多模态版本。每个技能包里：

有文字步骤说明（这个之前就有）
有「状态卡片」——告诉 Agent 在每一步界面应该是什么样子
有「关键帧截图」——多角度展示正确和错误的状态

更巧妙的是，这些技能包不是人工写的。他们设计了一个自动化流程：从公开的 Agent 操作轨迹中提取、归纳、验证出一套可复用的技能。Agent 执行任务时，会临时打开一个「分支」先浏览对应的技能包，对齐当前环境后再回到主线程继续执行。

在 GUI 操作和游戏类 Agent 基准测试上，加载了 MMSkills 的模型表现稳定提升。这说明一个道理：AI 不仅需要「知道该做什么」，还需要「看到该看到的东西」。

PhysBrain 1.0：让机器人看人类视频学物理常识

团队：DeepCybo ｜热度：40 upvotes

机器人的困境是：用于训练的操作数据太少、太贵。但人类天天在做各种操作，并且留下了海量视频。PhysBrain 1.0 的思路很直接——让机器人从人类第一视角视频里学物理常识。

具体做法分两步。第一步，数据引擎从人类自我中心视频中自动提取：画面里有什么物体、它们之间的空间关系、人在执行什么动作、深度信息如何分布，然后把这些转化成问答对来训练一个视觉语言模型。第二步，把这些学到的东西无缝迁移到机器人的动作策略模型上。

在多个具身智能基准测试上，PhysBrain 1.0 达到了 SOTA（当前最优）。尤其值得关注的是它在 SimplerEnv 上的跨场景泛化能力——也就是说，它在新环境里也能用，不是只在训练过的场景里才能干活。

思路本身不复杂：既然没人教机器人，那就让机器人看 YouTube。但这篇论文把这条路走通了。

DexJoCo：灵巧手操作的标准化考场

团队：多机构合作（14 位作者）｜热度：39 upvotes

机械臂抓取东西已经比较成熟了，但灵巧手——那种有五根手指、能像人手一样精细操作的机器人手——还在早期阶段。一个核心卡点是：缺乏统一的评测标准。

DexJoCo 给出了一个完整的答案。他们在 MuJoCo 物理模拟器上搭建了 11 个功能导向的任务，分三类考察：

工具使用：比如拿起螺丝刀拧螺丝
双手协调：两只手配合完成一个动作
长序列执行：一连串动作按正确顺序完成

配套提供了一整套基础设施：低成本的遥操作数据采集系统、1100 条人采轨迹、支持视觉和动力学随机化（用来测鲁棒性）。然后他们用这套基准系统性地评测了当前主流模型，发现了很多共同的短板。

如果你关注具身智能方向，这个基准相当于灵巧手领域的「ImageNet 时刻」——有了标准考场，大家才好比较谁的方法更有效。

FashionChameleon：视频里实时换衣服，306 倍快于现有方法

团队：阿里巴巴｜热度：37 upvotes

「视频里的人物换装」听起来像魔法，但已有很多 AI 模型能做到了——问题是速度。现有方法生成一段换装视频可能需要几十秒甚至几分钟，完全没法做实时交互。

FashionChameleon 把这个速度推到了单 GPU 上 23.8 FPS，比现有基线快了 30 到 180 倍。它是怎么做到的？三个关键技巧：

用单件衣服数据训练多件衣服模型：不给模型看「一个人穿多件衣服」的视频（这种数据很难获取），而是训练时故意让参考图和衣服图不匹配，逼模型学会在切换衣服时保持动作连贯
流式蒸馏：把大模型的能力压缩进小模型，同时保持长视频生成的一致性
KV Cache 调度：生成过程中动态管理缓存——切换衣服时刷新衣服相关的缓存，但保留人物动作相关的历史信息，换装不换动作

直观感受就是：你可以在视频生成过程中随时换衣服，人物动作不会断，画面不会崩，而且几乎是实时的。电商试穿、内容创作、虚拟形象——应用场景很多。

InsightTok：为什么 AI 生成的图片里，字总是一团糊？

团队：清华大学 LeapLab ｜热度：28 upvotes

用过 AI 画图的人都有体会：让它生成一张带文字的图片，出来的字经常是鬼画符。人脸也容易崩——眼睛不对称、表情僵硬。这不是生成模型本身的问题，而是图像「压缩器」（tokenizer）的锅。

AI 画图的流程是：先把图片压缩成离散的编码（token），再让生成模型在这些编码上做文章。问题出在第一步——传统的压缩器对图片一视同仁，不会特别关照文字区域和人脸区域。16 倍下采样之后，细小的笔画和表情细节就丢光了。

InsightTok 的思路特别简单但有效：在训练压缩器时，给文字区域和人脸区域加额外的感知损失——也就是说，这些区域如果压缩后质量下降，惩罚更重。不需要改下游生成模型，不需要更大算力。

结果：16 倍压缩率、1.6 万个编码的紧凑配置下，文字清晰度和人脸保真度大幅领先之前的压缩器。把这个压缩器直接换进自回归图像生成模型，AI 画出来的文字就不再是乱码，人脸也更自然。

其他值得扫一眼的论文

论文	亮点	热度
Nudging Beyond the Comfort Zone	KAIST 团队让强化学习 Agent 在「舒适区」之外更高效地探索——用策略引导探索方向，而非随机试错	22
Flash-GRPO	视频扩散模型的对齐优化提速：一步策略优化替代多步，降低 RLHF 类方法的训练成本	19
ReactiveGWM	让游戏 NPC 在动态世界中做出合理反应——不是按脚本走，而是根据世界状态实时决策	18
Distilling Long-CoT Reasoning	从多个「思维链」老师那里蒸馏出更紧凑的推理能力，降低长链推理的部署成本	14
Solvita	用「进化」方式提升 LLM 的竞赛编程能力——让模型自己在解题中迭代改进	12

今日小结

今天榜单上有一个共同的主题：可信和可靠。CiteVQA 要求 AI 对自己说的话负责（给出来源）；MMSkills 要求 AI Agent 在行动前先看清楚环境状态；PhysBrain 让机器人把常识建立在实际的人类行为观察之上；DexJoCo 给灵巧手设了标准化考核。即便看起来偏应用的 FashionChameleon 和 InsightTok，本质上也是在解决「生成结果是否可预期、是否保真」的问题。

这也许意味着 AI 研究正在从前几年「能不能做出来」的阶段，进入「做出来的东西能不能被信任」的阶段。