2025-08-20-insights

发表于 2025-08-24 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 593 阅读时长 ≈ 1 分钟

MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents

自从browsecomp出来以后，学界出来了一个又一个xx-browsecomp，不过这个看起来还挺靠谱的。是mmlu团队出品，作者设计了多模态场景的search任务，有两种情况：输入有图（地图侦探算是这类）问一个问题；另一种情况输入没有图但是解决问题需要图

大家又有的刷了……

唐总出的cua rl工作，通过大规模的sft蒸馏和后面的rl阶段，作者在osworld上做到了48分。这个不是之前arpo那个training on testset了，是正版rlvr构造出来的

这个图颇有之前AutoWebBench三阶段训练图的遗风

这是一篇grounding训练的工作，作者的想法是：让模型本身有对屏幕位置的attention模块可以做辅助grounding，并可以单独加loss

最近似乎有不少这个流派的工作。有人是改attention，也有人把gaussian loss放到rlvr里