0%

2025-08-20-insights

MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents

自从browsecomp出来以后,学界出来了一个又一个xx-browsecomp,不过这个看起来还挺靠谱的。是mmlu团队出品,作者设计了多模态场景的search任务,有两种情况:输入有图(地图侦探算是这类)问一个问题;另一种情况输入没有图但是解决问题需要图

大家又有的刷了……

ComputerRL: Scaling End-to-End Online Reinforcement Learning for Computer Use Agents

唐总出的cua rl工作,通过大规模的sft蒸馏和后面的rl阶段,作者在osworld上做到了48分。 这个不是之前arpo那个training on testset了,是正版rlvr构造出来的

这个图颇有之前AutoWebBench三阶段训练图的遗风

V2P: From Background Suppression to Center Peaking for Robust GUI Grounding Task

这是一篇grounding训练的工作,作者的想法是:让模型本身有对屏幕位置的attention模块可以做辅助grounding,并可以单独加loss

最近似乎有不少这个流派的工作。有人是改attention,也有人把gaussian loss放到rlvr里