2025-09-19-insights

发表于 2025-09-21 更新于 2025-09-27 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 390 阅读时长 ≈ 1 分钟

自从英国回来以后，刷arxiv进度一直落后大概一周...今天终于追回来了

ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data

AI lab的一篇很好的CUA工作，暨 Jedi 和 OWL 以后看到的另一个很solid的cua工作。作者不止focus grounding问题，而是正面解决multistep执行的问题

作者这里related work写的很好，给了很多的baseline和数据merge，甚至可以作为综述看

这篇工作比较有趣，作者想要用一套tokenize逻辑同时建模图片、视频、3d obj，实际上就是需要一个xyzt四个轴。之前qwen vl只有xyt 3个轴。为此，作者还设计了一个4d version rope based transformer