自从英国回来以后,刷arxiv进度一直落后大概一周…今天终于追回来了
ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data
AI lab的一篇很好的CUA工作,暨 Jedi 和 OWL 以后看到的另一个很solid的cua工作。作者不止focus grounding问题,而是正面解决multistep执行的问题
作者这里related work写的很好,给了很多的baseline和数据merge,甚至可以作为综述看

AToken: A Unified Tokenizer for Vision
这篇工作比较有趣,作者想要用一套tokenize逻辑同时建模图片、视频、3d obj,实际上就是需要一个xyzt四个轴。之前qwen vl只有xyt 3个轴。为此,作者还设计了一个4d version rope based transformer
