2025-07-22-insights

发表于 2025-07-22 更新于 2025-07-29 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 382 阅读时长 ≈ 1 分钟

今天的顶流是gemini imo摘金，可惜没有论文

A Simple "Try Again" Can Elicit Multi-Turn LLM Reasoning

这篇工作有点好玩。作者发现传统的单轮rl，越训练模型在多轮上的表现越差。所以作者来了个multi-try，如果第一轮做错就让模型继续做，如果做对就结束。然后try time越多得分越少，通过这种方法来提升多轮的效果。

本质上是把bon当成一个系统去优化了？

前几年，除了一个Inverse scaling的论文：找到了几个模型越大，效果越差的任务。这次anthropic来了个o1的版本。作者找到了几个think len越长，效果越差的任务，整了个大合集。

seed的具身工作，从vlm到ego-centric数据，各种数据全加。