2025-10-09-insights 发表于 2025-10-11 更新于 2025-10-12 分类于 Arxiv-Insights 阅读次数: Valine: 本文字数: 221 阅读时长 ≈ 1 分钟 The Markovian Thinker 这篇工作名字很玄乎,其实做起来很简单:让正常的long-cot模型区分“chunk”(一些token)。每次到chunk结束时,把think清空,只保留前一个问题和前一个chunk结尾的一些token接着推理,这样context会永远不”爆“。但是直接这么应用,显然模型会表现很烂,所以作者做了rl 这个和之前google那个,parallel cot然后直接拼context的工作,是不是可以连在一起rl? 相关文章 本月更新(Recent Update) arxiv-insights 2025-10-13-insights 2025-10-10-insights 2025-10-08-insights