2025-08-18-insights

发表于 2025-08-23 更新于 2025-08-31 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 423 阅读时长 ≈ 1 分钟

gpt-oss-120b & gpt-oss-20b Model Card

Gpt-oss model card来了。

不是……模型都开源了，不讲讲怎么训的嘛，只给一大堆评测结果

这篇工作很妙。作者发现rl和sft在训练上的区别是，一个entropy有权重，一个没有权重。能不能把sft也视为一种rl，然后给他做dynamic weighting呢？作者尝试了一下在每个rollout中，对于query同时使用rollout和load sft数据，然后加权一起训练，发现效果很好

作者这里对sft的采样权就是单纯的p*(1-p)，有点神奇。基本上就是训练entropy既不太大也不太小的token。但是这个sft数据加weight的思路挺有趣的