VaultGemma: A Differentially Private Gemma Model
这篇文章里,作者开源了一个1B的大概gemma2水平的模型。区别在于,它使用隐私计算的方法计算。隐私计算是一个比较神奇的领域,他们的想法是:如果每个数据供应方都给一部分训练数据,能不能在互相都偷不到别人数据的情况下,把模型训了?之前应该从没有人在1B这个尺度下证明过这个方法的效果可以对齐
不如我透明计算院士 doge
OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM
nvidia这篇工作的赛道叫做”omni modal understanding”,其实就是在vlm的基础上添加了音频理解。之前qwen有个qwen-omni算是这个赛道上非常好的baseline了。作者重新设计了model archi, data structure, training recipe,然后训出来了一个同规模下几第一梯队水平的模型。
这个论文行文方式,怎么和nemotron这么像