这篇讲了一种借鉴Discrete Diffusion model来建模一个order-agnostic autoregressive模型的方法,在text8数据集取得不错的效果。
运行30天情况
论文阅读[粗读]-ON THE UTILITY OF GRADIENT COMPRESSION IN DISTRIBUTED TRAINING SYSTEMS
MLSys 22中编译优化方向的论文都看完了,今天看一个别的主题,分布式训练。这篇文章是一篇分析性文章,讲了分布式训练中梯度压缩算法在实际场景中的效果不好,分析原因,并且提出了一个和真实场景效果接近的performance model。
论文阅读[精读]-TORCH.FX: PRACTICAL PROGRAM CAPTURE AND TRANSFORMATION FOR DEEP LEARNING IN PYTHON
我理解这篇论文就是torch.fx的论文,作者是站在设计torch.fx的角度思考“我们为什么要这么做”,把他们的一系列实现整理成了论文发了出来。
7-13总结
论文阅读[粗读]-Diffusion models beat gans on image synthesis
这篇工作是Diffusion Model关注度高起来的第二篇重要文献。在此之前,DDPM证明Diffusion model可以生成diversity,但score上,比起“专门造假”的GAN还是略显不足,但OpenAI这片新作,证明了Diffusion model有实力生成比GAN优秀的结果。
论文阅读[粗读]-GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models
这篇工作其实就是有名的DALL.E 2的模型结构,只是规模是3.5B(DALL.E是12B)。本篇工作是第一个用diffusion model来做text2image任务的。
7-12总结
今天去北医三院看牙,来回单程只需要40min的高铁,倒是很快。应该是最后一次根管治疗,再观察一段时间就可以做牙冠了。
论文阅读[粗读]-THE CORA TENSOR COMPILER: COMPILATION FOR RAGGED TENSORS WITH MINIMAL PADDING
陈天奇在MLSys 22发的另一篇文章,讲的是如何提高输入不对齐时的表现。