0%

2024年五月May
星期日
Sunday
星期一
Monday
星期二
Tuesday
星期三
Wednesday
星期四
Thursday
星期五
Friday
星期六
Saturday
1 2 😁😁 😁
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
阅读全文 »

压缩带来智能,5% 的论文决定学术界 95% 的成果!每天从 Arxiv 论文中总结分享最重要、最有趣的最多三篇论文。

Compression brings intelligence, 5% of papers determine 95% of AI technologies! Share the most important papers from Arxiv, every day, up to three!

2024年五月May
星期日
Sunday
星期一
Monday
星期二
Tuesday
星期三
Wednesday
星期四
Thursday
星期五
Friday
星期六
Saturday
1(64->2 papers)2(71->2 papers)3(47->1 papers)4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
阅读全文 »

2号和3号的论文好像串了,就把2号的放在3号里了

A Careful Examination of Large Language Model Performance on Grade School Arithmetic

一个叫scale AI的组织的论文,他们想知道目前的模型是不是在GSM8K上过拟合了。所以创建了一个叫GSM1000的数据集,保证human solve rate和average steps和gsm8k一致。然后发现已有的模型基本上都是过拟合GSM8k,在gsm1000上效果比较差。

哈哈哈哈,想起来前几天那个gsm-zero……直接把gsm8k改成不需要推理的形式,答案写在题里,然后发现acc比之前更低

阅读全文 »

最近读论文的速度怎么比几个月前显著下降了,不行,接下来一个月必读50篇!

Modeling Caption Diversity in Contrastive Vision-Language Pretraining

meta的工作,很好玩的思路:大家都知道clip是把图片文本对通过instance-level的对比学习来建模,vision-encoder和text-encoder是完全独立的。作者发现,对于不匹配的图像文本对,也许某些局部或者说concept是匹配的,clip loss会带来误判。于是作者找到了另外一个方案,把一个image变成多个vector,然后每个token分开算loss。希望在caption内部的每个token和图片embedding的每个位置对应是正样本。由此可以建模出不同的concept。作者发现这种方案比传统clip效果好很多

有点神奇,这个更像是把image embedding做了个bag-of-word假设?

WildChat: 1M ChatGPT Interaction Logs in the Wild

有点顶级:作者通过给用户免费用ChatGPT的方式,收集到了1M的用户和ChatGPT的对话记录,这个数据集没做任何处理,所以包含了一些toxic的内容。

这算不算花钱买论文?话说我挺好奇这样收集的用户case会不会比self-instruct生出来的1M query diverse很多

阅读全文 »

失算了,没想到五一也在更新

In-Context Learning with Long-Context Models: An In-Depth Exploration

neubig的论文,被上周的manyshot icl抢发了。类似的思路:目前的模型已经是sequence length 128k了,能不能来一个1024-shot learning?作者发现:

  1. sample数量增长,模型效果增长
  2. 对比finetune,这个方法不够data-hungry,但是相对更鲁棒
  3. 经过一系列实验,发现效果增长不是来源于学会了task,而是找到了类似的example

emm……我觉得finetune也”不是来源于学会了task,而是找到了类似的example”

Better & Faster Large Language Models via Multi-token Prediction

Meta的论文,作者发现目前的GPT系列都是next-token-prediction,每次预测下一个Token的logits。作者在想,如果一次预测未来n个Token,速度会加速吗?所以作者把模型结构改成了,前面是share的部分,从某个部分开始变成了n份,分别预测未来的n个token。发现这样训出来的模型当参数量起来以后,效果并不差,同时速度非常快。

Llama时代下的,non-autoregressive model..?

阅读全文 »

不如GPT2-chatbot

HFT: Half Fine-Tuning for Large Language Models

作者认为Finetune中的灾难性遗忘问题是因为参数更新太大了,那么直觉的想法就是:如果我只更新一部分参数,会减少这个问题吗?

这里作者尝试了两阶段的训练,一阶段更新一半的参数,发现效果不错。

有点神奇,想起之前推过的一篇很像的论文:当时是先全参数finetune,找到变得最多的一部分参数,第二轮只训这一部分。

Benchmarking Benchmark Leakage in Large Language Models

pengfei的论文,作者用ppl和n-gram的方式检测了已有的模型对于数据集的train set甚至test set是否见过。类似于之前skywork那个论文里提到的方法。

作者专门写了”training on benchmark data does not imply cheating”,求生欲极强……

阅读全文 »

最近Apple出了自己的30B多模态大模型,涌现出了多模态的in-context learning效果,论文里一句”even better”让我想到库克那个嗓音……作者说明了很多在训练中收获到的经验教训,这是我最近几个月看的写法最清楚的一篇论文。正好借此讲讲多模态大模型:目前学界大火的VLM,到底是怎么跑的?

阅读全文 »

最近Sora巨火,仿佛开启了AIGC的新时代。Jason Wei表示:”Sora is the GPT-2 moment” for video generation。我在sora发布的大约第5个小时读了technical report,里面最打动我的其实是没提什么细节的recaption技术。让我回想想起了之前读DALL.E 3论文时的愉快体验。

所以今天来分享一下DALL.E 3论文里的recaption细节,并讨论几个问题和我的看法:1)OpenAI教你为什么要”先查看原始数据,再做创新” 2)Recaption和大家一直在聊的”training on synthetic data”是一回事吗? 3)recaption技术是否已经在(或者即将在)被其他领域使用?

另外,我总结了一下上篇笔记阅读量大的关键:语言表达要浅显易懂些,所以这篇笔记我可以声明一下:没学过AI也能看懂(我在博客里加了这个标签”from scratch”,所有我认为不懂AI或者只知道一点点的人也能看懂的博客都会加上这个标签)

参考文献:

https://openai.com/sora

Improving Image Generation with Better Captions

Automatic Instruction Optimization for Open-source LLM Instruction Tuning

WaveCoder: Widespread And Versatile Enhanced Instruction Tuning with Refined Data Generation

Reformatted Alignment

Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling

阅读全文 »

今天是2月29日,我迎来了研究生的第二个学期。上次2月29日已经是2020年,而下次2月29日要到2028年了。人生有多少4年,再加好久没有更新,遂写一写最近的生活吧。

其实我写总结这个track,还是因为最开始看了谭院士的博客 Wandai Blog:谭院士总是时间驱动,每天写一个sentence-level的总结,陆陆续续竟然坚持了十几年。时间是有惯性的,有点类似于顺着一个人的微信刷pyq,不会到了某个位置突然被卡掉,看下来有种震撼人心的感觉。所以我也想是不是记录一下自己的生活。

我当时选了另一种形式:事件感想驱动,更大的interval, 在corpus-level做记录,所以给自己起名字叫做”随缘”。现在想想可能并不适合,我和谭院士的记录方式也许应该倒一倒。我的生活当然没有谭院士丰富,用instruction tuning的话说:每天翻来覆去总是从一些task set里先sample task $t \in \mathcal{T}$,再sample $x \in \mathcal{X}_t$,最后预测 $y = me(x)$。做得多了,熟能生巧,常用的几个task的能力越来越高了,但一直没什么机会探索更大更diverse的instruction空间。

不过近期确实有所不同,我深感在过去一个月里,尝试的新事物堪比过去一两年。

阅读全文 »