随缘随笔 <br> Insights Flow

2024-05-03-insights

发表于 2024-05-04 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 296 阅读时长 ≈ 1 分钟

2号和3号的论文好像串了，就把2号的放在3号里了

A Careful Examination of Large Language Model Performance on Grade School Arithmetic

一个叫scale AI的组织的论文，他们想知道目前的模型是不是在GSM8K上过拟合了。所以创建了一个叫GSM1000的数据集，保证human solve rate和average steps和gsm8k一致。然后发现已有的模型基本上都是过拟合GSM8k，在gsm1000上效果比较差。

哈哈哈哈，想起来前几天那个gsm-zero……直接把gsm8k改成不需要推理的形式，答案写在题里，然后发现acc比之前更低

阅读全文 »

2024-05-02-insights

发表于 2024-05-03 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 598 阅读时长 ≈ 1 分钟

最近读论文的速度怎么比几个月前显著下降了，不行，接下来一个月必读50篇！

Modeling Caption Diversity in Contrastive Vision-Language Pretraining

meta的工作，很好玩的思路：大家都知道clip是把图片文本对通过instance-level的对比学习来建模，vision-encoder和text-encoder是完全独立的。作者发现，对于不匹配的图像文本对，也许某些局部或者说concept是匹配的，clip loss会带来误判。于是作者找到了另外一个方案，把一个image变成多个vector，然后每个token分开算loss。希望在caption内部的每个token和图片embedding的每个位置对应是正样本。由此可以建模出不同的concept。作者发现这种方案比传统clip效果好很多

有点神奇，这个更像是把image embedding做了个bag-of-word假设？

WildChat: 1M ChatGPT Interaction Logs in the Wild

有点顶级：作者通过给用户免费用ChatGPT的方式，收集到了1M的用户和ChatGPT的对话记录，这个数据集没做任何处理，所以包含了一些toxic的内容。

这算不算花钱买论文？话说我挺好奇这样收集的用户case会不会比self-instruct生出来的1M query diverse很多

阅读全文 »

2024-05-01-insights

发表于 2024-05-03 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 583 阅读时长 ≈ 1 分钟

失算了，没想到五一也在更新

In-Context Learning with Long-Context Models: An In-Depth Exploration

neubig的论文，被上周的manyshot icl抢发了。类似的思路：目前的模型已经是sequence length 128k了，能不能来一个1024-shot learning?作者发现：

sample数量增长，模型效果增长
对比finetune，这个方法不够data-hungry，但是相对更鲁棒
经过一系列实验，发现效果增长不是来源于学会了task，而是找到了类似的example

emm……我觉得finetune也”不是来源于学会了task，而是找到了类似的example”

Better & Faster Large Language Models via Multi-token Prediction

Meta的论文，作者发现目前的GPT系列都是next-token-prediction，每次预测下一个Token的logits。作者在想，如果一次预测未来n个Token，速度会加速吗？所以作者把模型结构改成了，前面是share的部分，从某个部分开始变成了n份，分别预测未来的n个token。发现这样训出来的模型当参数量起来以后，效果并不差，同时速度非常快。

Llama时代下的，non-autoregressive model..?

阅读全文 »

2024-04-30-insights

发表于 2024-04-30 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 623 阅读时长 ≈ 1 分钟

不如GPT2-chatbot

HFT: Half Fine-Tuning for Large Language Models

作者认为Finetune中的灾难性遗忘问题是因为参数更新太大了，那么直觉的想法就是：如果我只更新一部分参数，会减少这个问题吗？

这里作者尝试了两阶段的训练，一阶段更新一半的参数，发现效果不错。

有点神奇，想起之前推过的一篇很像的论文：当时是先全参数finetune，找到变得最多的一部分参数，第二轮只训这一部分。

Benchmarking Benchmark Leakage in Large Language Models

pengfei的论文，作者用ppl和n-gram的方式检测了已有的模型对于数据集的train set甚至test set是否见过。类似于之前skywork那个论文里提到的方法。

作者专门写了”training on benchmark data does not imply cheating”，求生欲极强……

阅读全文 »

2024-04-29-insights

发表于 2024-04-30 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 11 阅读时长 ≈ 1 分钟

今天的看起来没啥好玩的

阅读全文 »

论文阅读[精读]-MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training

发表于 2024-03-23 分类于论文阅读笔记阅读次数： Valine：
本文字数： 6k 阅读时长 ≈ 5 分钟

最近Apple出了自己的30B多模态大模型，涌现出了多模态的in-context learning效果，论文里一句”even better”让我想到库克那个嗓音……作者说明了很多在训练中收获到的经验教训，这是我最近几个月看的写法最清楚的一篇论文。正好借此讲讲多模态大模型：目前学界大火的VLM，到底是怎么跑的？

阅读全文 »

从DALL.E 3沿用到Sora的Recaption: GPT4也在用？和"Synthetic Data"是一个意思吗？

发表于 2024-03-02 分类于论文阅读笔记阅读次数： Valine：
本文字数： 7.3k 阅读时长 ≈ 7 分钟

最近Sora巨火，仿佛开启了AIGC的新时代。Jason Wei表示：”Sora is the GPT-2 moment” for video generation。我在sora发布的大约第5个小时读了technical report，里面最打动我的其实是没提什么细节的recaption技术。让我回想想起了之前读DALL.E 3论文时的愉快体验。

所以今天来分享一下DALL.E 3论文里的recaption细节，并讨论几个问题和我的看法：1)OpenAI教你为什么要”先查看原始数据，再做创新” 2)Recaption和大家一直在聊的”training on synthetic data”是一回事吗? 3)recaption技术是否已经在(或者即将在)被其他领域使用？

另外，我总结了一下上篇笔记阅读量大的关键：语言表达要浅显易懂些，所以这篇笔记我可以声明一下：没学过AI也能看懂(我在博客里加了这个标签”from scratch”，所有我认为不懂AI或者只知道一点点的人也能看懂的博客都会加上这个标签)

参考文献：

https://openai.com/sora

Improving Image Generation with Better Captions

Automatic Instruction Optimization for Open-source LLM Instruction Tuning

WaveCoder: Widespread And Versatile Enhanced Instruction Tuning with Refined Data Generation

Reformatted Alignment

Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling

阅读全文 »

2024-02-29总结：研一下开始了

发表于 2024-02-29 更新于 2024-03-02 分类于随笔阅读次数： Valine：
本文字数： 2.6k 阅读时长 ≈ 2 分钟

今天是2月29日，我迎来了研究生的第二个学期。上次2月29日已经是2020年，而下次2月29日要到2028年了。人生有多少4年，再加好久没有更新，遂写一写最近的生活吧。

其实我写总结这个track，还是因为最开始看了谭院士的博客 Wandai Blog：谭院士总是时间驱动，每天写一个sentence-level的总结，陆陆续续竟然坚持了十几年。时间是有惯性的，有点类似于顺着一个人的微信刷pyq，不会到了某个位置突然被卡掉，看下来有种震撼人心的感觉。所以我也想是不是记录一下自己的生活。

我当时选了另一种形式：事件感想驱动，更大的interval, 在corpus-level做记录，所以给自己起名字叫做”随缘”。现在想想可能并不适合，我和谭院士的记录方式也许应该倒一倒。我的生活当然没有谭院士丰富，用instruction tuning的话说：每天翻来覆去总是从一些task set里先sample task $t \in \mathcal{T}$，再sample $x \in \mathcal{X}_t$，最后预测 $y = me(x)$。做得多了，熟能生巧，常用的几个task的能力越来越高了，但一直没什么机会探索更大更diverse的instruction空间。

不过近期确实有所不同，我深感在过去一个月里，尝试的新事物堪比过去一两年。

阅读全文 »

	2024年五月May
星期日 Sunday	星期一 Monday	星期二 Tuesday	星期三 Wednesday	星期四 Thursday	星期五 Friday	星期六 Saturday
			1	2	😁😁	😁
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

	2024年四月April
星期日 Sunday	星期一 Monday	星期二 Tuesday	星期三 Wednesday	星期四 Thursday	星期五 Friday	星期六 Saturday
	😁	😁	😁	4	😁😁	6
7	😁	😁	😁	😁	😁	13
14	15	16	17	😁😁	19	20
😁😁😁	😁	😁	😁	25	26	27
😁😁	29	😁😁

	2024年三月March
星期日 Sunday	星期一 Monday	星期二 Tuesday	星期三 Wednesday	星期四 Thursday	星期五 Friday	星期六 Saturday
					😁	😁
3	4	😁😁	😁	😁	😁	9
10	11	😁😁	😁	14	😁	16
😁	😁	😁	😁	😁	22	😁😁
24	😁	😁	27	28	😁	😁
😁

	2024年二月February
星期日 Sunday	星期一 Monday	星期二 Tuesday	星期三 Wednesday	星期四 Thursday	星期五 Friday	星期六 Saturday
				😁	😁	3
4	😁	😁	😁	8	😁😁	😁
11	😁	😁	😁	😁	😁	17
18	19	20	21	😁	😁	24
25	😁😁😁	😁😁	😁	激情: 😁😁

	2024年一月January
星期日 Sunday	星期一 Monday	星期二 Tuesday	星期三 Wednesday	星期四 Thursday	星期五 Friday	星期六 Saturday
	😁	😁	😁	4	😁😁	6
7	😁	😁	10	😁😁	😁	13
14	😁😁	16	😁	😁	19	😁
21	😁	😁	24	😁😁	😁	27
28	😁	😁	😁

随缘随笔
Insights Flow

本月更新(Recent Update)

arxiv-insights

2024-05-03-insights

A Careful Examination of Large Language Model Performance on Grade School Arithmetic

2024-05-02-insights

Modeling Caption Diversity in Contrastive Vision-Language Pretraining

WildChat: 1M ChatGPT Interaction Logs in the Wild

2024-05-01-insights

In-Context Learning with Long-Context Models: An In-Depth Exploration

Better & Faster Large Language Models via Multi-token Prediction

2024-04-30-insights

HFT: Half Fine-Tuning for Large Language Models

Benchmarking Benchmark Leakage in Large Language Models

2024-04-29-insights

论文阅读[精读]-MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training

从DALL.E 3沿用到Sora的Recaption: GPT4也在用？和"Synthetic Data"是一个意思吗？

2024-02-29总结：研一下开始了

	2023年十二月December
星期日 Sunday	星期一 Monday	星期二 Tuesday	星期三 Wednesday	星期四 Thursday	星期五 Friday	星期六 Saturday
					😁	2
3	😁	😁	😁	😁	😁	9
10	😁	😁	😁	😁	😁	😁
17	😁	😁😁	😁	😁	22	😁
24	😁	26	😁	28	😁	30
平淡: 😁

	2023年十一月November
星期日 Sunday	星期一 Monday	星期二 Tuesday	星期三 Wednesday	星期四 Thursday	星期五 Friday	星期六 Saturday
			😁	😁	😁	4
5	6	7	😁😁😁	😁	😁	😁
12	😁	😁	😁	😁	😁	18
19	😁	😁	😁	😁	24	25
26	27	😁😁😁	😁	😁

	2023年十月October
星期日 Sunday	星期一 Monday	星期二 Tuesday	星期三 Wednesday	星期四 Thursday	星期五 Friday	星期六 Saturday
😁	2	😁	😁	😁😁	😁	7
8	😁	😁	😁	😁	😁	14
15	😁	😁	😁	😁	20	😁😁
22	23	😁	😁😁	😁	😁	28
29	😁	😁

	2023年十二月December
星期日 Sunday	星期一 Monday	星期二 Tuesday	星期三 Wednesday	星期四 Thursday	星期五 Friday	星期六 Saturday
					1(44->3 papers)	2
3	4(39->2 papers)	5(78->3 papers)	6(44->3 papers)	7(42->0 papers)	8(89->2 papers)	9
10	11(41->2 papers)	12(72->0 papers)	13(48->1 papers)	14(42->1 papers)	15(40->2 papers)	16
17	18(43->3 papers)	19(92->3 papers)	20(67->1 papers)	21(44->1 papers)	22(31->2 papers)	23
24	25(38->2 papers)	26	27(72->2 papers)	28	29(47->3 papers)	30
31