0%

GPT4技术报告解读:应用报告

今天openAI发布了GPT-4。直接把PaLM卷到开放API了,相信google是真的被卷麻了。

GPT4附赠了一个98页的报告(没有论文),报告前面是性能和应用报告,中间是一些附录,最后是技术报告。我就按顺序来给大家讲讲,先讲应用报告。相信很多公众号大概都吹了一波GPT4,我希望我的讲解可以更深入一些,把问题、难点和领域更多地呈现给大家。

作者团队来自openAI,比较神奇的是前面没写作者。报告里把贡献名单放到了最后,足足有3页,按照职能划分。一般的电影里的名单都很长,但大家都不会看完,但这次大家都看得很仔细,试图通过人员分布来发现openAI技术投入的侧重点。值得深思

Introduction

整个应用报告部分其实没有什么技术,有点像是发布会吹牛逼部分的文字版,带有非常多的实验与结果。总体而言,GPT4比GPT3的区别可以总结为以下几点:

  • GPT4支持KOSMOS类的图片输入
  • GPT4有更好的多语言能力
  • GPT4比GPT3.5有更好的事实能力,并且极大地提高了”安全性“
  • 在简单问题上,GPT4和GPT3.5区别不大,只有问题复杂性达到一定地步以后,才能拉开差距

除此之外,关于,模型细节,报告没有任何提供细节,只说了这样一段话:

This report focuses on the capabilities, limitations, and safety properties of GPT-4. GPT-4 is a Transformer-style model [33] pre-trained to predict the next token in a document, using both publicly available data (such as internet data) and data licensed from third-party providers. The model was then fine-tuned using Reinforcement Learning from Human Feedback (RLHF) [34]. Given both the competitive landscape and the safety implications of large-scale models like GPT-4, this report contains no further details about the architecture (including model size), hardware, training compute, dataset construction, training method, or similar.

我为大家提取一下关键点:

  • transofmer-based,但没说一定是transformer结构。

关于这一点,如果读了最近很多论文linearAttn等等,就会发现什么都能和transformer-based扯上关系,连CNN四舍五入也算transformer。所以这个说了等于没说,也不知道openAI做了什么优化使得大模型训练表现得稳定而且优异。

  • 基础模型按照auto-regressive方式训练:嗯,唯一的关键点就是,一次生成一个token

这一点上,虽然报告没说,但我们得知GPT4 的sequence-length打到了32768,比之前3.5提高了4倍。在这一点上,如何节省显存,如何构造寻找真正符合长度的、好的训练数据,都是很难、很值得研究的方向。

  • 没提训练数据的任何信息,也没提代码数据的来源
  • 没提模型规模,和模型结构
  • pretrain结束以后,使用了RLHF。但RLHF的过程、数据规模没提

模型规模一直是大家期待的一个点,之前有人说大到1000B,也有人说小到10B,结果最后一点没提。

Predictable Scaling

power-law

这一部分很有意思,作者提到经典的大模型训练很难调参,因为经典的一次run就已经开销非常大了。GPT4开发出了一种基于power-law的方法可以在低至10000倍的训练时间下,就很吻合地预测出最终在下游任务上的表现。使用如下公式:

对于复杂的pass@k之类的指标,使用更复杂的拟合等式:

大概是用前面ckpt的测试结果拟合a、b、c,不知道之前大家有没有做个这件事情。

我相信openAI内部一定是尝试了transformer的各种变体,对于各个任务做了这么一个工作流,然后每个变体都试了试,拟合一个最终loss,最后决定了具体使用怎样的模型结构、训练超参。

另外,这个拟合结果这么好,足以说明transformer真的是非常符合power-law的,以及现在的所有模型还都没有撞到性能墙,可以继续扩大规模、扩大epoch地训练下去。

Inverse Scaling Prize

这一部分,作者还额外提到了一个任务类型:探索一个随着模型大小增长,表现越来越差的任务。

之前有一类工作专门找到了这样的数据集,作者提到:GPT4在这里表现出了相反的情况,效果打到了100%。这里我想提两个关键点

  • 首先这个”相反趋势“不是首创的,我记得之前PaLM里面好像就提过这个事情,说到了”U型”的趋势
  • 最起码在这里的语境下,表明GPT4不是一个”小模型“,之前10B的论断可能不太准确。

capability

这一部分,作者系统性地吹了一波GPT4的表现,我就找一些比较好的实验来说一下吧。

exam result & academic benchmark

这里包含三个实验,

  • 作者首先在比较有名的人类考试里召集实验者和GPT4,GPT3.5进行了笔试,发现GPT4基本可以排在前10%,而3.5只能排在后10%。
  • 后者,academic benchmark就是指传统的score。作者发现GPT4在几条样本few-shot的情况下,基本可以战胜所有对任务做了额外优化的训练方法
  • 对于RLHF的性能,由于训练是human,评测也只能human。作者说基于GPT4的RLHF比ChatGPT的版本,人类有70%的概率觉得更好。

多语言

为了评测多语言性能,作者把认可度比较高的MMLU多类别选择题数据集翻译成了26种语言,并且输入给GPT4进行学习。发现在这些语言上做的都非常好。

这其实是一个很神奇的地方,我们虽然不知道数据集情况,但可以想见某些小语种的数据一定不是很多。但模型随着某种语言(英语)的学习,竟然就能表现出很好的泛化到多语言的能力。这是不是说明人类的语言内在的相关性其实是很好把握的?

另一个思考的层面是,这个实验没有做GPT3.5以及PaLM等的版本,不知道这种“对于多语言的理解泛化能力”是不是和in-context learning能力类似,是随着模型基础性能的提升才“突然地”激增出来的。这也是值得我们探索的问题。

这里可以看出一个趋势,对于大模型来说,传统的academic score其实并不能说明什么,大家已经刷的很高了,而且score高和human prefer其实没有很大的相关性。最后主试验还是要通过”在human exam上比较排名“的方式,某种程度上已经说明了评测领域的不足和缺陷。

想必openAI也注意到了这一点,专门提到他们开源了所有测试的代码(OpenAI Evals),已经GPT4在每条数据上的结果,来帮助大家对自己的模型进行评测,后续也会完善这个框架。估计评测的问题应该会吸引更多的关注吧。

图像

这就是作者的另一个卖点,输入图像。其实用Autoregressive做图像输入,openAI早有先见。最开始的DALL.E 1,就是把pixel表示直接通过Autoregressive输出来实现图像生成的。

作者虽然没有提具体的细节,但现在主流的方法PaLM-E等都是用一个专门的图像编码器来编码图像,然后作为”token embedding”注入到sequence里面去的,不知道openAI是不是在自己DALL.E 2那个不开源的超级text2image数据集上整了个新的图像编码器。但看起来能力确实很强。

不只是输入,在这里我还是觉得以后可以像versatile diffusion一样做出图像模态的输出来,直接套一个类似DALL.E 2的unCLIP prior模型大概就能有模有样。我甚至怀疑,他们已经做了,只是效果不尽如人意,或者“存在潜在的偏见和风险”,所以没有放出来。

另一方面,关于这种图像输入的模式,不知道是谁先发明的。虽然Kosmos说他们是 the first step,但我们从GPT4技术报告可以看到:其实GPT4早在去年8月份就已经训练完成了

走向多模态、通用性,才是未来大模型的发展方向呀。

limitation

这一部分,作者分析了事实性错误、幻觉现象、偏见、危险内容等等信息,大致得出了两个结论:

  • GPT4的安全性比GPT3.5大大提升
  • 但是GPT4也没有“很安全”,大家谨慎使用

上面这种图我不是想说score的高低,我只是想吐槽:什么时候chatgpt都有v2,v2,v3,v4了,我怎么我感觉我火星了……

作者在MMLU做了一个很有意思的自检测实验:

模型自己认为置信度高的回答,很可能最终的置信度就是真的很高。

这个结论比较符合之前的研究结果。某种意义上,这说明模型自身对于所谓“安全性”是有一定认知的。但作者走的更进一步,也检测了RLHF后的模型,发现这种偏序关系基本消失了。

我认为,也许RLHF或者类似的方法,更重要的是通过模型参数一些小小的迭代,激发出来模型对于自身输出回答的可靠性的认知。所以RLHF模型自己丧失了偏序能力。这也许侧面说明,我们有可能通过更简单的方法,比如prompt等,达到RLHF的效果(当然,RLHF的单步RL假设已经够简单了……

最后作者总结了文章的贡献,并且很自信的说了一句:

Though there remains much work to be done, GPT-4 represents a significant step towards broadly useful and safely deployed AI systems.

我的思考

一篇看下来,感觉最大的震撼是:openAI的一切基本都是自己的,而且所有层面都是领先的

  • 自己提出的Autoregressive训练方法
  • 自己研发的高效训练平台
  • 自己制作的闭源数据集
  • 自己创造的评测框架
  • 自己聘用的人工评测、安全性评估专家团队

回过头想想,之前GPT1被BERT迎头痛击以后,openAI还是没有放弃Autoregressive,一直在迭代版本,不知道积累了多少idea和失败的实验经验,几年下来,已经和我们形成了技术壁垒了。98页的报告其实说了很多,但也什么都没说。我们想要赶上,最起码得在最少一个层面做出自己的突破呀。

当然,我们也有一些自己的优势,比如最起码,我们不用饱受“安全性、偏见”的困扰。也许对我们来说,只用技术报告最后一句话的前半句更合适一些:

There remains much work to be done

是机遇,也是挑战,可能挑战更多一些。与君共勉。

以上内容由GPT4生成(bushi