微软2023年Build大会演讲：如何训练和应用GPT（中英文字幕）

network 发表于 2023-5-29 10:29:47

在5月24日的微软Build大会上，OpenAI的Andrej Karpathy做了《State of GPT》的演讲，其中的第一部分：How to train your (Chat)GPT Assistant，体系化地介绍了LLM的训练过程。虽然内容不是很多，也避开了GPT-4的细节，但是这依然可以算是在ChatGPT发布之后，OpenAI第一次面向开发者稍微有干货的演讲。它对LLM的训练（PreTrain）和调优（FineTune）给了大方向指引，值得细细咀嚼。

图2是非常关键的一张地图，完整的呈现了一个LLM的训练过程，这个图其实非常的严谨和信息量丰富。横轴被细分为4个阶段，其中第一个阶段属于PreTrain，而后面3个阶段属于FineTune。纵轴是数据->算法->模型，还有资源消耗，而各个模型之间的顺序和连接，标注得非常到位。其中很多细节，走在LLM路上的人应该已经知道或者尝试过了，但是这个体系化的地图梳理，可以让大家看看自己在哪里，还需要什么，是非常有帮助的。

在PreTrain阶段，从各种来源得的海量数据，从Raw Text被Token成Integers用于训练，这里他用了GPT-3和LLaMA比较，并且公开承认LLaMA效果比GPT-3好，虽然LLaMA模型大小不如GPT-3，但是由于训练用的Tokens更多，所以效果更好（应该是原料和模型架构都更好的原因）。另外他把训练用的超参数和成本，也都根据公开的数据进行比较了，GPT在超参数的控制上，相对更加细致。另外可以看到LLaMA 65B用了2048张A100的卡训练了21天，500w美元，真是超级吞金兽~

在FineTune的3个阶段（Supervised FineTuning + Reward Modeling + Reinforcement Learning），模型按SFT->RM->RL的方向进化，每个细化阶段都需要不同的人工设计的数据集和指令集。这里Andrej给出了SFT和RM的数据集样例，但是实际上并没有介绍其它细节了，不如PreTrain阶段的详细。在RLHF阶段，他还提到了RLHF会让模型更加的准确，但是会损失熵和多样性，所以其实BM在多样性上会表现更好。

最后，他对目前公开的模型，用伯克利的一个榜单做了总结，并提示前3名都是经过RLHF的RL模型，而后面的都是SFT模型，就开始讲下一部分LLM的应用了。其实他这里如果再稍微延展一下，就可以去做很多学术会议的Keynote Talk了，是OpenAI最近为数不多的Open了。

（Andrej是李飞飞的学生，早期加入OpenAI，跳去了Tesla，又回OpenAI了，他有门深度学习课程很受欢迎，另外语速真的超级快，像个没得感情的机器人，符合OpenAI的风格 https://face.t.sinajs.cn/t4/appstyle/expression/ext/normal/a1/2018new_doge02_org.png）

完整视频自己科学搜索：State of GPT，或者可以直接看@宝玉xp 的传送门视频：http://h5.sinaimg.cn/upload/2015/09/25/3/timeline_card_small_web_default.png网页链接，有中文字幕

https://wx1.sinaimg.cn/orj360/895896aely1heejnw80npj220s1504qp.jpg

https://wx4.sinaimg.cn/orj360/895896aely1heejo19pdwj211h0ki7ft.jpg

https://wx2.sinaimg.cn/orj360/895896aely1heekss2sgvj211h0nfdqj.jpg

https://wx1.sinaimg.cn/orj360/895896aely1heejovw5kvj211h0nfk1s.jpg

https://wx3.sinaimg.cn/orj360/895896aely1heejopyrnij220s1357or.jpg

https://wx1.sinaimg.cn/orj360/895896aely1heejp6bzdsj220s13c1gy.jpg

https://wx4.sinaimg.cn/orj360/895896aely1heejpeuovij21vs14ye81.jpg

https://wx1.sinaimg.cn/orj360/895896aely1heektfk35xj220s11ftvn.jpg

https://wx1.sinaimg.cn/orj360/895896aely1heejv0xr36j220s13l1bt.jpg

network 发表于 2023-5-29 10:30:18

还有Alex这篇，他在观看Andrej Karpathy的演讲时做了一些笔记。以下是线程的主要内容：

1. 预训练阶段需要数月时间和数千个GPU，然后是需要几小时或几天的微调阶段。

2. 在预训练之前，需要进行数据收集和标记化。数据收集是从不同的来源获取大量的数据，标记化是在词语片段和整数之间进行无损转换。

3. 不能仅通过模型包含的参数数量来判断其能力。LLaMa模型已经在1-1.4万亿个标记上进行了训练，而GPT-3只在3000亿个标记上进行了训练。

4.如果我们以特定的方式构造提示（Prompt），并提供一些例子（少数示例提示），那么基础模型就会被“欺骗”进入自动完成我们在提示中提供的指令。

5. 目前最好的开源模型可能是Meta AI的LLaMa模型，因为OAI没有发布关于GPT-4的任何信息。

6. 基础模型并不是助手，它们不会“按你的要求”做事。它们只是自动完成文本。但是，如果你用少数示例提示（few-shot prompt）来构造你的文档，它会“欺骗”基础模型认为它是在自动完成一个AI和人类之间的聊天。

7. Karpathy还提到了一些其他的主题，如模型的偏见、模型的错误推理、模型在某些应用中的挑战（如拼写相关的任务）、模型的知识截止日期（如2021年9月）、模型对提示注入的易感性等。

8. Karpathy的演讲最后用GPT-4生成的对观众的致辞作为例子，展示了如何借助GPT轻松地请求完成任务。

network 发表于 2023-5-29 10:32:16

微软2003年Bui... - @宝玉xp 的视频 - 视频 - 微博 https://weibo.com/tv/show/1034:4906247460421679?mark_id=999_reallog_mark_ad%3A999%7CWeiboADNatural

页: [1]

博威---云架构决胜云计算's Archiver

微软2023年Build大会演讲：如何训练和应用GPT（中英文字幕）