network 发表于 2023-5-29 10:29:47

微软2023年Build大会演讲:如何训练和应用GPT(中英文字幕)

在5月24日的微软Build大会上,OpenAI的Andrej Karpathy做了《State of GPT》的演讲,其中的第一部分:How to train your (Chat)GPT Assistant,体系化地介绍了LLM的训练过程。虽然内容不是很多,也避开了GPT-4的细节,但是这依然可以算是在ChatGPT发布之后,OpenAI第一次面向开发者稍微有干货的演讲。它对LLM的训练(PreTrain)和调优(FineTune)给了大方向指引,值得细细咀嚼。

图2是非常关键的一张地图,完整的呈现了一个LLM的训练过程,这个图其实非常的严谨和信息量丰富。横轴被细分为4个阶段,其中第一个阶段属于PreTrain,而后面3个阶段属于FineTune。纵轴是数据->算法->模型,还有资源消耗,而各个模型之间的顺序和连接,标注得非常到位。其中很多细节,走在LLM路上的人应该已经知道或者尝试过了,但是这个体系化的地图梳理,可以让大家看看自己在哪里,还需要什么,是非常有帮助的。

在PreTrain阶段,从各种来源得的海量数据,从Raw Text被Token成Integers用于训练,这里他用了GPT-3和LLaMA比较,并且公开承认LLaMA效果比GPT-3好,虽然LLaMA模型大小不如GPT-3,但是由于训练用的Tokens更多,所以效果更好(应该是原料和模型架构都更好的原因)。另外他把训练用的超参数和成本,也都根据公开的数据进行比较了,GPT在超参数的控制上,相对更加细致。另外可以看到LLaMA 65B用了2048张A100的卡训练了21天,500w美元,真是超级吞金兽~

在FineTune的3个阶段(Supervised FineTuning + Reward Modeling + Reinforcement Learning),模型按SFT->RM->RL的方向进化,每个细化阶段都需要不同的人工设计的数据集和指令集。这里Andrej给出了SFT和RM的数据集样例,但是实际上并没有介绍其它细节了,不如PreTrain阶段的详细。在RLHF阶段,他还提到了RLHF会让模型更加的准确,但是会损失熵和多样性,所以其实BM在多样性上会表现更好。

最后,他对目前公开的模型,用伯克利的一个榜单做了总结,并提示前3名都是经过RLHF的RL模型,而后面的都是SFT模型,就开始讲下一部分LLM的应用了。其实他这里如果再稍微延展一下,就可以去做很多学术会议的Keynote Talk了,是OpenAI最近为数不多的Open了。

(Andrej是李飞飞的学生,早期加入OpenAI,跳去了Tesla,又回OpenAI了,他有门深度学习课程很受欢迎,另外语速真的超级快,像个没得感情的机器人,符合OpenAI的风格 https://face.t.sinajs.cn/t4/appstyle/expression/ext/normal/a1/2018new_doge02_org.png)

完整视频自己科学搜索:State of GPT,或者可以直接看@宝玉xp 的传送门视频:http://h5.sinaimg.cn/upload/2015/09/25/3/timeline_card_small_web_default.png网页链接,有中文字幕


https://wx1.sinaimg.cn/orj360/895896aely1heejnw80npj220s1504qp.jpg



https://wx4.sinaimg.cn/orj360/895896aely1heejo19pdwj211h0ki7ft.jpg



https://wx2.sinaimg.cn/orj360/895896aely1heekss2sgvj211h0nfdqj.jpg



https://wx1.sinaimg.cn/orj360/895896aely1heejovw5kvj211h0nfk1s.jpg



https://wx3.sinaimg.cn/orj360/895896aely1heejopyrnij220s1357or.jpg



https://wx1.sinaimg.cn/orj360/895896aely1heejp6bzdsj220s13c1gy.jpg



https://wx4.sinaimg.cn/orj360/895896aely1heejpeuovij21vs14ye81.jpg



https://wx1.sinaimg.cn/orj360/895896aely1heektfk35xj220s11ftvn.jpg



https://wx1.sinaimg.cn/orj360/895896aely1heejv0xr36j220s13l1bt.jpg




network 发表于 2023-5-29 10:30:18

还有Alex这篇,他在观看Andrej Karpathy的演讲时做了一些笔记。以下是线程的主要内容:

1. 预训练阶段需要数月时间和数千个GPU,然后是需要几小时或几天的微调阶段。

2. 在预训练之前,需要进行数据收集和标记化。数据收集是从不同的来源获取大量的数据,标记化是在词语片段和整数之间进行无损转换。

3. 不能仅通过模型包含的参数数量来判断其能力。LLaMa模型已经在1-1.4万亿个标记上进行了训练,而GPT-3只在3000亿个标记上进行了训练。

4.如果我们以特定的方式构造提示(Prompt),并提供一些例子(少数示例提示),那么基础模型就会被“欺骗”进入自动完成我们在提示中提供的指令。

5. 目前最好的开源模型可能是Meta AI的LLaMa模型,因为OAI没有发布关于GPT-4的任何信息。

6. 基础模型并不是助手,它们不会“按你的要求”做事。它们只是自动完成文本。但是,如果你用少数示例提示(few-shot prompt)来构造你的文档,它会“欺骗”基础模型认为它是在自动完成一个AI和人类之间的聊天。

7. Karpathy还提到了一些其他的主题,如模型的偏见、模型的错误推理、模型在某些应用中的挑战(如拼写相关的任务)、模型的知识截止日期(如2021年9月)、模型对提示注入的易感性等。

8. Karpathy的演讲最后用GPT-4生成的对观众的致辞作为例子,展示了如何借助GPT轻松地请求完成任务。

network 发表于 2023-5-29 10:32:16

微软2003年Bui... - @宝玉xp 的视频 - 视频 - 微博 https://weibo.com/tv/show/1034:4906247460421679?mark_id=999_reallog_mark_ad%3A999%7CWeiboADNatural
页: [1]
查看完整版本: 微软2023年Build大会演讲:如何训练和应用GPT(中英文字幕)