万字拆解！追溯ChatGPT各项能力的起源

network · 发表于 2023-1-18 15:22:31

万字拆解！追溯ChatGPT各项能力的起源[color=var(--weui-FG-2)]符尧等 [url=]将门创投[/url] [color=var(--weui-FG-2)]2022-12-30 08:22 [color=var(--weui-FG-2)]发表于河南
[color=rgba(0, 0, 0, 0.5)]收录于合集
#GPT-3[color=rgba(0, 0, 0, 0.3)]1个
#自然语言处理[color=rgba(0, 0, 0, 0.3)]59个

最近，OpenAI的预训练模型ChatGPT给人工智能领域的研究人员留下了深刻的印象和启发。毫无疑问，它又强又聪明，且跟它说话很好玩，还会写代码。它在多个方面的能力远远超过了自然语言处理研究者们的预期。于是我们自然就有一个问题：ChatGPT 是怎么变得这么强的？它的各种强大的能力到底从何而来？在这篇文章中，我们试图剖析 ChatGPT 的突现能力（Emergent Ability），追溯这些能力的来源，希望能够给出一个全面的技术路线图，来说明 GPT-3.5 模型系列以及相关的大型语言模型是如何一步步进化成目前的强大形态。

英文原版：https://franxyao.github.io/blog.html作者：符尧 yao.fu@ed.ac.uk – 爱丁堡大学 (University of Edinburgh) 博士生，本科毕业于北京大学与彭昊，Tushar Khot在艾伦人工智能研究院 (Allen Institute for AI) 共同完成英文原稿与剑桥大学郭志江共同翻译为中文感谢上海交通大学何俊贤，加州大学洛杉矶分校鲁盼，达特茅斯学院刘睿博对初稿的讨论与建议。感谢 Raj Ammanabrolu (Allen Institute for AI), Peter Liu (Google Brain), Brendan Dolan-Gavitt (New York University), Denny Zhou (Google Brain) 对终稿的讨论和建议，他们的建议极大程度上增加了本文的完整度。

我们希望这篇文章能够促进大型语言模型的透明度，成为开源社区共同努力复现 GPT-3.5 的路线图。

致国内的同胞们：

在国际学术界看来，ChatGPT / GPT-3.5 是一种划时代的产物，它与之前常见的语言模型 (Bert/ Bart/ T5) 的区别，几乎是导弹与弓箭的区别，一定要引起最高程度的重视。
在我跟国际同行的交流中，国际上的主流学术机构 (如斯坦福大学，伯克利加州大学) 和主流业界研究院（如谷歌大脑，微软研究院）都已经全面拥抱大模型。
在当前这个阶段，国内的技术水准，学术视野，治学理念和国际前沿的差距似乎并没有减少，反而正在扩大，如果现状持续下去，极有可能出现技术断代。
此诚危急存亡之秋。

多年以后，面对行刑队，奥雷里亚诺·布恩迪亚上校将会回想起父亲带他去见识冰块的那个遥远的下午。—— 《百年孤独》加西亚·马尔克斯

一、2020 版初代 GPT-3 与大规模预训练

初代GPT-3展示了三个重要能力：

语言生成：遵循提示词（prompt），然后生成补全提示词的句子。这也是今天人类与语言模型最普遍的交互方式。
上下文学习 (in-context learning): 遵循给定任务的几个示例，然后为新的测试用例生成解决方案。很重要的一点是，GPT-3虽然是个语言模型，但它的论文几乎没有谈到“语言建模” (language modeling) —— 作者将他们全部的写作精力都投入到了对上下文学习的愿景上，这才是 GPT-3的真正重点。
世界知识：包括事实性知识 (factual knowledge) 和常识 (commonsense)。

那么这些能力从何而来呢？

基本上，以上三种能力都来自于大规模预训练：在有3000亿单词的语料上预训练拥有1750亿参数的模型（训练语料的60%来自于 2016 - 2019 的 C4 + 22% 来自于 WebText2 + 16% 来自于Books + 3%来自于Wikipedia）。其中：

语言生成的能力来自于语言建模的训练目标 (language modeling)。
世界知识来自 3000 亿单词的训练语料库（不然还能是哪儿呢）。
模型的 1750 亿参数是为了存储知识，Liang et al. (2022) 的文章进一步证明了这一点。他们的结论是，知识密集型任务的性能与模型大小息息相关。
上下文学习的能力来源及为什么上下文学习可以泛化，仍然难以溯源。直觉上，这种能力可能来自于同一个任务的数据点在训练时按顺序排列在同一个 batch 中。然而，很少有人研究为什么语言模型预训练会促使上下文学习，以及为什么上下文学习的行为与微调 (fine-tuning) 如此不同。

令人好奇的是，初代的GPT-3有多强。其实比较难确定初代 GPT-3（在 OpenAI API 中被称为davinci）到底是“强”还是“弱”。一方面，它合理地回应了某些特定的查询，并在许多数据集中达到了还不错的性能；另一方面，它在许多任务上的表现还不如 T5 这样的小模型（参见其原始论文）。在今天（2022 年 12 月）ChatGPT 的标准下，很难说初代的 GPT-3 是“智能的”。Meta 开源的 OPT 模型试图复现初代 GPT-3，但它的能力与当今的标准也形成了尖锐的对比。许多测试过 OPT 的人也认为与现在的 text-davinci-002 相比，该模型确实 “不咋地”。尽管如此，OPT 可能是初代 GPT-3 的一个足够好的开源的近似模型了（根据 OPT 论文和斯坦福大学的 HELM 评估）。

虽然初代的 GPT-3 可能表面上看起来很弱，但后来的实验证明，初代 GPT-3 有着非常强的潜力。这些潜力后来被代码训练、指令微调 (instruction tuning) 和基于人类反馈的强化学习 (reinforcement learning with human feedback, RLHF) 解锁，最终体展示出极为强大的突现能力。

二、从 2020 版 GPT-3 到 2022 版 ChatGPT

从最初的 GPT-3 开始，为了展示 OpenAI 是如何发展到ChatGPT的，我们看一下 GPT-3.5 的进化树：

在2020 年 7 月，OpenAI 发布了模型索引为的 davinci 的初代 GPT-3 论文，从此它就开始不断进化。
在2021 年 7 月，Codex 的论文发布，其中初始的 Codex 是根据（可能是内部的）120 亿参数的 GPT-3 变体进行微调的。后来这个 120 亿参数的模型演变成 OpenAI API 中的 code-cushman-001。
在2022 年 3 月，OpenAI 发布了指令微调 (instruction tuning) 的论文，其监督微调 (supervised instruction tuning) 的部分对应了 davinci-instruct-beta 和 text-davinci-001。
在2022 年 4 月至 7 月的，OpenAI 开始对 code-davinci-002 模型进行 Beta 测试，也称其为 Codex。然后 text-davinci-002、text-davinci-003 和 ChatGPT 都是从code-davinci-002进行指令微调得到的。详细信息请参阅 OpenAI的模型索引文档。

尽管 Codex 听着像是一个只管代码的模型，但 code-davinci-002 可能是最强大的针对自然语言的GPT-3.5 变体（优于 text-davinci-002 和 -003）。code-davinci-002很可能在文本和代码上都经过训练，然后根据指令进行调整（将在下面解释）。

然后2022 年 5-6 月发布的 text-davinci-002 是一个基于 code-davinci-002 的有监督指令微调 (supervised instruction tuned) 模型。在 text-davinci-002 上面进行指令微调很可能降低了模型的上下文学习能力，但是增强了模型的零样本能力（将在下面解释）。

然后是 text-davinci-003 和 ChatGPT，它们都在2022 年 11 月发布，是使用的基于人类反馈的强化学习的版本指令微调 (instruction tuning with reinforcement learning from human feedback) 模型的两种不同变体。text-davinci-003 恢复了（但仍然比 code-davinci-002 差）一些在 text-davinci-002 中丢失的部分上下文学习能力（大概是因为它在微调的时候混入了语言建模）并进一步改进了零样本能力（得益于RLHF）。另一方面，ChatGPT 似乎牺牲了几乎所有的上下文学习的能力来换取建模对话历史的能力。

总的来说，在 2020 - 2021 年期间，在 code-davinci-002 之前，OpenAI 已经投入了大量的精力通过代码训练和指令微调来增强GPT-3。当他们完成 code-davinci-002 时，所有的能力都已经存在了。很可能后续的指令微调，无论是通过有监督的版本还是强化学习的版本，都会做以下事情（稍后会详细说明）：

指令微调不会为模型注入新的能力 —— 所有的能力都已经存在了。指令微调的作用是解锁 / 激发这些能力。这主要是因为指令微调的数据量比预训练数据量少几个数量级（基础的能力是通过预训练注入的）。
指令微调将 GPT-3.5 的分化到不同的技能树。有些更擅长上下文学习**，如text-davinci-003，有些更擅长对话，如 ChatGPT。
指令微调通过牺牲性能换取与人类的对齐（alignment）。OpenAI 的作者在他们的指令微调论文中称其为 “对齐税” (alignment tax)。许多论文都报道了 code-davinci-002 在基准测试中实现了最佳性能（但模型不一定符合人类期望）。在code-davinci-002上进行指令微调后，模型可以生成更加符合人类期待的反馈（或者说模型与人类对齐），例如：零样本问答、生成安全和公正的对话回复、拒绝超出模型它知识范围的问题。

三、Code-Davinci-002和 Text-Davinci-002，在代码上训练，在指令上微调

在code-davinci-002和text-davinci-002之前，有两个中间模型，分别是 davinci-instruct-beta 和 text-davinci-001。两者在很多方面都比上述的两个-002模型差（例如，text-davinci-001 链式思维推理能力不强）。所以我们在本节中重点介绍 -002 型号。

3.1 复杂推理能力的来源和泛化到新任务的能力

我们关注code-davinci-002和text-davinci-002，这两兄弟是第一版的 GPT3.5 模型，一个用于代码，另一个用于文本。它们表现出了三种重要能力与初代 GPT-3 不同的能力：

响应人类指令：以前，GPT-3 的输出主要训练集中常见的句子。现在的模型会针对指令 / 提示词生成更合理的答案（而不是相关但无用的句子）。
泛化到没有见过的任务：当用于调整模型的指令数量超过一定的规模时，模型就可以自动在从没见过的新指令上也能生成有效的回答。这种能力对于上线部署至关重要，因为用户总会提新的问题，模型得答得出来才行。
代码生成和代码理解：这个能力很显然，因为模型用代码训练过。
利用思维链 (chain-of-thought) 进行复杂推理：初代 GPT3 的模型思维链推理的能力很弱甚至没有。code-davinci-002 和 text-davinci-002 是两个拥有足够强的思维链推理能力的模型。
- 思维链推理之所以重要，是因为思维链可能是解锁突现能力和超越缩放法则 (scaling laws) 的关键。请参阅上一篇博文。

这些能力从何而来？

与之前的模型相比，两个主要区别是指令微调和代码训练。具体来说

能够响应人类指令的能力是指令微调的直接产物。
对没有见过的指令做出反馈的泛化能力是在指令数量超过一定程度之后自动出现的，T0、Flan 和 FlanPaLM 论文进一步证明了这一点
使用思维链进行复杂推理的能力很可能是代码训练的一个神奇的副产物。对此，我们有以下的事实作为一些支持：
- 最初的 GPT-3 没有接受过代码训练，它不能做思维链。
- text-davinci-001 模型，虽然经过了指令微调，但第一版思维链论文报告说，它的它思维链推理的能力非常弱 —— 所以指令微调可能不是思维链存在的原因，代码训练才是模型能做思维链推理的最可能原因。
- PaLM 有 5% 的代码训练数据，可以做思维链。
- Codex论文中的代码数据量为 159G ，大约是初代 GPT-3 5700 亿训练数据的28%。code-davinci-002 及其后续变体可以做思维链推理。
- 在 HELM 测试中，Liang et al. (2022) 对不同模型进行了大规模评估。他们发现了针对代码训练的模型具有很强的语言推理能力，包括 120亿参数的code-cushman-001.。
- 我们在 AI2 的工作也表明，当配备复杂的思维链时，code-davinci-002 在 GSM8K 等重要数学基准上是目前表现最好的模型
- 直觉来说，面向过程的编程 (procedure-oriented programming) 跟人类逐步解决任务的过程很类似，面向对象编程 (object-oriented programming) 跟人类将复杂任务分解为多个简单任务的过程很类似。
- 以上所有观察结果都是代码与推理能力 / 思维链之间的相关性。代码和推理能力 / 思维链之间的这种相关性对研究社区来说是一个非常有趣的问题，但目前仍未得到很好的理解。然而，仍然没有确凿的证据表明代码训练就是CoT和复杂推理的原因。思维链的来源仍然是一个开放性的研究问题。
此外， 代码训练另一个可能的副产品是长距离依赖，正如Peter Liu所指出：“语言中的下个词语预测通常是非常局部的，而代码通常需要更长的依赖关系来做一些事情，比如前后括号的匹配或引用远处的函数定义”。这里我想进一步补充的是：由于面向对象编程中的类继承，代码也可能有助于模型建立编码层次结构的能力。我们将对这一假设的检验留给未来的工作。

另外还要注意一些细节差异：

text-davinci-002 与 code-davinci-002
- Code-davinci-002 是基础模型，text-davinci-002 是指令微调 code-davinci-002 的产物（见 OpenAI 的文档）。它在以下数据上作了微调：（一）人工标注的指令和期待的输出；（二）由人工标注者选择的模型输出。
- 当有上下文示例 (in-context example) 的时候， Code-davinci-002 更擅长上下文学习；当没有上下文示例 / 零样本的时候， text-davinci-002 在零样本任务完成方面表现更好。从这个意义上说，text-davinci-002 更符合人类的期待（因为对一个任务写上下文示例可能会比较麻烦）。
- OpenAI 不太可能故意牺牲了上下文学习的能力换取零样本能力 —— 上下文学习能力的降低更多是指令学习的一个副作用，OpenAI 管这叫对齐税。
001 模型（code-cushman-001 和 text-davinci-001）v.s. 002 模型（code-davinci-002 和 text-davinci-002）
- 001 模型主要是为了做纯代码 / 纯文本任务；002 模型则深度融合了代码训练和指令微调，代码和文本都行。
- Code-davinci-002 可能是第一个深度融合了代码训练和指令微调的模型。证据有：code-cushman-001 可以进行推理但在纯文本上表现不佳，text-davinci-001 在纯文本上表现不错但在推理上不大行。code-davinci-002 则可以同时做到这两点。

3.2 这些能力是在预训练之后已经存在还是在之后通过微调注入？

在这个阶段，我们已经确定了指令微调和代码训练的关键作用。一个重要的问题是如何进一步分析代码训练和指令微调的影响？具体来说：上述三种能力是否已经存在于初代的GPT-3中，只是通过指令和代码训练触发 / 解锁？或者这些能力在初代的 GPT-3 中并不存在，是通过指令和代码训练注入？如果答案已经在初代的 GPT-3 中，那么这些能力也应该在 OPT 中。因此，要复现这些能力，或许可以直接通过指令和代码调整 OPT。 但是，code-davinci-002 也可能不是基于最初的 GPT-3 davinci，而是基于比初代 GPT-3 更大的模型。如果是这种情况，可能就没办法通过调整 OPT 来复现了。研究社区需要进一步弄清楚 OpenAI 训练了什么样的模型作为 code-davinci-002 的基础模型。

我们有以下的假设和证据：

code-davinci-002的基础模型可能不是初代GPT-3 davinci 模型。以下是证据：
- 初代的GPT-3在数据集 C4 2016 - 2019 上训练，而 code-davinci-002 训练集则在延长到2021年才结束。因此 code-davinci-002 有可能在 C4 的 2019-2021 版本上训练。
- 初代的 GPT-3 有一个大小为 2048 个词的上下文窗口。code-davinci-002 的上下文窗口则为 8192。GPT 系列使用绝对位置嵌入 (absolute positional embedding)，直接对绝对位置嵌入进行外推而不经过训练是比较难的，并且会严重损害模型的性能（参考 Press et al., 2022）。如果 code-davinci-002 是基于初代GPT-3，那OpenAI 是如何扩展上下文窗口的？
另一方面，无论基础模型是初代的 GPT-3 还是后来训练的模型， 遵循指令和零样本泛化的能力都可能已经存在于基础模型中，后来才通过指令微调来解锁（而不是注入）
- 这主要是因为 OpenAI 的论文报告的指令数据量大小只有 77K，比预训练数据少了几个数量级。
- 其他指令微调论文进一步证明了数据集大小对模型性能的对比，例如 Chung et al. (2022) 的工作中， Flan-PaLM 的指令微调仅为预训练计算的 0.4%。一般来说，指令数据会显著少于预训练数据。
然而，模型的复杂推理能力可能是在预训练阶段通过代码数据注入
- 代码数据集的规模与上述指令微调的情况不同。这里的代码数据量足够大，可以占据训练数据的重要部分（例如，PaLM 有 8% 的代码训练数据）
- 如上所述，在 code-davinci-002 之前的模型 text-davinci-001 大概没有在代码数据上面微调过，所以它的推理 / 思维链能力是非常差的，正如第一版思维链论文中所报告的那样，有时甚至比参数量更小的 code-cushman-001 还差。
区分代码训练和指令微调效果的最好方法可能是比较 code-cushman-001、T5 和 FlanT5
- 因为它们具有相似的模型大小（110亿和 120亿），相似的训练数据集 (C4)，它们最大的区别就是有没有在代码上训练过 / 有没有做过指令微调。
- 目前还没有这样的比较。我们把这个留给未来的研究。

四、text-davinci-003 和 ChatGPT，基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF) 的威力

在当前阶段（2022 年 12 月）， text-davinci-002、text-davinci-003 和 ChatGPT之间几乎没有严格的统计上的比较，主要是因为

text-davinci-003 和 ChatGPT 在撰写本文时才发布不到一个月。
ChatGPT 不能通过 OpenAI API 被调用，所以想要在标准基准上测试它很麻烦。

所以在这些模型之间的比较更多是基于研究社区的集体经验 （统计上不是很严格）。不过，我们相信初步的描述性比较仍然可以揭示模型的机制。

我们首先注意到以下 text-davinci-002，text-davinci-003 和 ChatGPT 之间的比较：

所有三个模型都经过指令微调。
text-davinci-002 是一个经过监督学习指令微调 (supervised instruction tuning) 的模型
text-davinci-003 和 ChatGPT 是基于人类反馈的强化学习的指令微调 (Instruction tuning with Reinforcement Learning from Human Feedback RLHF)。这是它们之间最显着的区别。

这意味着大多数新模型的行为都是 RLHF 的产物。

那么让我们看看 RLHF 触发的能力：

翔实的回应：text-davinci-003 的生成通常比 text-davinci-002长。ChatGPT 的回应则更加冗长，以至于用户必须明确要求“用一句话回答我”，才能得到更加简洁的回答。这是 RLHF 的直接产物。
公正的回应：ChatGPT 通常对涉及多个实体利益的事件（例如政治事件）给出非常平衡的回答。这也是RLHF的产物。
拒绝不当问题：这是内容过滤器和由 RLHF 触发的模型自身能力的结合，过滤器过滤掉一部分，然后模型再拒绝一部分。
拒绝其知识范围之外的问题：例如，拒绝在2021 年 6 月之后发生的新事件（因为它没在这之后的数据上训练过）。这是 RLHF 最神奇的部分，因为它使模型能够隐式地区分哪些问题在其知识范围内，哪些问题不在其知识范围内。

有两件事情值得注意：

所有的能力都是模型本来就有的， 而不是通过RLHF 注入的。RLHF 的作用是触发 / 解锁突现能力。这个论点主要来自于数据量大小的比较：因为与预训练的数据量相比，RLHF 占用的计算量 / 数据量要少得多。
模型知道它不知道什么不是通过编写规则来实现的，而是通过RLHF解锁的。这是一个非常令人惊讶的发现，因为 RLHF 的最初目标是让模型生成复合人类期望的回答，这更多是让模型生成安全的句子，而不是让模型知道它不知道的内容。

幕后发生的事情可能是：

ChatGPT: 通过牺牲上下文学习的能力换取建模对话历史的能力。这是一个基于经验的观测结果，因为 ChatGPT 似乎不像 text-davinci-003 那样受到上下文演示的强烈影响。
text-davinci-003：恢复了 text-davinci-002 所牺牲的上下文学习能力，提高零样本的能力。我们不确定这是否也是 RLHF 或其他东西的副产品。根据instructGPT的论文，这是来自于强化学习调整阶段混入了语言建模的目标（而不是 RLHF 本身）。

五、总结当前阶段 GPT-3.5 的进化历程

到目前为止，我们已经仔细检查了沿着进化树出现的所有能力，下表总结了演化路径：

我们可以得出结论：

语言生成能力 + 基础世界知识 + 上下文学习都是来自于预训练（davinci）
存储大量知识的能力来自 1750 亿的参数量。
遵循指令和泛化到新任务的能力来自于扩大指令学习中指令的数量（Davinci-instruct-beta)
执行复杂推理的能力很可能来自于代码训练（code-davinci-002）
生成中立、客观的能力、安全和翔实的答案来自与人类的对齐。具体来说：
- 如果是监督学习版，得到的模型是text-davinci-002
- 如果是强化学习版 (RLHF) ，得到的模型是text-davinci-003
- 无论是有监督还是 RLHF ，模型在很多任务的性能都无法超过 code-davinci-002 ，这种因为对齐而造成性能衰退的现象叫做对齐税。
对话能力也来自于 RLHF（ChatGPT），具体来说它牺牲了上下文学习的能力，来换取：
- 建模对话历史
- 增加对话信息量
- 拒绝模型知识范围之外的问题

六、GPT-3.5 目前不能做什么

虽然GPT-3.5是自然语言处理研究中的重要一步，但它并没有完全包含许多研究人员（包括 AI2）设想的所有理想属性。以下是GPT-3.5不具备的某些重要属性：

实时改写模型的信念：当模型表达对某事的信念时，如果该信念是错误的，我们可能很难纠正它：
- 我最近遇到的一个例子是：ChatGPT 坚持认为 3599 是一个质数，尽管它承认 3599 = 59 * 61。另外，请参阅Reddit上关于游得最快的海洋哺乳动物的例子。
- 然而，模型信念的强度似乎存在不同的层次。一个例子是即使我告诉它达斯·维达（星球大战电影中的人物）赢得了2020年大选，模型依旧会认为美国现任总统是拜登。但是如果我将选举年份改为 2024 年，它就会认为总统是达斯·维达是 2026 年的总统。
形式推理：GPT-3.5系列不能在数学或一阶逻辑等形式严格的系统中进行推理：
- 一个例子是严格的数学证明，要求中间步骤中不能跳，不能模糊，不能错。
- 但这种严格推理到底是应该让语言模型做还是让符号系统做还有待讨论。一个例子是，与其努力让 GPT 做三位数加法，不如直接调 Python。
- 生成如何做豆腐脑的方法。做豆腐脑的时候，中间很多步骤模糊一点是可以接受的，比如到底是做咸的还是做甜的。只要整体步骤大致正确，做出来的豆腐脑儿就能吃。
- 数学定理的证明思路。证明思路是用语言表达的非正式的逐步解法，其中每一步的严格推导可以不用太具体。证明思路经常被用到数学教学：只要老师给一个大致正确的整体步骤，学生就可以大概明白。然后老师把具体的证明细节作为作业布置给学生，答案略。
- 在自然语言处理的文献中， “推理” 一词的定义很多时候不太明确。但如果我们从模糊性的角度来看，例如一些问题 (a) 非常模棱两可，没有推理；(b) 有点儿逻辑在里面，但有些地方也可以模糊；(c) 非常严谨，不能有任何歧义。那么，
- 模型可以很好地进行 (b) 类的带模糊性的推理，例子有：
- GPT-3.5 不能进行类型 (c) 的推理（推理不能容忍歧义）。
从互联网进行检索：GPT-3.5 系列（暂时）不能直接搜索互联网
- 模型的内部知识总是在某个时间被切断。模型始终需要最新的知识来回答最新的问题。
- 回想一下，我们已经讨论过 1750 亿的参数大量用于存储知识。如果我们可以将知识卸载到模型之外，那么模型参数可能会大大减少，最终它甚至可以在手机上运行（疯狂的想法，但 ChatGPT 已经足够科幻了，谁知道未来会怎样呢).
- 但是有一篇 WebGPT 论文发表于2021年12月，里面就让 GPT 调用了搜索引擎。所以检索的能力已经在 OpenAI 内部进行了测试。
- 这里需要区分的一点是，GPT-3.5 的两个重要但不同的能力是知识和推理。一般来说，如果我们能够 将知识部分卸载到外部的检索系统，让语言模型只专注于推理，这就很不错了。因为：（1）模型的内部知识总是在某个时间被切断。模型始终需要最新的知识来回答最新的问题。（2）回想一下，我们已经讨论过 1750 亿的参数大量用于存储知识。如果我们可以将知识卸载到模型之外，那么模型参数可能会大大减少，最终它甚至可以在手机上运行（疯狂的想法，但 ChatGPT 已经足够科幻了，谁知道未来会怎样呢)。

七、结论

在这篇博文中，我们仔细检查了GPT-3.5系列的能力范围，并追溯了它们所有突现能力的来源。初代GPT-3模型通过预训练获得生成能力、世界知识和in-context learning。然后通过instruction tuning的模型分支获得了遵循指令和能泛化到没有见过的任务的能力。经过代码训练的分支模型则获得了代码理解的能力，作为代码训练的副产品，模型同时潜在地获得了复杂推理的能力。结合这两个分支，code-davinci-002似乎是具有所有强大能力的最强GPT-3.5模型。接下来通过有监督的instruction tuning和 RLHF通过牺牲模型能力换取与人类对齐，即对齐税。RLHF 使模型能够生成更翔实和公正的答案，同时拒绝其知识范围之外的问题。

我们希望这篇文章能够帮助提供一个清晰的GPT评估图，并引发一些关于语言模型、instruction tuning和code tuning的讨论。最重要的是，我们希望这篇文章可以作为在开源社区内复现GPT-3.5的路线图。

“因为山就在那里。”——乔治·马洛里，珠穆朗玛峰探险先驱

八、常见问题1. 这篇文章中的这些说法更像是假设 (hypothesis) 还是结论 (conclusion)？

复杂推理的能力来自于代码训练是我们倾向于相信的假设
对没有见过的任务泛化能力来自大规模指令学习 是至少 4 篇论文的结论
GPT-3.5来自于其他大型基础模型，而不是1750亿参数的GPT-3 是有根据的猜测。
所有这些能力都已经存在了，通过instruction tuning，无论是有监督学习或强化学习的方式来解锁而不是注入这些能力 是一个强有力的假设，强到你不敢不信。主要是因为instruction tuning数据量比预训练数据量少了几个数量级
结论 = 许多证据支持这些说法的正确性；假设 = 有正面证据但不够有力；有根据的猜测 = 没有确凿的证据，但某些因素会指向这个方向

2.

为什么其他模型（如 OPT 和 BLOOM）没有那么强大？

OPT大概是因为训练过程太不稳定
BLOOM的情况则未知。如果您有更多意见，请与我联系

附录 - 中英术语对照表

作者：符尧等文章来源：公众号【李rumor】

Illustration by Manypixels Gallery from IconScout-TheEnd-

扫码观看！

本周上新！

多家技术企业招聘来啦！

多家技术企业招聘来啦！有求必应的小将收集到来自TechBeat技术社群内技术企业的招人需求，包含来自微软亚研、腾讯、小红书等企业算法工程师等正式及实习岗位，欢迎有需求的大家向这些公司投递简历哦！

扫描了解详情~

关于我“门”

▼

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构，旗下涵盖将门创新服务、将门技术社群以及将门创投基金。
将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”: bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

点击“阅读原文”按钮，查看社区原文⤵一键送你进入TechBeat快乐星球

[url=]阅读原文[/url][color=rgba(0, 0, 0, 0.3)]阅读 1371

分享收藏

4

2

[backcolor=var(--weui-BG-5)]

[color=rgba(0, 0, 0, 0.9)]将门创投
[color=rgba(0, 0, 0, 0.3)]1645篇原创内容

关注

[color=rgba(0, 0, 0, 0.3)]分享此内容的人还喜欢

如何给AI一点暗示？提示工程Prompt Engineering 现状和未来介绍

[color=rgba(0, 0, 0, 0.3)]船长尼莫
阅读 154

不喜欢
[color=rgba(0, 0, 0, 0.9)]不看的原因
确定

内容质量低
不看此公众号

ChatGPT封杀潮，禁入学校，AI顶会特意改规则，LeCun：要不咱把小模型也禁了？

[color=rgba(0, 0, 0, 0.3)]计算机视觉研究院
阅读 1331

不喜欢
[color=rgba(0, 0, 0, 0.9)]不看的原因
确定

内容质量低
不看此公众号

他山之石丨万字拆解！追溯ChatGPT各项能力的起源

[color=rgba(0, 0, 0, 0.3)]知识工场
阅读 754

不喜欢
[color=rgba(0, 0, 0, 0.9)]不看的原因
确定

内容质量低
不看此公众号

[backcolor=var(--weui-BG-2)]

[color=var(--weui-FG-0)]

network · 发表于 2023-1-27 07:43:16

谷歌真被ChatGPT搞慌了！两位创始人紧急回归制定战术，搜索广告根基不容有失2023-01-27 星期五由 Bad.news 提供快照支持加入tg群

佩奇和布林都被召唤回来了

衡宇发自凹非寺
量子位 | 公众号 QbitAI

谷歌是真的慌了。

一边节流：12000名打工人年关遭裁员，如今又被曝制定防守战略：

并且紧急召唤了两位创始人。

△谷歌创始人佩奇（左图）和布林（右图）

就在微软准备在自家产品中整合ChatGPT之际，上个月，谷歌创始人拉里·佩奇和谢尔盖·布林就ChatGPT的猛烈攻势，召开了多次高层会议。

要知道，3年来，佩奇和布林虽仍在董事会担任要职，但已经卸任了在谷歌的具体运营管理职务——换句话说，就是退出一线了。

此次两人与会事件与会议主题一经爆出，无疑在向外界传递一个信号：

谷歌或许真的已经到达了“危急存亡”的关口。

据透露，两位创始人与会的主要话题，围绕着“聊天机器人搜索引擎”，他们批准并提出了要把对话AI和搜索引擎进一步整合的计划。

谷歌部署的下一步应对战略，还有预备年内推出20个全新AI产品。

谷歌的老对手微软携OpenAI攻势汹汹。谁也不曾料到，去年11月底普普通通的一天，ChatGPT一经出世，势如破竹。

在“ChatGPT会不会取代Google”的争论里，无论是东风压倒了西风，还是情况反之，谷歌心里有自己的一本账。

拉响红色警报后，现在又被曝出两位创始大神就“聊天机器人搜索引擎”召开高层会议。

危急存亡，可见一斑。

△劈柴哥

毕竟2019年起，佩奇和布林就卸任具体运营管理职务，明面上退出了谷歌的日常工作。

此后在外界眼中，两位创始人对谷歌的发展路线一直采取着一种放任自由的态度。

让劈柴哥Sundar Picha担任谷歌及其母公司Alphabet的CEO，自己不然搞搞飞行汽车初创公司，不然参与抢险救灾工作。

知情人士透露，在“隐退”的3年多里，佩奇与布林二人偶尔出现在Alphabet位于硅谷的办公室，都主要是为了了解Alphabet称为“其他赌注（other bets）”的登月计划。

哪怕是近段时间，他们也没太分神给搜索引擎方面的工作。

但现在不一样了。

比起劈柴哥发邮件“不得不做出艰难决定”，大手一挥裁员1.2万员工，佩奇与布林在ChatGPT亮相不到两周后对高层会议的参与，似乎更能突显谷歌的心慌。

与会人员包括谷歌研究和AI高级副总裁杰夫•迪恩（Jeff Dean），以及谷歌全球事务总裁兼首席法务官肯特•沃克（Kent Walker）。

这几场高层会议被曝具体商榷事宜如下：

第一，回顾谷歌AI战略。

两位创始人向来乐此不疲地把AI引入谷歌产品，包括在2014年时收购AI实验室DeepMind。

且母公司Alphabet名字的其中一层意味，正是alpha – bet （alpha是超额收益下的投资回报，放到今时今日，就是AI）。

第二，评估接下来的产品计划，它们将于5月在I/O大会上首次亮相。

而最最引人注目的，就是批准了在谷歌搜索引擎中加入更多聊天机器人功能的计划和建议。

高层们已经遵循他们的建议，把AI放在了公司战略计划首位。

谷歌退出一线的创始人对当下局势的高度重视，让不少人翘首以盼。

比如这位投资人就为之鼓掌：

希望重回谷歌黄金时代！

搜索引擎的龙头，价值1490亿美元的搜索业务，在成立几十年后，不得不正面迎击来自ChatGPT的巨大威胁。

谷歌长期独占鳌头的核心资本，是它能以远超竞争对手的实力，极速为用户提供想要的答案。

而此次带来威胁的ChatGPT，似乎可以用对话的形式，提供一种在互联网上搜索信息的新方法，还将被整合进微软所有产品，并作为平台供其他企业使用。

不过如果单论融合了大语言模型的搜索引擎，谷歌本身并非毫无准备。

比如，谷歌早已在其产品中部署了对话系统LaMDA。

那，它在慌个什么？

△LaMDA扮演了冥王星的角色，与用户进行对话

说到底，无外乎归因于ChatGPT对谷歌核心业务和商业模式带来的根本性冲击。

先来看看核心业务搜索引擎。

ChatGPT的出现其实不是什么新鲜事，它背后的基础模型GPT3/GPT3.5早就问世。以及虽然没有公开面世，但谷歌手中紧攥着语言大模型（LLM）PaLM，并非没有能力。

然而去年LaMDA亮相时，几乎没有什么人在讨论它对于搜索引擎的替代性。

但ChatGPT让人体验有史以来最好的对话机器人后，一切都不一样了。

除此之外，ChatGPT秒速生成内容的能力，以及几乎降为零的生成成本，足以让整个互联网充斥着它所生成的真假难辨的内容。

如此一来，谷歌最最核心的搜索引擎呈现给用户的内容，也将被不知靠谱与否的“垃圾内容”淹没。

再者，据Felts创始人Can Duruk的说法，只要最后能搜索到想要的结果，多数人不在乎搜索过程中是否被真实性存疑的内容“欺骗”。

ChatGPT可能会告诉你土耳其的首都时安卡拉，但其实我相信绝大多数美国人都不知道土耳其的首都到底在哪里……

而且，很多人查询的东西并不需要那么强烈的时效性。

ChatGPT可能没法告诉你2022年的世界杯冠军是谁，但它可以轻松地告诉你，宫保鸡丁这道流传已久的菜该怎么做。

再来说说ChatGPT对谷歌商业模式的动摇。

毫无疑问，广告业务是谷歌的营收核心。

无论是搜索页排位，还是广告界面，广告位的存在让谷歌赚得盆满钵满。

仅2021年，广告业务就为谷歌挣了2080亿美元，占Alphabet 总收入的81%。

但是，ChatGPT这种对话AI，根本没有为广告的存在提供位置。

谷歌广告团队前负责人Sridhar Ramaswamy表示，ChatGPT再火上一段时间，用户们就不会继续青睐隐藏广告彩蛋的谷歌链接了。

同时你也很难想象，当你想要询问“科技号量子位的办公地址在哪里”时，对话AI机器人先给你讲一段麦当当疯狂星期四的贯口。

更重要的是，即便谷歌真的推出ChatGPT，对外开放聊天机器人搜索引擎，也会对当前自身的商业模式形成颠覆。

简而言之，就是ChatGPT引入搜索引擎功能，对ChatGPT来说是朝功能完备、增强时效性和准确性迈一大步。

OpenAI的ChatGPT加上微软必应，二者如果真的强强联手，功能性的提升是巨大的。

然而对谷歌来说，将对话AI商业化融合进搜索引擎，好像是件吃力不讨好的事情。

但此情此景，谷歌又不得不硬着头皮迎上，开发出一个能与ChatGPT对打，又保证自己广告营收不受影响的“聊天机器人搜索引擎”。

放眼看向美国诸多科技巨头，亲身奔波在一线的创始人，只剩扎克伯格了。

谷歌之前，困难时刻创始人回归，尝试挽救危亡于万一的情况并不罕见，推特创始人Jack，谷歌佩奇，苹果乔布斯以前都干过这事儿。

国内也正流行创始人重回业务的潮流，比如刘强东、马化腾等。

不知道这股风，是不是也要猛烈刮向硅谷了？

network · 发表于 2023-1-29 15:10:30

一份注册ChatGPT全攻略 – ahhhhfs https://www.ahhhhfs.com/37334/

network · 发表于 2023-2-3 16:39:07

ChatGPT火了，中国人工智能圈有点上火播报文章

数智前线

2023-02-02 21:01甘肃优质科技领域创作者

关注

春节前，人工智能组织OpenAI推出的大模型ChatGPT，惊艳四座。这让中国人工智能圈“有点上火”。国内业界在迅速反思和行动：我们的差距在哪里？我们将如何正视和改进不足？哪些又是中国从业者的机会？

文｜赵艳秋徐鑫

编｜周路平

春节前，人工智能组织OpenAI推出的大模型ChatGPT，在国内业界引起了不小的轰动。

一名AI从业者告诉数智前线，人工智能每五六年都有一波浪潮，上一波AlphaGO让大家震撼，这一波就是ChatGPT。但这两次大家的心态迥然不同，当谷歌的AI下棋战胜围棋世界冠军时，大家当新闻看，但这一次许多人是从消费者的角度来体验它。一个月里，全世界100万用户在使用和体验它，这是非常颠覆性的体验。这也是AI第一次大规模的自传播。

数智前线获悉，除了感叹于ChatGPT的惊艳体验外，国内业界也在迅速反思和行动：我们的差距在哪里？我们将如何正视和改进不足？哪些是中国从业者的机会？

一名从业人士告诉数智前线，ChatGPT出现后，行业重新变得热闹而有活力，前几年青黄不接、垂头丧气的局面一扫而空。

01

中美差距究竟有多大

在ChatGPT推出后，一位百度资深人士告诉数智前线，他“没有兴趣”谈论ChatGPT，言语之间，五味杂陈。一位人工智能企业创始人称，面对ChatGPT的惊艳表现，心痒痒也迷茫，失眠了。他坦承，从模型的规模到效果，差距还比较远。

有人用同样的问题向国内某厂商的大模型和ChatGPT同时发问，ChatGPT从回答的逻辑性和完整度上都远超国内大模型，国内大模型的答案带有明显的拼凑感，夹杂着不少主题之外的胡编内容。而且，在回复速度上，ChatGPT也领先一截。

从事数字人研发的特看科技CEO乐乘认为，目前全球还没有能跟ChatGPT抗衡的大模型，业界共识是差距在两年以上。国内先不谈弯道超车，趁早追赶反而是更重要的。

虽然一些人工智能资深人士认为，在ChatGPT所涉及的技术上，中美是“平级”的，但华为诺亚方舟实验室语音语义首席科学家刘群，在黄大年茶思屋的讨论中坦承，中国在技术上还是有差距的。其中一个是基础模型本身的差距，虽然我们训练了很多万亿模型或者是几千亿的模型，但训练的充分程度，是远远不够的。“我估计到现在为止，没有哪个模型能吃GPT那么多数据。”

清华大学计算机科学与技术系长聘副教授黄民烈提到，在GPT-3之后，OpenAI所有的模型都没有开源，但它提供了API调用。在这个过程中，它干了一件事，就是建立起了真实的用户调用和模型迭代之间的飞轮，它非常重视真实世界数据的调用，以及这些数据对模型的迭代。当然，在此过程中，它也养活了美国一大帮创业公司，建立了一个生态。

“你看我们国内的大模型研究，是A公司训练了一个，B公司也训练了一个，打个广告就完了，模型开源，你爱用不用。至少目前还没看到一家比较好的公司，把数据和模型的飞轮完整转起来。所以，我觉得这是我们赶超ChatGPT的难点。”一位业内人士坦言。

除此之外，业界人士都提到了算力问题。由于GPU芯片等问题，在一定程度上，国内算力已被卡脖子了。即使国内头部公司，从算力上跟谷歌等相比，差距也是比较明显的。

从数据质量来说，整个互联网的中文数据质量，相比于英文还是有明显差距。“我们可能要想办法，做中英文不同语言之间的数据互补。”有业内人士称。

此外，几乎所有受访人士都提到了OpenAI这家人工智能组织，所体现的纯碎创新精神和长期主义。“其实从原理和方法看，他们所做的东西业界都是了解的，倒没有说什么是美国做得了、我们做不了的。”云知声董事长梁家恩对数智前线说，但像OpenAI和DeepMind，他们可能是业界唯二的两家机构，无论在创新性、投入、决心，还是在顶尖人才储备上，都是一如既往坚持的。“我们看到的是成功，但里面可能已经有很多失败的尝试。”

有资深AI从业者认为，在看不到前景和没有明显效果的阶段，OpenAI非常坚定地做了投入，相反国内倾向于在技术出现突破后，快速追随。“国内大家第一步想的是，我们现在怎么用起来，但在不能用的时候，人家就在长期投入。”

“这件事其实是值得我们学习的，我们真的需要有足够多的钱，有这么一帮热血的人才，能够在一个方向上这样持续积累发力，我觉得这是一个非常必要的条件。”黄民烈称。

最近一段时间，业界也在讨论中国企业能否超越。容联云AI研究院院长刘杰告诉数智前线，围绕业务，尤其是国内的场景，是有超越机会的。在局部应用中开始超越，这也是业界的共识。

02

对中国人工智能界有何启发

ChatGPT是一种大模型。在它推出之前，国内外实际上已有不少大模型。相比其他大模型，它有了业界意料之外的突破，也给国内业界带来启发。

首先，ChatGPT有一个非常强大的技术底座，也就是InstructGPT模型。但这个模型的论文刚发出来时，没有引起特别大的反响，大家觉得也就是 OpenAI的一篇论文而已。梁家恩也告诉数智前线，此前，GPT与BERT模型路线一直在竞争，2018年时BERT模型先赢了，但GPT模型路线一直没放弃，模型参数和数据规模越做越大，最终结合人工反馈增强学习(RLHF)，在ChatGPT上取得了重大突破，效果上反超了BERT模型路线。因此，业内公司正在关注投入更大精力到GPT模型路线上，技术路线交替竞争，在业内是常态。

其次，ChatGPT引入了强化学习机制。容联云刘杰告诉数智前线，ChatGPT不仅仅像以前的大模型，利用了没有人工标注的数据去学习，还在新版本上引入了人工标注的数据，通过人类的反馈，有针对性地进行优化。“这是ChatGPT一个重要的进展，给了我们很大的启发。”

“这是它核心的一点。”华为终端云服务搜索与地图BU总裁赵世奇称，“今天，我们的模型越来越大，它就像一股洪荒之力，有人会害怕未来它会不会控制人类？但引入了这种强化学习机制后，就相当于给洪荒之力一个引导，让大模型的产出朝着可控的方向走，生成符合预期的结果。”比如，你去问它一些伦理安全的敏感话题，它都能答得很好。

这里的难度是建立怎样的强化学习机制。此前，在下围棋的AI中，强化学习是用胜负做反馈。但对于ChatGPT如此开放的系统，是没有明确的反馈机制的。黄民烈称，过去大家也尝试了强化学习机制，但很多都不太成功。ChatGPT在这件事上取得了突破。

第三，它在数据质量和多样性上非常讲究。OpenAI雇佣了一个数十人的数据团队，其实ChatGPT强化学习的数据量并不大，但对数据多样性、标注体系都有精巧的设计，让数据发挥出了强大的作用。业内认为，这确实是值得我们借鉴的地方。

当然，ChatGPT也有明显的不足。大家公认的，是它善于一本正经地胡说八道。刘杰告诉数智前线，ChatGPT是一个黑盒计算，当下在内容的可信性和可控性上有一定局限。“我们要给它足够正确的知识，再引入知识图谱这类知识管理和信息注入技术，还要限定它的数据范围和应用场景，使得它生成的内容更为可靠，这是我们在做的。”

ChatGPT在AI的技术路线和训练方式上的变革，让人关注它对产业带来的改变。特看科技CEO乐乘预计，很多单点环节里，用不用大模型会有天壤之别。没用大模型，只基于自己上一代小模型做产品的企业，跟应用了大模型且还做了业务垂直化的公司，将无法竞争。

多名创业者谈及，这两年创业市场垂头丧气，所有人都在探寻能够大幅度提升生产力的技术是什么。“ChatGPT其实提供了一种新的范式。垂头丧气、青黄不接的状态可能会成为过去。这个领域出几家千亿级别的公司是完全有可能的。”乐乘说。

03

中国企业的动作

ChatGPT推出后，很多人在讲谷歌、百度的焦虑。但大多数中国业内人士认为，目前ChatGPT还是一个对AI技术范式的探索，它并不能代替搜索。ChatGPT当下一个很大的弊端是无法实时获取互联网信息。由于它只是一个端到端的生成模型，能够自我构造虚假答案，这些都是它替代搜索的障碍。而如果以目前每一条几美分的成本来看，它会让商业搜索引擎公司入不敷出。

它作为搜索引擎的补充是有机会的，因为搜索引擎也讲求“所问即所答”，但这还有一个发展过程。

刘杰认为，ChatGPT主要的产业化路径，目前可能性比较大的首先还是在C端。由于ChatGPT展现出的大模型的创造性，以及对长篇上下文的理解能力，它可能会聚焦于一些开放性、创意性和通用性的任务上。

不过，中国企业在行业市场的探索已经开启。比如，在智能客服领域，云蝠智能CEO魏佳星告诉数智前线，上个月他们在一些场景尝试引入ChatGPT来做外呼的Demo测试，调用ChatGPT来回复客户的问题。

“在智能客服领域应用这项技术，核心点在大模型的NLP（自然语言处理）能力和此前企业里已有的NLP之间怎么结合。”魏佳星说。例如帮助顺丰去做回访的快递通知体系，是基于几个标准动作而进行，在这个封闭条件下应该优先企业已有的技术，满足客户当下的核心需求。

在这个需求之外，此前智能客服中的AI工具，在泛化能力和通用性方面存在一定的缺陷，语料信息不充分时，AI没办法对问题做出反应，ChatGPT大模型能够补全这方面的能力。魏佳星反馈，云蝠智能外呼的Demo测试效果较好。在其他行业里这项技术可能仍处于娱乐状态，但在智能客服领域，ChatGPT已具备商用潜力。

从事通讯及数字化服务的上市企业容联云，从2021年围绕着人机智能对话，做核心技术和产品研发，比如智能客服。目前，在研发与ChatGPT类似的人工智能内容生成产品。

但就模型的规模，刘杰有不同的看法。“ChatGPT的优势是它的大带来的，但在应用落地上，由于它过大，也带来了挑战和局限。”他告诉数智前线，“脱离场景去谈大和小是没有意义的。在特定应用场景、特定条件约束下、在特定的数据上，去训练规模适宜的模型，是我们努力的目标。”

刘杰还称，AI是一个链条比较长的产品技术，如果没有建立一个好的反馈机制，在部署运营阶段，从最前线发现的问题，就很难有效定位解决，所以要让模型去持续成长和优化，“它不是静态的，不是交付了就不再管它。”

云知声梁家恩告诉数智前线，他们一直密切跟进业内最前沿的算法，是最早把BERT和GPT2模型方法用到实际业务系统的团队之一，“现在相当于是把基于BERT的技术框架做个升级，目前已纳入云知声今年的技术升级目标规划中。”梁家恩说，ChatGPT的优势是意图理解、上下文对话管理和高质量内容生成，技术升级后，预计会带来显著的体验提升。

与其他企业一样，云知声的目标是先走通，之后在既有的业务比如在IoT智能语音交互对话，以及医疗行业应用中落地。梁家恩也提到了模型的规模问题，考虑商业化成本，实用模型的参数量最终可能要压到10亿量级。

商汤科技数字文娱事业部总经理栾青告诉数智前线，商汤在AIGC的不同领域有多年布局，从文字，到图片，以及视频和动画的AIGC，团队都从技术和产业长期投入，团队更多专注在视频的AIGC，并叠加商汤自研的类似于GPT的生成式内容进行短视频等创作，让大家在创作的过程当中，把生产效率提升，“这是我们的核心点”。

栾青表示，ChatGPT本质上是基于AI大模型落地的应用。而基于商汤的SenseCoreAI大装置，在视觉大模型领域，商汤已训练和构建了超过300亿量级模型参数超大基模型，得以有效支持相关应用。

出门问问创始人李志飞则告诉数智前线，出门问问从2019年底开始做生成式应用，2020年GPT-3出来后一直在跟踪大模型。目前发力的一个行业应用是写文案。

某游戏人工智能的资深开发者告诉数智前线，这项技术在游戏的用户互动环节和制作环节能看到应用前景。比如用户和NPC（一种角色）互动对话时调用，由于ChatGPT对自然语言的优秀理解能力，用户和NPC互动的开放性能大幅提升。另外在制作环节里，应用ChatGPT，可通过关键词生成故事线，能给策划在剧情走向设计时提供参考。

另外，在数字人领域，特看科技CEO乐乘告诉数智前线，大模型让数字人的内容生产和交互方式发生了变化。

在没有引入大模型之前，数字人说话和行动基本要靠真人行为去驱动。有了大模型之后，内容的输出可以通过大模型来完成。以直播带货为例，数字人公司先给本地生活、知识付费和直播商家等建立一个数字人的虚拟主播形象，而后可以将大模型接入，让大模型辅助撰写数字人直播带货的话术和脚本，“未来在我们关注的泛生活和电商赛道，可能有30%内容能够通过大模型生成来完成。”乐乘说。

04

ChatGPT在行业落地难

不过，业界资深人士提出，当下ChatGPT在行业里要真正落地还面临困难。

“商业模型上跑不通。”魏佳星对数智前线说。ChatGPT目前调用一次的费用在几美分，智能客服一天的问答场景，通常可能要调用几十万次。“我们一通电话收费才1.2毛，利润可能也就2分钱，现在的成本使得它根本跑不起来。“魏佳星认为，当这项产品的调用成本降到1分钱时，行业里可能就会大范围使用起来。

游戏行业的开发者们也坦言，调用ChatGPT的成本和它当下所带来的回报可能并不成正比。几美分只是调用费用，还不算运营费用。“没有一个老板能接受，NPC回复一句话要花掉几毛钱，即使它说得再好。”而用户的游戏体验是个系统工程，文本互动只是其中的一环。当下即使有厂商愿意不顾高成本使用ChatGPT，最终的用户体验也依然可能无法有质的飞跃。

在游戏制作环节，ChatGPT可能也只能作为策划和游戏设计环节的参考，“乍看中规中矩要素齐全，但细品会发现缺少灵魂，在观念性的创造上仍有待提升”。

不过，乐乘对ChatGPT的成本问题相对乐观。OpenAI公司自己也是初创团队，没有那么有钱。随着竞争加剧，大模型会像水电煤一样，是大家都用得起的状态。

刨除成本考量，在对企业的落地中，ChatGPT这类大模型，也有典型的问题。

容联云刘杰举例，首先，很多客户有私有化部署要求，但这些模型非常大，对资源要求高，当前不太可能实现私有化部署。其次，这些大模型在一些特定行业或特定任务上，专业性是欠缺的，需要去适配。而对于ChatGPT这类非开源的大模型应用来说，对它在下游任务上的微调，如何兼顾成本、灵活性和数据隐私则是一个关键问题。这些问题也造成，这种模型还没有走到服务企业级客户，尤其是大型企业客户那一步。

除此之外，现在人工智能技术都在与企业的核心业务流程做深度融合，而像ChatGPT这个基于大模型的应用服务，更像一个独立的外挂，如何深度绑定，这也成为企业使用它的一个待解决问题。

业界人士期望ChatGPT未来在商业模式上有更好的呈现方式。目前ChatGPT对外提供的API还非常单一，影响了应用。

05

创业公司会被ChatGPT吞噬吗

大家在期待OpenAI的下一个版本。GPT-3大模型发布于2020年， ChatGPT则基于它的改进版本创建。此前盛传，GPT-4将于今年一季度或下半年推出，不过OpenAI的首席执行官 Sam Altman在1月份回应，没有具体的时间表。

一些创业者已经开始关注到，随着大模型被越来越多地应用，细分赛道的创业公司在大模型的强大推力加持下，如何寻找自己的生存空间。

它涉及到两点，首先是如何深化对垂直行业的认知，真正把大模型融入到企业的创新业务流中。特看科技乐乘认为，垂直行业的小模型，考验的是创业公司对垂直行业的know-how。创业公司需要基于对行业的认知深度，采集足够多的场景数据，并基于这些细分数据更好服务用户。用户越多，反馈越多，最终形成数据反馈的闭环。

创业公司在小模型的竞争终局比拼的是，谁家的小模型跟业务结合得紧，且能解决好跟大模型结合的问题。

另一点是，大模型被充分使用、喂得很肥后，是否会成为最强大的AI，最终吞噬细分赛道上小创业公司的发展空间。

海外初创公司Jasper的命运颇能反映这种境况。Jasper是一家基于GPT-3大模型来生成营销文案的AI服务商，去年10月它宣布以15亿美元的估值获得1.25亿美元A轮融资。一个月后，基于GPT-3改进版本搭建的ChatGPT大火，智能程度更泛化的ChatGPT彻底盖过了Jasper的风头。

“对创业者而言，在充分利用已有大模型的情况下，也要尽可能要把小模型的闭环数据保护好。”特看科技乐乘说，这也是他们公司未来会重点攻克的方向。

不过，当下底层大模型还在高速迭代阶段，行业内都在等 GPT-4 出来。乐乘认为，从GPT-3到GPT-4的变迁，很像移动互联网早期 iPhone 1和 iPhone4 阶段iOS的升级速度，它的发展速度也许会超出大家的认知。

一些人士猜测， GPT-4将在多模态上有进展，也就是会引入视频、音频等。国内某游戏人工智能的资深开发则告诉数智前线，他们关注的是下一代的大模型能不能在理解上下文上有突破。“如果大模型能让人工智能打赢辩论赛，那么它的能力就算是有质的突破了。”

“短期内可能大家会高估这个东西，但长期可能有很多人会低估这个东西。”这名游戏AI资深开发评价。

network · 发表于 2023-2-3 16:39:55

ChatGPT创始人的个性和经历将如何影响它的未来？播报文章

虎嗅

2023-02-03 08:07鲲鹏计划获奖作者,虎嗅APP官方帐号

关注

本文来自微信公众号：航通社（ID：lifeissohappy），作者：书航，头图来自：视觉中国

ChatGPT 的火热让它有可能造就人工智能领域的“iPhone 时刻”，就是那种终于突破了可用边界，一下子让它开启下一个时代的时刻。此时，或许回头看一下它的开发者以及发展历史，可以窥见它未来将会如何进化下去的秘密。

ChatGPT 的诞生

现在搜索 ChatGPT 的诞生故事可以找到一大堆文章，所以我这里仅仅补充一些我认为重要的细节。

OpenAI 创始人 Sam Altman 早年曾经加入著名的硅谷孵化器 Y Combinator，并在 2014 年被 YC 创始人 Paul Graham 任命为新掌门。在他的任期内，YC 投资了 Airbnb、Dropbox、Stripe、Reddit、Pinterest 等知名公司，2015 年所投公司总估值已超过 15 亿美元，是当时最成功的年轻投资人之一。

稍微有一点极限生存狂意识，是 Altman 和马斯克的其中一个共同点。据说他曾经说过，应对“致命的合成病毒”、攻击人类的人工智能或核战争时，“我尽量不去想太多，但我有枪、黄金、碘化钾、抗生素、电池、水、以色列国防军的防毒面具，还有大苏尔（Big Sur）的一大片土地，我可以飞过去。”

2015 年，Altman 联合马斯克、彼得·泰尔、AWS、印度 Infosys 和 YC 等作为出资方创办了 OpenAI，其目标是以最有可能造福人类，而不是伤害人类的方式推进人工智能。它起初是一个非营利组织，但开出了业界最顶尖的 AI 研究者名单并且一个一个去挖，给的工资也和大厂看齐。此后陆续有高级 AI 人才因 OpenAI 的大牛密度和理想愿景而加入，这是 GPT-3 和 DALL-E 做成的一个必要条件。

Altman 的意识形态取向比较偏民主党，相比之下马斯克此前对特朗普的赞许在硅谷显得另类。这也让 OpenAI 的决策层有一定意义上的光谱多元性，他们都意识到不应让自身世界观来左右所开发 AI 的价值取向。近期，有人测试 ChatGPT 为特朗普和拜登作赞美诗，结果 AI 有区别对待，这就让马斯克表示“高度关注”。

2019 年，OpenAI 取消非营利身份，规定其利润上限为投入的 100 倍，这有助于其吸引融资并授予员工股权激励。但这对其当初的愿景不可避免地产生了伤害。

Altman 和马斯克们是世界上最聪明的大脑之一，他们创造出来的 OpenAI 其产品迭代速度和成绩让人吃惊，以至于产生了 AI 可以自我进化的担忧。他们为 OpenAI 辩护的主要理由，恰好也基于此。他们认为：

① 如果先进的人工智能有一天能够以越来越快的速度重新设计自己，那么不可阻挡的“智能爆炸”可能会导致人类灭绝。马斯克将人工智能描述为人类“最大的生存威胁”。对付这个威胁的最好方式是让全球 AI 进步的最尖端和最前沿掌握在一批有正确价值观，且有能力驾驭一切改变的“最强大脑”——也就是他们自己——的手中。他们将更早觉察到风吹草动，并开发武器来应对。

② 如果先进的人工智能被某些大公司或国家机器垄断，它将无法避免被拿来作恶。“最好的防御是让尽可能多的人拥有人工智能。如果每个人都拥有 AI 的力量，那么就没有一个人或一小群人可以拥有 AI 超能力。”同样，他们认为自己有正确价值观，且有能力驾驭一切改变，是创造和分发 AI 力量的最佳人选。

ChatGPT 会带来的冲击与变革

根据媒体报道，ChatGPT 诞生之后，至少产生了以下这些变动：

谷歌发布“红色警报”认为对其搜索引擎业务产生了巨大的威胁。其具体应对尚不明确，最被期待的改善搜索结果一项，目前还没有具体的实施方案，很可能首先会是一款单独的产品。

微软与 OpenAI 关系密切，DALL-E 已经被整合到 Microsoft 365 中。二者合作的传闻愈演愈烈，有的说必应搜索会集成 ChatGPT，有的说 Office 会集成 ChatGPT，有的说 Windows 12 会集成，还有的说微软会收购 OpenAI。

越来越多需要产生文书作品的行业领域开始使用 ChatGPT，包括但不限于：学校、新闻网站、房产中介、金融机构、及美国国会。

在中国，首先是和全世界一样出现了大量赝品（特别是在应用市场）；因为 OpenAI 锁了内地和香港的手机号注册，代注册和代理服务盛行；然后，百度被传正在研发一款类似的服务，但目前的消息是采用类 GPT-3 技术路线训练后的效果还不太理想。

因此带来的冲击和变革也很明显：

① 如上一篇提到过的，ChatGPT 是一种进阶的、封装好的搜索工具。它对人类员工的作用，目前类似于 Excel 宏或者 Python 这种办公自动化的工具。

ChatGPT 对现有搜索引擎的冲击将体现在用户搜索习惯的改变上，此前搜索引擎受到的最大冲击还是“围墙花园”带来的信息分散放置和不被收录。

众所周知，目前搜索引擎都配备了一个语音搜索按钮，但实际使用的人一直不多。各大语音助手（Siri、小娜、小冰、小度、Alexa）或是必须接入搜索，或者直接由搜索引擎开发，但用户体验一直不温不火，只能在有限场景（如智能音箱或开车期间）小范围替代搜索框。

询问一个跨越了恐怖谷，各方面都更像是“真人”的语音助手将（终于）改变人们的搜索习惯，届时各家搜索引擎必须保证自己的语音搜索功能不论使用什么技术路线，最终效果要跟 ChatGPT 打平。

② 根据 OpenAI 将 AI 能力赋予所有人的愿景，ChatGPT 应该可以允许第三方利用。但 OpenAI 现在不是非营利性，所以 ChatGPT 对外开放只能是有限的，它不可能开源。最有可能的是开放 API 给第三方工具，目前已经开始试行。

即使 OpenAI 永远只将上一代 GPT 开源，甚至只通过当前已经开源的 GPT-3，其它力量也可以自行摸索炼丹，最终实现在封闭环境部署自己的 ChatGPT，以解决商业保密或“自主创新”等多样化的需求。

当然，如果百度的传言属实就能知道，这种基于 GPT-3 的“借鉴”本身也绝非易事。很多东西，包括语料、算力、规则这些 know-how 都要自己摸索，无法省略。

③ 这里我们说到了算力。在 OpenAI 创办早期，其运营成本的超过 1/4 用于购买算力。微软对 OpenAI 的最新融资将有很大一部分是折算为 Azure 算力来兑付的，这避免了大量现金交割。ChatGPT 从这个角度来说还只是相当于“举国体制”下高成本炼丹，它距离摊薄成本让大家都能以低价乃至免费应用，还差得远。

此前有人测算过，ChatGPT 一次模型底座的训练需要 500 万美元的算力成本，一次问答的综合成本在 0.8 美元。这也是谷歌难以在搜索业务部署深度学习产品的原因之一。

ChatGPT 只是证明了自然语言交互的可行性，距离它普及到所有人，成为必备生存技能的那一天，就像一个研究成果从论文转化为商品那样漫长。

在此期间，愿意每个月掏出 20 美元（之前传闻是 42 美元）购买增值版的人，或许可以短暂地享受一段时间的生产力工具套利，但具体效果也不一定完美。至少在我自己前期的测试中，我就觉得 ChatGPT 并不能代替我当前的写稿工作，它的成稿质量我还不能接受。

账号		自动登录	找回密码
密码			注册