AI第三个派别一直在悄悄地吃我们的午餐” 那就是开源

network · 发表于 2023-5-5 08:05:49

SemiAnalysis 今早发布了一份 Google 内部泄露的文件，其实 Google 针对 OpenAI 做了很多审视自己的工作：“谁会跨越下一个里程碑？令人不安的事实是，我们没有能力赢得这场军备竞赛，OpenAI也是
，就在我们争吵不休的时候，第三个派别一直在悄悄地吃我们的午餐” 那就是开源 https://semianalysis.com/p/google-we-have-no-moat-and-neither

QQ截图20230505080422.jpg

1/8 虽然闭源的模型在质量方面仍有轻微的优势，但差距正在以惊人的速度缩小。开源模型的速度更快，可定制性更强，更有私密性。他们正在用100美元的成本和130亿的参数做一些事情，而我们在1000万美元和540亿的参数上却很难做到。而且他们在几周内就能做到，而不是几个月。。
2

2/8 在3月初，开源社区获得了他们的第一个真正强大的基础模型，因为Meta的LLaMA被泄露给了公众。它不具备指令或对话调整功能，也没有RLHF。尽管如此，社区迅速领会到了他们获得的这项技术的重要性
1

3/8 接下来，大量的创新涌现，许多新颖的想法都来自于普通人。训练模型的门槛已从一个主要研究机构的总产出降低到了一个人、一晚上和一台性能强大的笔记本电脑

4/8 LoRA是一种令人惊叹的强大技术，我们或许应该更加关注它。通过将更新矩阵的大小缩减数千倍，LoRA大大降低了模型微调的成本和时间。在短短几小时内，就能够在消费级硬件上对语言模型进行个性化调整，这对于那些希望在几乎实时的情况下融合新的和多样化知识的场景来说具有重要意义

·
47分钟
5/8 保密我们的技术一直是个脆弱的命题。由于谷歌的研究人员定期离职前往其他公司，我们可以推测他们了解我们所了解的一切，而且只要这个渠道保持开放，他们就会继续了解

6/8 矛盾的是，在这一切中，一个明显的赢家是 Meta。因为泄露的模型是他们的，他们有效地获得了整个地球的免费劳动力，由于大多数开源创新都发生在他们的架构之上，没有什么可以阻止他们直接将其纳入自己的产品

7/8 对模型的严格控制越高，就越能吸引开放的替代方案。谷歌和 OpenAI 倾向于采用防御性发布模式，以便严格控制模型的使用方式。然而，这种控制是虚假的，任何希望将 LLMs 用于未经批准目的的人都可以轻松从免费模型中选择

8/8 谷歌应在开源社区树立领导地位，通过更广泛的对话合作，而非忽视。这可能需要采取一些不舒服的措施，如公开小型 ULM 变体模型的权重，意味着放弃对模型的部分控制。妥协是必然的，不能既推动创新又控制创新

network · 发表于 2023-5-5 08:08:48

(2) Google "We Have No Moat, And Neither Does OpenAI" https://www.semianalysis.com/p/google-we-have-no-moat-and-neither

network · 发表于 2023-5-5 08:10:00

谷歌“我们没有Moat，OpenAI也没有”

泄露的谷歌内部文件声称开源人工智能将超越谷歌和OpenAI

DYLAN PATEL和AFZAL AHMAD

2023年5.月4.日

已支付

下面的文本是最近泄露的一份文件，由一位匿名人士在公共Discord服务器上分享，他已批准该文件的再版。它源自谷歌内部的一位研究人员。我们已经核实了它的真实性。唯一的修改是格式化和删除指向内部网页的链接。这份文件只是谷歌员工的意见，而不是整个公司的意见。我们不同意下面所写的内容，我们询问的其他研究人员也不同意，但我们将在一篇单独的文章中发表我们对此的意见，供订阅者使用。我们只是一个分享这份文件的容器，它提出了一些非常有趣的观点。

SemiAnalysis是一本无广告、读者支持的出版物。要接收新帖子，请考虑成为订阅者。

sunhaojing@yeah.net

暗语

sunhaojing@yeah.net

订阅

我们没有护城河

OpenAI也没有

我们已经在OpenAI上做了很多工作。谁将跨越下一个里程碑？下一步会是什么？

但令人不安的事实是，我们无法赢得这场军备竞赛，OpenAI也无法。当我们争吵不休的时候，第三个派系一直在悄悄地吃我们的午餐。

当然，我说的是开源。简单地说，他们正在讨好我们。我们认为“重大未决问题”的问题今天已经解决，掌握在人们手中。仅举几个例子：

手机上的LLM：人们正在Pixel 6上以每秒5个代币的速度运行基础模型。

可扩展的个人人工智能：你可以在晚上在笔记本电脑上微调个性化人工智能。

负责任的发布：这个问题与其说是“解决了”，不如说是“排除了”。整个网站上都是艺术模型，没有任何限制，文本也紧随其后。

多模态：目前的多模态ScienceQA SOTA在一个小时内完成了培训。

虽然我们的车型在质量方面仍有一定优势，但差距正在迅速缩小。开源模型更快、更可定制、更私有，而且功能更强。他们正在用1000万美元和130亿美元的params做事情，而我们在1000万美元或5.4亿美元的时候却在苦苦挣扎。他们是在几周内，而不是几个月内这样做的。这对我们有着深远的影响：

我们没有秘制酱汁。我们最大的希望是向谷歌以外的其他人学习并与他们合作。我们应该优先考虑启用3P集成。

当免费的、不受限制的替代品在质量上相当时，人们不会为受限制的型号付费。我们应该考虑我们的增值真正在哪里。

巨型模型正在让我们慢下来。从长远来看，最好的车型是

这可以被快速地迭代。既然我们知道了在<20B参数范围内可能发生的情况，我们就应该做出小的变体，而不是事后考虑。

https://lmsys.org/blog/2023-03-30-vicuna/

发生了什么

三月初，随着Meta的LLaMA被泄露给公众，开源社区获得了他们的第一个真正有能力的基础模型。它没有指令或对话调谐，也没有RLHF。尽管如此，社区立即理解了他们所得到的东西的重要性。

随之而来的是大量的创新，在重大开发之间只有几天的时间（完整的细分见时间表）。仅仅一个月后，我们就来到了这里，有指令调整、量化、质量改进、人工评估、多模态、RLHF等方面的变体，其中许多都是相互建立的。

最重要的是，他们已经在任何人都可以修补的程度上解决了缩放问题。许多新想法来自普通人。进入培训和实验的障碍已经从一个主要研究机构的总产出下降到一个人、一个晚上和一台结实的笔记本电脑。

为什么我们可以预见它的到来

从很多方面来说，这对任何人来说都不应该是一个惊喜。当前开源LLM的复兴紧跟着图像生成的复兴。社区并没有忘记这些相似之处，许多人称这是LLM的“稳定扩散时刻”。

在这两种情况下，低成本的公众参与都是通过一种更便宜的微调机制实现的，这种机制被称为低秩自适应（LoRA），再加上规模上的重大突破（图像合成的潜在扩散，LLM的Chinchilla）。在这两种情况下，获得足够高质量的模型引发了世界各地个人和机构的一系列想法和迭代。在这两种情况下，这一数字都很快超过了大型玩家。

这些贡献在图像生成空间中起着关键作用，将稳定扩散设置在与Dall-E不同的路径上。拥有一个开放的模型导致了产品集成、市场、用户界面和创新，而Dall-E没有做到这一点。

其影响是显而易见的：在文化影响方面与欧佩克相比迅速占据主导地位

network · 发表于 2023-5-5 08:11:04

效果是显而易见的：在文化影响方面的快速统治与OpenAI解决方案相比，后者变得越来越无关紧要。LLM是否会发生同样的事情还有待观察，但广泛的结构要素是相同的。

我们错过了什么

为开源最近的成功提供动力的创新直接解决了我们仍在努力解决的问题。更多地关注他们的工作可以帮助我们避免重新发明轮子。

LoRA是一种非常强大的技术，我们可能应该更加关注

LoRA的工作原理是将模型更新表示为低秩因子分解，这将更新矩阵的大小减少了数千倍。这允许以很小的成本和时间对模型进行微调。能够在几个小时内在消费者硬件上对语言模型进行个性化设置是一件大事，尤其是对于那些需要近实时地融入新的、多样化的知识的人来说。这项技术的存在在谷歌内部没有得到充分的开发，尽管它直接影响了我们一些最雄心勃勃的项目。

从头开始重新培训模特是一条艰难的道路

LoRA如此有效的部分原因是，就像其他形式的微调一样，它是可堆叠的。像指令调整这样的改进可以应用，然后随着其他贡献者增加对话、推理或工具使用，可以加以利用。虽然单独的微调是低秩的，但它们的总和不一定是，从而允许随着时间的推移对模型进行全秩更新。

这意味着，随着新的更好的数据集和任务的出现，该模型可以廉价地保持最新，而无需支付完整运行的成本。

相比之下，从头开始训练巨型模型不仅省去了预训练，还省去了任何迭代改进。在开源世界中，这些改进很快就会占据主导地位，这使得全面的再培训成本极高。

我们应该考虑每个新的应用程序或想法是否真的需要一个全新的模型。如果我们确实有重大的架构改进，排除了直接重用模型权重，那么我们应该投资于更积极的蒸馏形式，使我们能够尽可能多地保留上一代的功能。

从长远来看，如果我们能在小模型上更快地迭代，那么大模型的能力就不会更强

对于最流行的型号尺寸，LoRA更新的生产成本非常低（约100美元）。这意味着几乎任何有想法的人都可以产生并分发。一天内的训练次数是常态。以这样的速度，用不了多久，所有这些微调的累积效应就会克服一开始在尺寸上的劣势。事实上，就工程师的工作时间而言，这些模型的改进速度远远超过了我们对最大的变体所能做的，最好的变体在很大程度上已经与ChatGPT无法区分。专注于维护地球上一些最大的模型实际上使我们处于不利地位。

数据质量优于数据大小

其中许多项目通过在小型、高度策划的数据集上进行培训来节省时间。这表明数据缩放定律具有一定的灵活性。这些数据集的存在遵循了《数据不做你想的事》中的思路，它们正在迅速成为谷歌之外进行培训的标准方式。这些数据集是使用合成方法（例如，从现有模型中筛选最佳响应）和从其他项目中筛选来构建的，这两种方法在谷歌都不占主导地位。幸运的是，这些高质量的数据集是开源的，因此可以免费使用。

与开源直接竞争是一个失败的命题

最近的这一进展对我们的商业战略有着直接、直接的影响。如果有一个没有使用限制的免费、高质量的替代品，谁会为有使用限制的谷歌产品付费？

我们不应该期望能够赶上。现代互联网依靠开源运行是有原因的。开源有一些我们无法复制的显著优势。

我们需要他们，而不是他们需要我们

保守我们的技术秘密一直是一个脆弱的命题。谷歌的研究人员正在定期前往其他公司，所以我们可以假设他们知道我们所知道的一切，并且只要管道畅通，他们就会继续这样做。

但是，由于LLM的尖端研究是可以负担的，因此在技术上保持竞争优势变得更加困难。世界各地的研究机构都在相互努力的基础上，以远远超过我们自身能力的广度优先的方式探索解决方案空间。我们可以在外部创新稀释其价值的同时，努力保守自己的秘密，也可以努力相互学习。

network · 发表于 2023-5-5 08:11:56

这种创新大多发生在Meta泄露的模型权重之上。虽然随着真正开放的模型变得更好，这种情况将不可避免地发生变化，但关键是它们不必等待。“个人使用”所提供的法律保护和起诉个人的不切实际意味着个人可以在这些技术火热的时候获得这些技术。

成为自己的客户意味着您了解用例

浏览人们在图像生成空间中创建的模型，从动画生成器到HDR风景，都有大量的创造力。这些模型是由那些深深沉浸在自己特定子类别中的人使用和创建的，提供了我们无法企及的深度知识和同理心。

拥有生态系统：让开源为我们服务

矛盾的是，在这一切中，唯一明显的赢家是Meta。因为泄露的模型是他们的，他们实际上获得了整个星球的免费劳动力。由于大多数开源创新都是在他们的体系结构之上进行的，因此没有什么能阻止他们将其直接融入到产品中。

拥有生态系统的价值怎么强调都不为过。谷歌本身已经成功地在其开源产品中使用了这种模式，如Chrome和Android。通过拥有创新发生的平台，谷歌巩固了自己作为思想领袖和方向制定者的地位，赢得了根据比自己更大的想法来塑造叙事的能力。

我们越严格地控制我们的模型，我们就越有吸引力做出开放的替代品。谷歌和OpenAI都倾向于防御发布模式，使它们能够对模型的使用方式保持严格的控制。但这种控制是虚构的。任何试图将LLM用于未经批准的目的的人都可以简单地选择免费提供的型号。

谷歌应该成为开源社区的领导者，通过与更广泛的对话合作而不是忽视对话来发挥领导作用。这可能意味着要采取一些不舒服的步骤，比如发布小型ULM变体的模型权重。这必然意味着放弃对我们模型的一些控制。但这种妥协是不可避免的。我们不能指望既推动创新又控制创新。

结语：OpenAI怎么样？

考虑到OpenAI目前的封闭政策，所有这些关于开源的讨论都会让人感到不公平。如果他们不愿意，为什么我们必须分享？但事实是，我们已经以源源不断的被挖走的高级研究人员的形式与他们分享了一切。在我们遏制这一趋势之前，保密是一个悬而未决的问题。

最终，OpenAI并不重要。相对于开源，他们正在犯与我们相同的错误，他们保持优势的能力必然受到质疑。除非他们改变立场，否则开源替代方案可以而且最终会让它们黯然失色。至少在这方面，我们可以迈出第一步。

时间线

2023年2月24日-LLaMA启动

Meta推出LLaMA，开源代码，但不开源权重。在这一点上，LLaMA并没有调整指令或对话。与当前的许多模型一样，它是一个相对较小的模型（可在7B、13B、33B和65B参数下使用），已经训练了相对较长的时间，因此相对于其大小来说是非常有能力的。

2023年3月3日-不可避免的事情发生

不到一周，LLaMA就泄露给了公众。对社区的影响怎么强调都不为过。现有的许可证使其无法用于商业目的，但突然间，任何人都可以进行实验。从这一点来看，创新来得又快又难。

2023年3月12日-烤面包机上的语言模型

一个多星期后，Artem Andreenko让模特制作树莓派。在这一点上，模型运行得太慢，不实用，因为权重必须在内存中进行分页。尽管如此，这为缩小努力的冲击奠定了基础。

2023年3月13日-笔记本电脑上的微调

第二天，斯坦福大学发布了Alpaca，它为LLaMA添加了指令调优。然而，比实际重量更重要的是Eric Wang的羊驼lora repo，它使用低阶微调“在一个RTX 4090上数小时内”进行训练。

突然间，任何人都可以微调模型来做任何事情，从而在低预算微调项目上掀起一场垫底的竞赛。报纸自豪地描述了他们总共花费了几百美元。更重要的是，低级别更新可以很容易地与原始权重分开分发，使其独立于Meta的原始许可证。任何人都可以分享和应用它们。

2023年3月18日-现在很快

Georgi Gerganov使用4位量化在MacBook CPU上运行LLaMA。这是第一个“无GPU”解决方案，速度足够快，可以实现。

network · 发表于 2023-5-5 08:12:26

2023年3月19日，13B型号与巴德实现“平价”

第二天，一项跨大学合作发布了Vicuna，并使用GPT-4驱动的eval对模型输出进行定性比较。虽然评估方法令人怀疑，但该模型在实质上比早期的变体要好。培训费用：300美元。

值得注意的是，他们能够使用ChatGPT的数据，同时规避其API的限制——他们只是简单地采样了在ShareGPT等网站上发布的“令人印象深刻”的ChatGPT对话示例。

2023年3月25日-选择自己的车型

Nomic创建了GPT4All，它既是一个模型，更重要的是，它是一个生态系统。我们第一次看到模特（包括维库纳）聚集在一个地方。培训费用：100美元。

2023年3月28日-开源GPT-3

Cerebras（不要与我们自己的Cerebra混淆）使用Chinchilla暗示的最佳计算时间表和μ-参数化暗示的最佳缩放来训练GPT-3架构。这在很大程度上优于现有的GPT-3克隆，并代表着首次确认在“野外”使用μ-参数化。这些模型是从头开始训练的，这意味着社区不再依赖LLaMA。

2023年3月28日-一小时内的多式联运培训

LLaMA Adapter使用一种新的参数有效微调（PEFT）技术，在一小时的训练中引入了指令调整和多模态。令人印象深刻的是，他们只使用了120万个可学习的参数。该模型在多模态ScienceQA上实现了新的SOTA。

2023年4月3日-真正的人类无法区分13B开放模型和ChatGPT

伯克利推出了考拉，这是一种完全使用免费数据训练的对话模型。

他们采取了关键步骤，在他们的模型和ChatGPT之间测量真实的人类偏好。尽管ChatGPT仍有一定优势，但超过50%的用户要么更喜欢考拉，要么没有偏好。培训费用：100美元。

2023年4月15日-ChatGPT级别的开源RLHF

Open Assistant通过RLHF启动一个模型，更重要的是，启动一个用于对齐的数据集。他们的模型在人类偏好方面与ChatGPT接近（48.3%对51.7%）。除了LLaMA，他们还表明该数据集可以应用于Pythia-12B，让人们可以选择使用完全开放的堆栈来运行模型。此外，由于数据集是公开的，它使RLHF从无法实现变成了对小型实验者来说既便宜又容易。

账号		自动登录	找回密码
密码			注册