内容总结—真格基金闭门会议：一个 AI 创业者的反思、观察和预测原文链接：AI创业...

network · 发表于 2023-7-1 14:50:31

内容总结—真格基金闭门会议：一个 AI 创业者的反思、观察和预测
原文链接：AI创业者peakji对LLM的看法预测分享（推荐先读原文，再看总结，进行对照）
嘉宾背景：季逸超Peak，AI创业者，Google在2013年提出Word2vec算法（计算机能够以较为准确的方式理解词语之间的关系，为之后AI和NLP的发展提供了重要基石）到大模型爆发，一直在技术和产品前线

反思

现在的AI & 2007年移动互联网：同样百花齐放，很多基础工具出现，同时因为技术条件有限，让创业者和巨头都面临同样的限制，两者得以短暂平等竞技。
早期移动互联网时代，个人才智和洞察力更为重要，创业者有更多机会竞争，许多公司从此诞生，比如快手。

创业公司的机会在本地

需要从本地与云端两个角度进行判断。这两种形态之间的关系，很像当年移动互联网下的智能手机APP与PC软件，后者让大公司发挥优势，前者更适合创业者。
在云端看AI，目前由大公司主导，创业公司难以竞争。

AI创业公司更应关注的两条路径

面向消费者（ToC）的本地运行（On-device），与大公司有一定差异的市场，如Rewind.ai与Google Gecko模型等。这条路径机会较大。
面向企业（ToB）的私有化部署（On-premise），相对比较传统但也较为稳定的领域。原因是国产化政策的要求（信创指标）以及技术保障——中国的人工智能芯片在某些应用上已经可以替代国外知名厂商的产品。
10多年前，早期移动互联网创业者之所以有机会，是因为当时智能手机刚起步，与PC互联网存在一定错位，这产生了“错位竞争”的机会窗口。
今天，on-device和on-premise，与大公司主导的云端也存在一定差异与错位。

最有价值的数据是“不属于你但与你共生”的外部数据

开放公开数据与易爬数据的价值基本为零。
甚至企业自行设计与收集的数据，随着技术进步，被更强大与广义的模型所替代。
最有价值的数据是“不属于你但与你共生”的外部数据。这类共生数据为企业带来市场地位与客户粘性，构成真正的竞争优势。

90%以上的客户场景可以通过标准模型与prompt就满足

目前语言模型的能力大大增强，通过“上下文学习”与prompt，可以解决大多数原需模型调优的场景。
90%以上的客户场景可以通过标准模型与prompt就满足，无需fine tuning（微调）。

微调的目的在于构建共建关系

fine tuning（微调）的真正目的在于构建共建关系，需要企业和客户共同思考业务场景与问题，达成共识，实现共建。
共建数据来源
- To B：汇聚于协同工具，比如飞书。
- To C：智能手机等设备端的数据源。特别是随着语言模型在端侧的部署，这使得实现更强大的语音助手成为可能，开启新的应用场景。例如，现有的Siri等语音助手无法理解复杂或连续的语音指令。但如果在设备端部署语言模型，可以根据用户设备数据与需求，实现端到端的语音操作体验。

当前技术的局限性或痛点，往往预示着下一波技术创新或机会

预测下一项重大技术创新是极为困难的。但是，可以从当前技术共同的局限性或痛点出发，判断下一波创新可能要解决的问题所在。
不同专家的预测会有一定惯性或主观倾向，但在局限性或痛点的判断上往往会有较强共识。这可以作为预测依据。
回看语言模型的发展历程，每一次重大创新几乎都是在解决之前技术的某个关键局限性或痛点。例如，word2vec解决了之前依存句法与分词技术的局限，这创造了巨大机遇。
但word2vec也带来了新的问题，例如“苹果”这个词向量无法区分水果与公司两个概念。这又推动了后续的创新，如BERT等。

跑得是最快的，不一定跑得最好

Peak曾花7年时间解决知识图谱构建中最为显著的局限——依赖大量人工标注。但后来发现,微软等企业也在与OpenAI合作，试图解决同样的问题。
因为这类问题的难度与重要性，必然会引起所有相关企业的关注与竞争。任何首创企业的优势很快就可能被抄袭或替代。

发展是经验，也是包袱

AI发展是周期性的，需要产品视角与不断创新，跟上技术变革中的新机遇。
大公司难以全面采用新技术，这给新公司提供发展机会。新公司有较大灵活性，不必担心历史包袱,需要不断创新。

监管与合规，在产品规划时就应该考虑

监管与合规应被视为可以利用的竞争维度，需要提前产品规划，主动应对，投资方也需要意识到这一点。
OpenAI做得比较好，提供moderation API服务，实现moderation与其他业务的解耦。这值得借鉴。
主动与监管沟通，坦诚报备，可以做其他企业不敢做的事。这需要勇气与判断。

创业者后期转变为“技术派”，要警惕失去跨领域的思考能力

观察

65%容易解决和满足的需求，正在减少

65%需求在信息检索、汇总和再生，这些AI 的Low-hanging Fruits（容易解决的问题）正在减少，高层次需求由于数据与理解难度等问题，发展会较缓。
20%在流程自动化和决策辅助，意外地低。文生图和代码生成的客户需求比想象中低。
代码生成功能面临数据与理解双重难题，需要平台和技术进步。中文处理也是难题。Github Copilot之所以做得好，是因为有丰富的上下文需求与对英文的理解，中文目前难以解决。

LLM（大语言模型）加速了AI落地，但或许并没有解决AI落地难和复制难的问题

LLM加速了AI落地，但或许并没有解决AI落地难和复制难的问题。
- 加速落地的原因，可能更是客户需求的巧合匹配，而非技术本身的正常发展。
- 落地难问题，比如可靠性要求难以达标等。许多项目最终在POC阶段（初期探索和评估阶段）被终止。
- 复制难问题，客户要的不是模型，而是解决方案，客户深入理解LLM后，对其要求提高，使需求变得极为复杂。之前AI企业有清晰的技术方向，现在都在做“外包”，方向不太清晰。
LLM惊艳，但精准度偏低，不符合客户要求。企业要把运营和反馈机制建立得更好
比如对于央企客户，对幻觉这件事几乎0 容忍，就会引入一些在 LLM 之外的东西去强行控制它，比如说一些配合一些传统的搜索等等，与客户共生。
LLM模型可能进化到可以像培训员工那样，在现场实现自我纠错与优化。通过实时反馈不断学习和提高，实现现场“在线运营”。
由于中文模型基座能力较弱，在上面构建的应用优化空间仍然很大。先行者过早专注产品细节，只是临时方案。技术创新会使LLM浪潮持续，新团队有后发优势，对创业者是好消息。

创业者不要过度关注模型

创业者不要过度关注公开模型与Benchmark（行业内技术发展和模型表现的评估标准和方法）。
要做好业务抽象，建立自己的baseline（属于自己业务的数据集和评估方法），频繁尝试新模型，看业务影响。
可以假设获得最好模型，先设计产品，不看眼前事。因为LLM标准化，容易被替换。
GPTscale（可扩展性、规模化）大，在于token利用率，其次是Bert难以直接使用，因为需要finetune（微调）。

低代码LLM平台为时尚早

低代码平台解决标准功能的复杂实现问题，上游工具标准，应用标准，适用于标准业务系统构建。
但LLM上游是标准大模型，应用更在创新，功能不标准。
LLM低代码平台解决的不应是实现问题，而是创新问题，但创新本身就不太标准。
现阶段，低代码LLM平台不太契合需求，为时尚早。

要理智选择最合适的工具，而不是一味追随热点

观点总结：现在人们盲目追捧和过度依赖向量数据库和向量化检索，忽视了更高级的 embedding 模型和文档模型。这些技术的潜力没有被充分发现和挖掘，要理智选择最合适的工具，而不是一味追随热点。
向量数据库的局限：无法提供全局上下文，难以解决context limit（文本限制）。如无法有效处理张一鸣全部微博。
embedding不是直接给LLM的，它只是找到相关文本代理。最后LLM输入是原文本,不是embedding。“GPT embedding”是误传，embedding模型独立于GPT。
向量化召回效果不如关键词搜索。现在热门的是因为简单方便，用OpenAI API不是最好效果。使用要考虑用户习惯关键词搜索。
PDF和各类文档正确信息提取非常复杂，目前被低估。embedding和文档模型应用不仅限于语言模型。

懂AI的产品经理是稀缺资源

懂AI的产品经理不但要懂以前产品思维，更要理解AI产品的差异和特点。
- 生成式AI产品的不确定性、响应速度和服务成本与以前产品有很大不同。比如，以前追求高QPS（每秒查询量，整体处理的请求数量），现在可能只有零点几。
- 即便是Google、Bard，并发能力也比较差。
- QPS不是唯一重要考量因素，AI产品可能更看重响应时间和服务成本、预测精度以及可解释性等方面指标的优化。
- 如果产品经理仍按以前思维去做，可能会严重影响公司。
在AI产品中，构建高质量的数据飞轮是产品经理的重要工作。
- Midjourney 通过让用户在4个选项中选择1个，实现了100%的数据反馈率，从而构建了高质量的数据飞轮
- ChatGPT做的稍弱,因为其只有赞和踩的反馈选项,且很少用户会使用。
- 产品设计能最大限度地激发用户反馈，获取具体而清晰的用户偏好数据，从而提高模型的训练质量。
ToB领域懂AI的产品经理更加稀缺
- 目前国内ToB产品的用户体验和交互通常落后ToC产品3-5年
- 无论是否做AI产品，所有人都应考虑如何应对AI带来的冲击和挑战。
- AI发展到一定阶段，人类可能难以区分某些内容是否由AI生成。这将给某些平台如小红书带来严重的信任问题，到时候技术无能为力，只能依靠产品层面解决。

不要用技术热点指导创投

跟随技术热点做产品，容易和大公司竞争，并最终失败。
原因是学界创新受实验条件限制，难以达到理想目标，最终成果往往是在资源限制下的选择和取舍。这些创新成果不代表理想状态下最优或最先进的技术。
进一步阐明，我们现有工具的局限性决定了我们开发成果的局限性。prompt是我们掌握的工具之一，但需求远不止于此。chain of thought（思维链）等功能的实现实际上没有改变模型本身，只是在prompt的调整与利用上作出努力，这也印证了我们目前所掌握的工具有限。
理解技术本身仍很重要。它可以避免我们过于自信地使用不太理解的技术，从而错失良机或引入误导。真正理解技术的人会在技术发展方向的判断上表现得比较慎重，而半吊子则往往表现得过于自信。

预测

只有垂直应用，没有垂直模型

从业务出发使用垂直模型这种说辞存在惯性，源自以往没有垂直模型选项的时期。

在过去，没有通用语言模型这一选项，做任何业务都只能选择开发垂直模型。所以现如今出现通用模型后，仍然本着当年的惯性或思维定式，认为从业务出发需要使用垂直模型，这其实是一种惯性思维，并非现实需要。

现阶段开发垂直大模型意义不大，因为它们无法解决通用模型固有的解释性、可运营性、溯源性等等缺陷，且性能难以超过通用模型。

1. 解释性差：通用语言模型是一种黑箱模型，无法清晰解释其输出结果的来由或依据。这使其透明度较低，不易被用户理解和信任。
2. 可运营性差：通用语言模型规模巨大，运算复杂，不易部署和运维，成本也较高。这使其难以商业化运作。
3. 溯源性差：通用语言模型无法清晰地追踪训练数据来源，也难以判断其训练数据是否存在偏差。这使其输出的可信度难以保证。

这是因为通用模型的数据和规模还远未达到饱和，任何新数据都可自由整合并全面提高性能，这是通用模型的最大优势，目前难以被垂直模型超越。
垂直应用之间的差异应该在业务而不在模型。

真正的多模态模型远远还没有来

当前多数所谓多模态模型的局限：实际上只是文本语言模型，它们只是将其他模态如图像等特征映射到文本特征空间，这无法产生真正的性能提升。
真正的多模态模型应当在训练过程中接触丰富多样的世界知识，而不仅仅依靠文本预训练。它可能需要观看视频等才能真正理解某些概念和知识。
目前学界已经开始在真正的多模态模型上展开研究，未来有望取得重要进展。
交错的多模态输入输出是值得研究的目标，比如输入的是一篇图文，而它输出也是图文，甚至是音频。它可以产生跃迁般的整体能力提高，而不仅是对某一模态的提高。
高质量的多模态模型可能要求更高的计算资源，比当前模型数量级更高。但它有望解决一些边缘案例与难题，在机器人、自动驾驶等领域发挥重要作用。

监督微调和强化学习没那么重要

alignment 并不需要RLHF， human feedback 不需要 reinforcement learning， feedback 不需要human。

1.想要AI系统的行为与输出符合人类的期望与偏好，不需要强化学习
2.人类反馈不必然需要采用强化学习方法，可以采用其他机器学习范式根据人类反馈数据训练或优化模型。
3.并非所有的模型优化或alignment问题都需要人类反馈。如果有其他替代数据源，也可以直接采用非强化学习方法进行优化。

RLHF本身不稳定，属研究性质。但它受到过度关注，实际上不是解决alignment的必要方式。
近期研究发现，如果有足够人类反馈数据，则不需要RL（强化学习缩写），可以通过最大似然估计直接优化语言模型。
监督微调和强化学习目标，都是实现人工智能系统与人类的协调—致，产出符合任务要求与人类偏好的输出。需要在具体问题上作出正确的技术选型。

LLM似乎知道自己何时“搞砸”了

实验发现，对同一prompt，让模型多次采样后，让模型自评哪次效果最好和最差，模型的判断与人类较为一致。
GPT-4的偏好与人类非常接近，至少从排序结果来看一致性较高。所以，如果要进行基于偏好的模型优化，甚至不需要人工反馈，直接使用GPT-4的自我反馈也可能达到不错效果。

更长的上下文会带来质变

当前模型加向量数据库的范式，像有巨大硬盘但内存很小的计算机，你的这个硬盘里存了一堆你过往工作的word，但你每次只能看200个词，这导致难以得出关键结论，限制了模型的能力。追求更长的context是学界与业界共同关注的难题。
更长的context可以一次描述更长的任务，让模型在自己的memory中完成，而不需要复杂的提示链，提高成功率。这可以改善许多当前场景实现中的问题。
更长的context的可以高效利用面向人类的教学资源。我们可以让模型直接阅读说明书，而不需要单独训练或调优模型，这可以大幅提升模型的潜力，远非仅增加输入长度那么简单。

AI创新可能出现在许多不太显眼的地方

AI创新领域更广，不限于明显的AI公司或应用，比如将自然语言模型的输出转为结构化数据，可以改善许多现有软件与系统。
LLM不仅适用于用户交互场景，也适用于数据分析、实验模拟等离线应用，比如许多人进行email data mining（email数据进行的数据分析与挖掘）时采用比较传统的算法，但LLM可以更好地“润滑”许多过程。这可以扩展LLM的应用范围，提高许多应用的性能与效果。
AI不应只起辅助作用，更应成为业务的组成部分。这需要相关企业改变观念，利用AI技术改造和重塑业务和流程。

AI人才的价值危机

从悲观角度，AI人才目前面临价值危机。新一代AI产品竞争优势不在技术，且技术起点相同。真正的AI创业还需要技术之外的know how，所以单纯的AI人才吃亏。
以前AI工作流水线长，各层都有事做，各个 AI 公司或大厂的中层，培养了技术与产品双硬的人，符合创业者画像。但现在LLM等使技术与交付高度分化，前者离市场远，后者无竞争力，创业者人才供给减少。

学术界走向曲高和寡

各技术路线与学科领域逐渐一体化，加之算力与大模型限制，学术界边缘化，大牛带队的（收购并雇佣）可能减少。

开源AI或许让AI人才成为重复劳动

开源软件让工程师避免重复劳动，但现在开源AI让AI人才成为重复劳动，这令人无奈。这不是成熟观点,需要进一步思考。
乐观的是，最好时期未来。美国42%人没听过ChatGPT，技术民主化是一个全新开始，现在还像iPhone初代，没必要着急。
中国由于技术与规制原因跟随美国，提供了充足的发展蓝图。
这10年，投资者、创业者、监管机构与用户都比10年前成熟，这次大家有备而来，最终结果会好一些。

账号		自动登录	找回密码
密码			注册

内容总结—真格基金闭门会议：一个 AI 创业者的反思、观察和预测 原文链接：AI创业...

内容总结—真格基金闭门会议：一个 AI 创业者的反思、观察和预测原文链接：AI创业...