DeepSeek 策略如何影响半导体链的全面分析

network · 发表于 2025-1-31 06:47:31

https://github.com/ninehills/blog/issues/121随着 DeepSeek R1 的发布，如果想复刻 R1 或者在某个领域实践 RFT（Reinforcement Fine-Tuning），可以看看我整理的清单，会持续更新。
同时我个人尝试的结果也会更新上。

更新时间：2025.1.29

论文
DeepSeek R1：DeepSeek R1 本体论文，写的引人入胜。
Kimi K1.5：Kimi K1.5 推理模型的思路和 R1 类似，在数据和奖励函数上有更多的细节。
DeepSeek Math：GRPO 算法的提出，GRPO 相比于 PPO 节约了 Value Model，从而降低了训练的显存要求。
GRPO 开源实现：主要是要支持 reward function。
trl grpo trainer：TRL 的 GRPOTrainer 实现，目前尚未发版，需要安装 trl 的 main 分支。
veRL：字节开源的 RL 实现，也支持 GRPO reward function。
R1 复刻项目、数据集
open-r1：**【重点】**包括数据合成、SFT、GRPO RL 的代码。
TinyZero：在简单的类24点问题上复刻 R1 RL 范式。
SkyT1：蒸馏的 QwQ 的数据实现的 o1-like 模型。
HuatuoGPT-o1：医学领域复刻 o1（开放代码、数据、论文和模型），但是用的还是 reward model，效果提升很少。可以用 R1 RL 范式看看能否有明显提升。
simpleRL-reason：【重点】在 8k MATH 数据集上复刻 R1-Zero 的范式
open-r1-multimodal：R1 多模态的复刻项目
open-thoughts：【重点】最成熟的 R1 复刻项目，已经发布了 Bespoke-Stratos-17k dataset 和 OpenThoughts-114k dataset 项目，仅经过 SFT 即可以逼近 R1-distill 模型
R1-Distill-SFT：1.68M 条 R1 蒸馏数据集
grpo_demo.py：【重点】基于 0.5B 模型的 RL demo，可以用来学习怎么训练。

network · 发表于 2025-1-31 08:37:12

扎克伯格向川普投降，同时与马斯克和好。硅谷科技大佬们，基本上在“美国优先”问题上，达成了共识。这个视频的敏感词被剪辑过，但是大意没变。小扎说DeepSeek模型非常强，但问的所有问题，回答都有鲜明的立场，这非常值得思考。从技术上讲，这个肯定是增强学习的结果，模型奖励哪些符合某些核心价值观的回答，从而提升了这方面能力。但是，DeepSeek从诞生第一天起，就自我阉割了国际功能。DeepSeek给创业者的确提供了新思路，但从技术、数据、人才和法律层面看，未来简约版的OpenAI，大概率还是诞生在美国。

network · 发表于 2025-1-31 10:42:05

NYU金融教授Tad Smith讲了一个残酷的真相，但是很少人去认真思考过。
他说他教了25年的金融才醒悟到：
“如果每年印钞速度是8-10%(一个共识)，而标普的年回报不过是9%，你忙到头也不过是打了一个平手，仅仅让购买力不被缩水。”
换句话说，被动投资、买指数实质上并没有分享到实质的财富增长。真正的赚钱是找到升值速度超过印钞速度的资产。

再放两张截自Michael Saylor演示文件的图表，我认为很重要。
Saylor的模型判断，未来21年全球资产总值会从900T上升到4000T，背后的假设就是央行平均每年放水8%。
在这个过程中，各种资产类型的占比会发生变化。Saylor认为BTC从2T会发展到280T，多少倍的增长大家可以算一下。

下面推中大多数评论在嘲笑Tad Smith教了25年书而
不知道央行放水速度不等于通胀速度，等等之类。一知半解的人太多。
你应该好好思考Tad Smith的说法，以及自己做投资的方式。不理解Tad Smith的观点，只说明你不理解当代货币制度的本质以及对个人的后果。
是的放水速度不等于通胀速度，但会造成某些资产的极度通胀。
我们过去熟悉的所谓房产长期增值，实质不过就是一种资产通胀。

于Saylor的判断，这是不同资产类型今后21年的“通胀”速度，大家存下，省的自己算了。
again，Saylor的假设也许是错的，我没看到他详细解释模型。Saylor如果你觉得此人不靠谱不可信，就直接略过吧。

network · 发表于 2025-1-31 10:49:01

NVIDIA just brought DeepSeek-R1 671-bn param model to NVIDIA NIM microservice on build.nvidia .com- The DeepSeek-R1 NIM microservice can deliver up to 3,872 tokens per second on a single NVIDIA HGX H200 system.- Using NVIDIA Hopper architecture, DeepSeek-R1 can deliver high-speed inference by leveraging FP8 Transformer Engines and 900 GB/s NVLink bandwidth for expert communication.- As usual with NVIDIA's NIM, its a enterprise-scale setu to securely experiment, and deploy AI agents with industry-standard APIs. @NVIDIAAIDev

由[url=https://translate.google.com/][/url]翻译自英语

NVIDIA 刚刚将 DeepSeek-R1 671-bn 参数模型引入 build.nvidia.com 上的 NVIDIA NIM 微服务
- DeepSeek-R1 NIM 微服务在单个 NVIDIA HGX H200 系统上每秒最多可传送 3,872 个令牌。
- 使用 NVIDIA Hopper 架构，DeepSeek-R1 可利用 FP8 Transformer Engines 和 900 GB/s NVLink 带宽实现高速推理，实现专家通信。

- 与 NVIDIA 的 NIM 一样，它是一个企业级设置，用于安全地进行实验并使用行业标准 API 部署 AI 代理。

network · 发表于 2025-2-9 09:28:06

DeepSeek对国内云服务产业链的影响。

DeepSeek火了！截至2025年2月8日，DeepSeek的用户量已经突破3000万。凭借超高性价比和强悍实力，它成了继ChatGPT之后又一个现象级AI产品，直接引爆了整个AI产业链，大家都在抢着跟进。

春节期间，云计算厂商、GPU供应商以及智算中心的建设方都在紧锣密鼓地部署DeepSeek，商讨如何合作落地。

2月5日开始，国内的主要云厂商 —— 华为云，联通云，京东云，阿里云，腾讯云，百度智能云，移动云等，纷纷上线DeepSeek大模型，并将其纳入自家的模型商店。国际巨头微软Azure，亚马逊AWS和NVidia自己更早有动作，在春节前就已经完成了部署。

国产GPU厂商摩拳擦掌，加速适配DeepSeek

GPU是大模型的核心硬件，DeepSeek的火爆也让国内GPU厂商闻风而动，纷纷加快适配进度。

国产GPU厂商摩尔线程的工程师们春节都没休息，加班加点，在2月4日完成了DeepSeek蒸馏模型的部署。蒸馏模型的核心思想就是“知识传承”，把大模型的能力迁移到更小、更高效的模型中。这种方法不仅降低了计算和存储需求，还让模型更容易部署。

摩尔线程提供从GPU到集群的完整算力解决方案，适配DeepSeek之后，客户即便在算力资源有限的情况下，也能跑起大模型。

不过，虽然各大厂商都在抢着适配DeepSeek，但目前DeepSeek官方还没有给出认证。不同厂商的适配质量参差不齐，意味着GPU厂商要想在这波热潮中脱颖而出，还得在适配优化上下更大功夫。

智算中心或将调整建设方案，国产设备迎来新机遇

DeepSeek的普及，不仅影响云计算和GPU市场，连国内的智算中心都开始重新评估自己的建设方案。

一位算力中心的运营人士透露，很多智算中心正在研究DeepSeek的影响，甚至可能会因此调整硬件采购策略，增加国产设备的比例。

根据中国信息通信研究院的数据，截至2024年7月底，国内已有或在建的智算中心达87个。虽然政府一直在推动国产化，但之前因为国产GPU的产能和性能不足，大部分智算中心还是优先采购英伟达芯片。现在，DeepSeek的高性价比让国产GPU+国产云的组合变得更加可行，未来有望推动本土产业链进一步成熟。

network · 发表于 2025-2-9 15:17:37

But…But…But…“AI is a bubble.”$315 Billion in Capex from 4 companies to build the AI future. Yeah. Sure…The bears on FinTwit are smarter than the CEOs of every Mag 7 CEO. Literally every one of them are clear that the revenue potential makes these massive capex outlays a requirement for long termviability. $AMZN $GOOGL $MSFT $META

由翻译自英语

但是…但是…但是…“人工智能是一个泡沫。”四家公司投入 3150 亿美元资本支出打造 AI 未来。是的。当然…… FinTwit 上的看跌者比每一位 Mag 7 CEO 都聪明。实际上，他们每个人都清楚，收入潜力使得这些巨额资本支出成为长期的需要生存力。 $AMZN $GOOGL $MSFT $META

翻译得准确吗？请提供反馈，以便我们加以改进：

下午11:53 · 2025年2月8日
·
3.4万
查看

账号		自动登录	找回密码
密码			注册