博威---云架构决胜云计算

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
123
返回列表 发新帖
楼主: network

DeepSeek 策略如何影响半导体链的全面分析

[复制链接]
 楼主| 发表于 2025-1-31 06:47:31 | 显示全部楼层
https://github.com/ninehills/blog/issues/121随着 DeepSeek R1 的发布,如果想复刻 R1 或者在某个领域实践 RFT(Reinforcement Fine-Tuning),可以看看我整理的清单,会持续更新。
同时我个人尝试的结果也会更新上。

更新时间:2025.1.29

论文
DeepSeek R1:DeepSeek R1 本体论文,写的引人入胜。
Kimi K1.5:Kimi K1.5 推理模型的思路和 R1 类似,在数据和奖励函数上有更多的细节。
DeepSeek Math:GRPO 算法的提出,GRPO 相比于 PPO 节约了 Value Model,从而降低了训练的显存要求。
GRPO 开源实现:主要是要支持 reward function。
trl grpo trainer:TRL 的 GRPOTrainer 实现,目前尚未发版,需要安装 trl 的 main 分支。
veRL:字节开源的 RL 实现,也支持 GRPO reward function。
R1 复刻项目、数据集
open-r1:**【重点】**包括数据合成、SFT、GRPO RL 的代码。
TinyZero:在简单的类24点问题上复刻 R1 RL 范式。
SkyT1:蒸馏的 QwQ 的数据实现的 o1-like 模型。
HuatuoGPT-o1:医学领域复刻 o1(开放代码、数据、论文和模型),但是用的还是 reward model,效果提升很少。可以用 R1 RL 范式看看能否有明显提升。
simpleRL-reason:【重点】 在 8k MATH 数据集上复刻 R1-Zero 的范式
open-r1-multimodal:R1 多模态的复刻项目
open-thoughts:【重点】 最成熟的 R1 复刻项目,已经发布了 Bespoke-Stratos-17k dataset 和 OpenThoughts-114k dataset 项目,仅经过 SFT 即可以逼近 R1-distill 模型
R1-Distill-SFT:1.68M 条 R1 蒸馏数据集
grpo_demo.py:【重点】 基于 0.5B 模型的 RL demo,可以用来学习怎么训练。
 楼主| 发表于 2025-1-31 08:37:12 | 显示全部楼层
扎克伯格向川普投降,同时与马斯克和好。硅谷科技大佬们,基本上在“美国优先”问题上,达成了共识。这个视频的敏感词被剪辑过,但是大意没变。小扎说DeepSeek模型非常强,但问的所有问题,回答都有鲜明的立场,这非常值得思考。从技术上讲,这个肯定是增强学习的结果,模型奖励哪些符合某些核心价值观的回答,从而提升了这方面能力。但是,DeepSeek从诞生第一天起,就自我阉割了国际功能。DeepSeek给创业者的确提供了新思路,但从技术、数据、人才和法律层面看,未来简约版的OpenAI,大概率还是诞生在美国。
 楼主| 发表于 2025-1-31 10:42:05 | 显示全部楼层
NYU金融教授Tad Smith讲了一个残酷的真相,但是很少人去认真思考过。
他说他教了25年的金融才醒悟到:
“如果每年印钞速度是8-10%(一个共识),而标普的年回报不过是9%,你忙到头也不过是打了一个平手,仅仅让购买力不被缩水。”
换句话说,被动投资、买指数实质上并没有分享到实质的财富增长。真正的赚钱是找到升值速度超过印钞速度的资产。



再放两张截自Michael Saylor演示文件的图表,我认为很重要。
Saylor的模型判断,未来21年全球资产总值会从900T上升到4000T,背后的假设就是央行平均每年放水8%。
在这个过程中,各种资产类型的占比会发生变化。Saylor认为BTC从2T会发展到280T,多少倍的增长大家可以算一下。

下面推中大多数评论在嘲笑Tad Smith教了25年书而

不知道央行放水速度不等于通胀速度,等等之类。一知半解的人太多。
你应该好好思考Tad Smith的说法,以及自己做投资的方式。不理解Tad Smith的观点,只说明你不理解当代货币制度的本质以及对个人的后果。
是的放水速度不等于通胀速度,但会造成某些资产的极度通胀。
我们过去熟悉的所谓房产长期增值,实质不过就是一种资产通胀。











于Saylor的判断,这是不同资产类型今后21年的“通胀”速度,大家存下,省的自己算了。
again,Saylor的假设也许是错的,我没看到他详细解释模型。Saylor如果你觉得此人不靠谱不可信,就直接略过吧。

























 楼主| 发表于 2025-1-31 10:49:01 | 显示全部楼层
NVIDIA just brought DeepSeek-R1 671-bn param model  to NVIDIA NIM microservice on build.nvidia .com- The DeepSeek-R1 NIM microservice can deliver up to 3,872 tokens per second on a single NVIDIA HGX H200 system.- Using NVIDIA Hopper architecture, DeepSeek-R1 can deliver high-speed inference by leveraging FP8 Transformer Engines and 900 GB/s NVLink bandwidth for expert communication.- As usual with NVIDIA's NIM, its a enterprise-scale setu to securely experiment, and deploy AI agents with industry-standard APIs. @NVIDIAAIDev

[url=https://translate.google.com/][/url]翻译自 英语

NVIDIA 刚刚将 DeepSeek-R1 671-bn 参数模型引入 build.nvidia.com 上的 NVIDIA NIM 微服务
- DeepSeek-R1 NIM 微服务在单个 NVIDIA HGX H200 系统上每秒最多可传送 3,872 个令牌。
- 使用 NVIDIA Hopper 架构,DeepSeek-R1 可利用 FP8 Transformer Engines 和 900 GB/s NVLink 带宽实现高速推理,实现专家通信。


- 与 NVIDIA 的 NIM 一样,它是一个企业级设置,用于安全地进行实验并使用行业标准 API 部署 AI 代理。


 楼主| 发表于 2025-2-9 09:28:06 | 显示全部楼层
DeepSeek对国内云服务产业链的影响。

DeepSeek火了!截至2025年2月8日,DeepSeek的用户量已经突破3000万。凭借超高性价比和强悍实力,它成了继ChatGPT之后又一个现象级AI产品,直接引爆了整个AI产业链,大家都在抢着跟进。

春节期间,云计算厂商、GPU供应商以及智算中心的建设方都在紧锣密鼓地部署DeepSeek,商讨如何合作落地。

2月5日开始,国内的主要云厂商 —— 华为云,联通云,京东云,阿里云,腾讯云,百度智能云,移动云等,纷纷上线DeepSeek大模型,并将其纳入自家的模型商店。国际巨头微软Azure,亚马逊AWS和NVidia自己更早有动作,在春节前就已经完成了部署。

国产GPU厂商摩拳擦掌,加速适配DeepSeek

GPU是大模型的核心硬件,DeepSeek的火爆也让国内GPU厂商闻风而动,纷纷加快适配进度。

国产GPU厂商摩尔线程的工程师们春节都没休息,加班加点,在2月4日完成了DeepSeek蒸馏模型的部署。蒸馏模型的核心思想就是“知识传承”,把大模型的能力迁移到更小、更高效的模型中。这种方法不仅降低了计算和存储需求,还让模型更容易部署。

摩尔线程提供从GPU到集群的完整算力解决方案,适配DeepSeek之后,客户即便在算力资源有限的情况下,也能跑起大模型。

不过,虽然各大厂商都在抢着适配DeepSeek,但目前DeepSeek官方还没有给出认证。不同厂商的适配质量参差不齐,意味着GPU厂商要想在这波热潮中脱颖而出,还得在适配优化上下更大功夫。

智算中心或将调整建设方案,国产设备迎来新机遇

DeepSeek的普及,不仅影响云计算和GPU市场,连国内的智算中心都开始重新评估自己的建设方案。

一位算力中心的运营人士透露,很多智算中心正在研究DeepSeek的影响,甚至可能会因此调整硬件采购策略,增加国产设备的比例。

根据中国信息通信研究院的数据,截至2024年7月底,国内已有或在建的智算中心达87个。虽然政府一直在推动国产化,但之前因为国产GPU的产能和性能不足,大部分智算中心还是优先采购英伟达芯片。现在,DeepSeek的高性价比让国产GPU+国产云的组合变得更加可行,未来有望推动本土产业链进一步成熟。
 楼主| 发表于 2025-2-9 15:17:37 | 显示全部楼层
But…But…But…“AI is a bubble.”$315 Billion in Capex from 4 companies to build the AI future. Yeah. Sure…The bears on FinTwit are smarter than the CEOs of every Mag 7 CEO. Literally every one of them are clear that the revenue potential makes these massive capex outlays a requirement for long termviability. $AMZN $GOOGL $MSFT $META
翻译自 英语

但是…但是…但是…“人工智能是一个泡沫。”四家公司投入 3150 亿美元资本支出打造 AI 未来。是的。当然…… FinTwit 上的看跌者比每一位 Mag 7 CEO 都聪明。 实际上,他们每个人都清楚,收入潜力使得这些巨额资本支出成为长期的需要生存力。 $AMZN $GOOGL $MSFT $META

翻译得准确吗?请提供反馈,以便我们加以改进:
















下午11:53 · 2025年2月8日
·
3.4万
查看






您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|Archiver|boway Inc. ( 冀ICP备10011147号 )

GMT+8, 2025-3-14 18:18 , Processed in 0.107995 second(s), 14 queries .

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表