最新显卡RTX3090、RTX3080ti、RTX3080详细技术参数与应用加速分析(修正)

network · 发表于 2021-8-14 06:03:43

http://www.xasun.com/article/95/2442.html

nvidia 的Amper（安倍）架构显卡上市，和上一代Turing（图灵）架构显卡相比，性能提升显著

技术参数对比表：

关键指标	RTX 3090	RTX 3080	RTX 3070Ti	Titan RTX	RTX 2080Ti	备注
GPU 基频MHz	1410	1410	1410	1350	1350
GPU自动超频MHz	1695	1710	1695	1770	1545
内存等效频率MHz	19496	19000	16000	14000	14000
CUDA核	10496	8704	6144	4608	4352	关键指标
TMUs紋理單元	328	272	192	288	272
ROPs光珊單元	112	96	64	96	88
Tensor核数	328	272	192	576	544	深度学习关键指标
RT核数	82	38	48	72	68
显存	24GB	10GB	16GB	24GB	11GB	关键指标
显存位宽bits	384	320	256	384	352
显存带宽GBs	936	760	512	672	616	关键指标
像素填充率GPs	163	150	108	170	136	图形生成指标
纹理填充率	556	465	325	510	420
半精度FP16 Tflops	35.58	29.77	20.83	32.62	26.90	深度学习性能指标
单精度FP32 Tflops	35.58	29.77	20.83	16.31	13.45	时域/显式计算指标
功耗W	350	320	250	280	250
实际功耗	400	360	280	315	315
供电口	1x12-pin	2x8-pin	1x8-pin	2x8-pin	2x8-pin

新卡上市时间：

RTX3080 10GB 2020年9月17号

RTX3090 24GB 2020年9月24号

RTX3070 8GB 2020年10月

RTX3080 20GB 2020年

RTX3070Ti 16GB 2020年

第二代RTX卡对UltraLAB图形工作站在下面应用，有什么提升呢

1 科学与仿真计算方面
1.1 基于时域算法的电磁仿真计算提升，相关机型：GT410P、GX630M、Alpha730
1.2 基于GPU加速的分子动力模拟提升，相关机型：GX630M

显卡推荐：单精度浮点指标性价比最高的RTX3080Ti

2 3D图形设计方面
2.1 3D模型实时生成与即时渲染相关机型：H380

显卡推荐：像素填充率、显存带宽两者兼顾，RTX3090、RTX3080Ti

3 图像处理方面
3.1 无人机航拍影像处理、倾斜摄影建模，相关机型：H380

显卡推荐：像素填充率、显存带宽两者兼顾，RTX3080、RTX3080Ti

4 视景仿真方面
4.1 大型三维场景、科学可视化、三维GIS应用，相关机型：V390

显卡推荐：像素填充率、显存带宽两者兼顾，RTX3090、RTX3080Ti

5  影视后期方面
  5.1 4K/6K/8K视频编解码计算，相关机型：GT400M
  5.2 3D渲染计算加速，相关机型：H390、GT400M

显卡推荐：像素填充率、显存带宽两者兼顾，RTX3090、RTX3080Ti

6 深度学习和大数据分析方面
6.1 基于CNN算法的计算机视觉应用加速，相关机型：GX630M

显卡推荐：半精度浮点指标、Tensor核数性价比最高，RTX3080Ti、RTX3070Ti

应用于深度学习，可能问题：

（1）功耗问题新卡的功耗比上一代升幅巨大，RTX3090/RTX3080Ti实际功耗到400w以上，对基于GX630M机型，支持8块GPU卡，可能成为历史，GX630M配备的双2000w电源，也不够用,

（2）散热问题上一代GPU卡配备涡轮风扇，多卡并行间距空间很窄，进气散热也不错，但是新GPU因为功耗大幅提升，只能用双风扇以上的散热架构，多卡并行原设计间距势必增大

因此，综合上面两个原因，图灵超算工作站GX630M可能支持最多6块卡RTX3090/RTX3080Ti

最新的UltraLAB图形工作站基准配置近期推出

network · 发表于 2021-8-14 06:06:17

深度学习训练与推理计算平台硬件配置完美选型2020v1时间:2020-02-17 来源: 网友评论:0 人气: 2600 作者:

支持6块RTX3090静音级深度学习工作站硬件配置方案2020v4

人工智能随着核心算法、计算能力的迅速提升，以及海量联网数据的支持，在本世纪终于迎来了质的飞跃，人工智能将是未来应用最广泛的技术之一，在市场经济领域带来更多的机遇与机会，在医学领域可以大大加快诊断速度和准确性，在军事领域人工智能武器将成为未来武器的王牌……

（一）了解深度学习算法
深度学习两个主要过程：训练（Training）和推理（Inference）。其中：
训练（Training）是将大量数据加载到机器中并分析数据以建立用于分类，识别，预测等的模式的过程（已建立的模式称为训练后的模型），训练需要高速密集并行计算---“高性能计算”

任务领域	原始输入	浅层特层中层特征高层特征	训练目标
语音	样本	频段声音音调音素单词	语音识别
图像	像素	线条纹理图案局部物体	图像识别
文本	字母	单词词组短语段落文正	语义理解

推理（Inference）是将未知数据输入到通过学习过程创建的训练模型中，然后根据已建立的模式对数据进行实际分类，识别和预测的过程，推理需要快速将推理结果转化为行动—“边缘计算”、实时要求高

深度学习是指多层神经网络上运用各种机器学习算法解决图像、文本、语音等各种问题的算法集合

典型算法	应用领域
CNN卷积神经网络	计算机视觉：医学图像分析、图像识别、面部检测、识别系统、全动态视频分析，自动驾驶，卫星图像药物发现、推荐引擎、游戏
RNN递归神经网络变体：LSTM、GRU、NTM、双向RNN	自然语言处理(NLP)：机器翻译、情感处理，语言生成，文本分类和句子完成：时间序列预测：股票预测、金融工程，应用物理、医学医药顺序图像处理:图像分类、图像字幕分割的手写识别、语音识别问题解答系统，机器人控制，
DBN深度信念网络	图像识别、信息检索、自然语言理解、故障预测
DSN深度堆栈网络	信息检索、连续语音识别
GAN生成对抗网络	图像样式转换，高分辨率图像合成，文本到图像合成，图像超分辨率[例如小剂量PET重建，异常检测，3D对象生成[例如牙齿修复]，音乐生成，科学模拟加速度（例如天体物理学或高能物理
Autoencoder自动编码器	推荐系统，图像重构、聚类、机器翻译，异常值检测、数据去噪(图像、音频)，图像修复，信息检索

（二）深度学习主流算法计算特点

2019年，Nvidia（英伟达）公司上市Turing架构的RTX系列的GPU卡，增加了Tensor张量计算单元，大幅提升了深度学习关键的矩阵乘法计算、卷积计算（借助张量Tensors）,GPU卡性能的关键指标：Tensor张量核数、显存带宽、FP16/FP32计算精度

目前可选GPU型号（2020年1季度）的主要技术参数

型号	CUDA核	张量核数	显存1	显存带宽2	张量计算3	FP16半精度计算4	FP32单精度计算5
Quadro GV100	5120	640	32	870	133	33.32	16.66
Quadro RTX8000	4608	576	48	672	130	32.62	16.31
Quadro RTX6000	4608	576	24	672	130	32.62	16.31
Titan RTX	4608	576	24	672	130	32.62	16.31
TITAN V	5120	640	12	651	119	29.80	14.90
TESLA V100	5120	640	16	897	113	28.26	14.13
RTX2080Ti	4352	544	11	616	108	26.90	13.45
Quadro RTX5000	3072	384	16	448	89	22.30	11.15
RTX2080S	3072	368	8	496	85	22.30	11.15
TESLA T4	2560	320	16	320	65	65.13	8.14
RTX2070S	2560	288	8	448	65	18.12	9.06
Quadro RTX4000	2304	288	8	416	57	14.24	7.12
RTX2060S	2176	272	6	336	57	14.36	7.18

标注1 显存单位GB，标注2 显存带宽单位GB/s，标注3-5 单位Tflops（每秒万亿次）

应用1 CNN（卷积神经网络）计算特点
这类应用主要是计算机视觉应用，计算机获得对图像的高级“理解”。为了评估模型是否真正“理解”了图像，研究人员开发了不同的评估方法来衡量性能
主要算法：卷积神经网络（CNN）

CNN主要模型：AlexNet，VGG，GoogleNet, ResNet, Inception 等
主流深度学习框架：Theano、Caffe、MXNet、TensorFlow、Torch/Pytorch
CNN多GPU并行计算特点：非常理想

利用GPU加速主要是在conv（卷积）过程上，conv过程可以像向量加法一样通过CUDA实现并行化。具体的方法很多，最好的是用FFT（快速傅里叶变换）进行快速卷积，NVIDIA提供了cuFFT库实现FFT，复数乘法则可以用cuBLAS库里的对应的level3的cublasCgemm函数。

GPU加速的基本准则就是“人多力量大”。CNN说到底主要问题就是计算量大，但是却可以比较有效的拆分成并行问题。随便拿一个层的filter来举例子，假设某一层有n个filter，每一个需要对上一层输入过来的map进行卷积操作。那么，这个卷积操作并不需要按照线性的流程去做，每个滤波器互相之间并不影响，可以大家同时做，然后大家生成了n张新的谱之后再继续接下来的操作。既然可以并行，那么同一时间处理单元越多，理论上速度优势就会越大。所以，处理问题就变得很简单粗暴，就像NV那样，暴力增加显卡单元数（当然，显卡的架构、内部数据的传输速率、算法的优化等等也都很重要）。

GPU计算性能出众的根本原因是处理矩阵算法能力的非常强大，CNN中涉及大量的卷积，也就是矩阵乘法等，所以在这方面具有优势,GPU上的TFLOP是ResNet和其他卷积架构性能的最佳指标。Tensor Core可以显着增加FLOP，使用卷积网络，则应首先确定具有高GPU张量计算能力的优先级，然后分配高FLOPs的CUDA数量，然后分配高内存带宽，然后分配具有FP16位精度数据

CNN硬件配置要点：Tensors> FLOP> 显存> 半精度计算(FP16)

GPU可选型号：

No	型号	CUDAs	Tensors	显存1	显存带宽2	张量计算3	F16半精度4	F32单精度5
1	Quadro GV100	5120	640	32	870	133	33.32	16.66
	Quadro RTX8000	4608	576	48	672	130	32.62	16.31
	Quadro RTX6000	4608	576	24	672	130	32.62	16.31
	Titan RTX	4608	576	24	672	130	32.62	16.31
2	TITAN V	5120	640	12	651	119	29.80	14.90
	TESLA V100	5120	640	16	897	113	28.26	14.13
	RTX2080Ti	4352	544	11	616	108	26.90	13.45
3	Quadro RTX5000	3072	384	16	448	89	22.30	11.15
	RTX2080S	3072	368	8	496	85	22.30	11.15
4	TESLA T4	2560	320	16	320	65	65.13	8.14
	RTX2070S	2560	288	8	448	65	18.12	9.06
	Quadro RTX4000	2304	288	8	416	57	14.24	7.12
	RTX2060S	2176	272	6	336	57	14.36	7.18

标注1—单位GB，标注2—单位GB/s, 标注3~5 ---单位TFlops

说明：

	GPU卡型号	显存	计算规模	说明
1	RTX2070s RTX2080s RTX2080ti	8GB 8GB 11GB	小型模型开发	较小的GPU内存占用空间，高吞吐量工作负载应用涡轮式散热，单台工作站中最多配置8个
2	Titan RTX	24GB	中等模型开发	大显存支持使用更大的批处理需要训练大型计算机视觉模型，TITAN RTX可以做到。最多4块，不支持密集地装进工作站
3	RTX6000	24GB	中大等规模开发	配备涡轮风扇，支持密集安装支持单机最大9块
4	RTX8000	48GB	超大规模	拥有所有NVIDIA GPU中最大的内存容量，配备涡轮风扇，支持密集安装支持单机最大9块

应用2 RNN（循环神经网络）计算特点
这类典型应用主要是自然语言处理（NLP），包括语音识别，语言翻译，语音转文本和Q＆A系统。

主要算法：RNN（包括变体: LSTM、GRU、NTM、双向RNN等）、Transformer
主流框架：CNTK、Torch/PyTorch、Keras
多GPU并行计算：不明确，跟程序设计、算法、框架、SDK以及具体应用都有很大关系，一些应用CPU多核并行反倒更快。

RNN和LSTM的训练并行计算是困难的，因为它们需要存储带宽绑定计算，这是硬件设计者的噩梦，最终限制了神经网络解决方案的适用性。简而言之，LSTM需要每个单元4个线性层（MLP层）在每个序列时间步骤中运行。线性层需要大量的存储带宽来计算，事实上，它们不能使用许多计算单元，通常是因为系统没有足够的存储带宽来满足计算单元。而且很容易添加更多的计算单元，但是很难增加更多的存储带宽（注意芯片上有足够的线，从处理器到存储的长电线等）

GPU内存非常重要，因为诸如XLNet和BERT之类的transformer网络需要大量的内存才能达到最高的精度，考虑矩阵乘法A*B=C的一种简单有效的方法是受内存(显存)带宽限制：将A，B的内存复制到芯片上比进行A * B的计算要昂贵。这意味着如果您要使用LSTM和其他执行大量小矩阵乘法的循环网络，则内存(显存)带宽是GPU的最重要功能。矩阵乘法越小，内存(显存)带宽就越重要，介于卷积运算和小型矩阵乘法之间的transformer在整体求解过程环节中并行效率低，加快方式提升显存带宽和足够的显存容量

RNN硬件配置要点：显存带宽+显存> 半精度计算(FP16) > Tensors> FLOP

GPU可选型号

No	型号	CUDAs	Tensors	显存1	显存带宽 2	张量计算3	F16半精度4	FP32单精度5
1	TESLA V100	5120	640	16	897	113	28.26	14.13
	Quadro GV100	5120	640	32	870	133	33.32	16.66
2	Quadro RTX8000	4608	576	48	672	130	32.62	16.31
	Quadro RTX6000	4608	576	24	672	130	32.62	16.31
	Titan RTX	4608	576	24	672	130	32.62	16.31
	TITAN V	5120	640	12	651	119	29.80	14.90
	RTX2080Ti	4352	544	11	616	108	26.90	13.45
3	RTX2080S	3072	368	8	496	85	22.30	11.15
	Quadro RTX5000	3072	384	16	448	89	22.30	11.15
	RTX2070S	2560	288	8	448	65	18.12	9.06
	Quadro RTX4000	2304	288	8	416	57	14.24	7.12
4	RTX2060S	2176	272	6	336	57	14.36	7.18
	TESLA T4	2560	320	16	320	65	65.13	8.14

说明

	GPU卡型号	显存	可选	说明
1	RTX5000	16GB	Good	拥有16GB显存，
2	Titan RTX	24GB	Better	支持NVLink桥接，加速训练更大的NLP网络模型，
	RTX6000	24GB	Better	类似TITAN RTX性能指标，涡轮散热设计允许密集配置，支持单机最大9块卡扩展
3	Quadro GV100	32GB	Best	拥有最高的显存带宽870GB/s和最高的张量算力
3	RTX8000	48GB	Best	拥有最大48GB显存，是NLP的最佳GPU 涡轮散热设计允许密集配置，支持单机最大9块卡扩展

（四）深度学习计算系统平台配备

4.1深度学习框架对比

框架	重点应用	编程语言	多GPU速度	深度学习主要算法
框架	重点应用	编程语言	多GPU速度	CNN	RNN /LTSM	GAN	RBM/ DBN
TensorFlow	自然语言处理，文本分类/摘要，语音/图像/手写识别，预测和标记	Python ， C++， R语言	++	+++	++		支持
Caffe	视觉识别	C,C++，Python，Matlab	+	++
CNTK	手写和语音识别.处理图像	C++，Python	++	+	+++	支持
PyTorch	处理图像，手写和语音识别	CUDA，C/C++	+++	+++	++	支持	支持
MXNet	图像，手写/语音识别，预测和NLP	Python,R,C++ Julia，CUDA	+++	+++	+	支持
Chainer	情感分析，机器翻译，语音识别	CUDA		支持	支持
Keras	分类，文本生成和摘要，标记和翻译，以及语音识别	Python		支持	支持
DL4J	图像识别，欺诈检测，文本挖掘，词性标记和自然语言处理	Java		支持	支持		支持
Theano		Python	+	++	++

4.2 深度学习开发库SDK
开发环境：CUDA Toolkit
训练SDK：cuDNN （7.0版本支持Tensor Core）、NCCL、cuBLAS、cuSPARSE
推理SDK：TensorRT（版本3.0支持Tensor Core）、DALI

4.3 深度学习操作系统
操作系统：Windows 10 Pro 64位+ Ubuntu 18.04或RHEL 7.5
容器：Docker 18.06.1，NVIDIA Docker运行时v2.0.3
容器：RAPIDS容器

（五）深度学习计算硬件配置推荐

打造一个快速高效的深度学习计算平台，涉及到多方面因素：
（1）超算硬件设备-—GPU、CPU、内存、硬盘io…
（2）深度学习算法---CNN、RNN…
（3）深度学习框架---Tensorflow、PyTorch…
（4）开发库SDK---CUDA、cuDNN…
（5）程序设计算法优化—-张量单元、FP16精度数据计算、针对算法SDK优化、多卡并行优化算法…

5.1 深度学习工作站配置推荐（科研类）
机型：UltraLAB GX380i/GT410
支持2~4块GPU卡
配备nvidia RTX---配置张量计算单元Tensor，支持intel AVX-512

No	产品型号	主要配置	FP16半精度性能	显存带宽	显存	理想算法	价格
1.1	GX380i 14932-SA2X	intel第9代处理器(6核@4.9Ghz )/32GB DDR4 /*2RTX2070s**/960GB SSD /4TB SATA/微塔式(2000w)/23"图显	36Tops	448GB/s	16GB	CNN	￥29,990
1.2	GX380i 14964-SB2X	intel第9代处理器(6核@4.9Ghz)/64GB DDR4/ *2RTX2080Ti**/1.9TB SSD/4TB SATA/微塔式(1200w)/23"图显	54Tops	616GB/s	22GB	CNN	￥49,990
1.3	GX380i 14964-SB2D	intel第9代处理器(6核@4.9Ghz) /64GB DDR4 / *2RTX5000**/1.9TB SSD/6TB SATA/微塔式(2000w)/23"图显	45Tops	448GB/s	32GB	RNN	￥69,990
1.4	GX380i 14996-SB2T	intel第9代处理器(8核4.9Ghz) /96GB DDR4 / *2Titan RTX** /1.9TB SSD/6TB SATA/微塔式(2000w)/23"图显	65Tops	672GB/s	48GB	CNN+ RNN	￥97,500
1.5	GX380i 15096-SB2T	intel第9代处理器(8核5.0Ghz) /128GB DDR4 /*2Quadro GV100** /960TB SSD+2TB M2.SSD /6TB SATA/微塔式(2000w)/23"图显	67Tops	870GB/s	64GB	RNN	￥169,990
1.6	GT410i 14664-SB4X	intel第10代至尊处理器(10核4.6Ghz) /64GB DDR4 /*4RTX2080s** /1.92TB SSD/4TB SATA/微塔式(2000W)/23"图显	89Tops	496GB/s	32GB	CNN	￥69,990
1.7	GT410i 14596-SB4X	intel第10代至尊处理器(12核4.5Ghz ) /96GB DDR4 /*4RTX2080Ti** /1.92TB SSD /6TB SATA/微塔式(2000W)/23"图显	108Tops	616GB/s	44GB	CNN	￥89,990
1.8	GT410i 145192-SC4E	intel第10代至尊处理器(12核4.5Ghz ) /192GB DDR4 /*4RTX6000**/ 3.84TB SSD/10TB SATA/微塔式(2000W)/23"图显	131Tops	672GB/s	96GB	CNN+ RNN	￥210,000
1.9	GT410i 142256-SC4F	intel第10代至尊处理器(18核4.2Ghz ) /256GB DDR4 /*4RTX8000**/3.84TB SSD/10TB SATA/微塔式(2000W)/23"图显	131Tops	672GB/s	192GB	RNN	￥330,000
1.10	GT410i 142256-SC4G	intel第10代至尊处理器(18核4.2Ghz ) /256GB DDR4/*4Qudro GV100**/3.84TB SSD /10TB SATA/微塔式(2000W)/23"图显	133Tops	870GB/s	64GB	RNN	￥350,000

5.2 深度学习工作站配置推荐（高性能类）
机型：UltraLAB GT410P
支持支持5~7块GPU

No	产品型号	主要配置	FP16半精度性能	显存带宽	显存	理想算法	价格
2.1	GT410P 14696-SB5X	intel第10代至尊处理器 (10核4.6Ghz)、96GB DDR4 /*5RTX2080s**/1.92TB SSD+6TB SATA /双塔式(双2000w)/27"-4K图显	112Tops	496GB/s	40GB	CNN	￥97,000
2.2	GT410P 14596-SB6X	intel第10代至尊处理器 (12核4.5Ghz)、96GB DDR4 /*6RTX2080s**/1.9TB SSD+ 8TB SATA /双塔式(双2000w)/27"-4K图显	134Tops	496GB/s	48GB	CNN	￥108,000
2.3	GT410P 145128-SB7X	intel第10代至尊处理器 (12核4.5Ghz)、128GB DDR4 /*7RTX2080s/1.9TB SSD+ 10TB SATA**/ /双塔式(双2000w)/27"-4K图显	156Tops	496GB/s	56GB	CNN	￥118,000
2.4	GT410P 145192-SC7X	intel第10代至尊处理器 (12核4.5Ghz)、192GB DDR4 /*7RTX2080Ti 3.84TB SSD+ 8TB SATA**/ 双塔式(双2000w)/27"-4K图显	188Tops	616GB/s	77GB	CNN	￥148,000
2.5	GT410P 145192-SC5T	intel第10代至尊处理器 (12核4.5Ghz)、192GB DDR4 /*5Titan RTX/3.84TB SSD+ 10TB SATA/双塔式(双2000w)/**27"-4K图显	163Tops	672GB/s	120GB	CNN+ RNN	￥228,000
2.6	GT410P 142256-SC7E	intel第10代至尊处理器 (18核4.2Ghz)、256GB DDR4 /*7RTX6000/3.84TB SSD+ 14TB SATA/双塔式(双2000w)/**27"-4K图显	228Tops	672GB/s	168GB	CNN+ RNN	￥370,000
2.7	GT410P 142256-SC7F	intel第10代至尊处理器 (18核4.2Ghz)、256GB DDR4 /*7RTX8000/3.84TB SSD+ 14TB SATA/双塔式(双2000w)/**27"-4K图显	228Tops	672GB/s	240GB	RNN	￥535,000

5.3 深度学习工作站配置推荐（超级类）
机型：UltraLAB GX630M）
支持8~9块GPU

No	产品型号	主要配置	FP16半精度性能	显存带宽	内存/显存	理想算法	价格
3.1	GX630M 237192-MB9X	2Xeon金6234(16核3.7GHz)/ 睿频4GHz* /192GB DDR4 /*9RTX2080s/960GB SSD+2TB M2.SSD**/28TB存储/双塔/27"-4K图显	201Tops	496GB/s	40GB	CNN	￥199,990
3.2	GX630M 243192-MB8X	2Xeon金6244(16核4.3GHz)/ 睿频4.3GHz* /192GB DDR4 /*8RTX2080Ti/1.9TB SSD+2TB M2.SSD**/42TB存储/双塔/27"-4K图显	215Tops	616GB/s	88GB	CNN	￥245,000
3.3	GX630M 241384-60T7T	2Xeon金6246(24核4.1GHz)/ 睿频4.2GHz* /384GB DDR4 /*7Titan RTX**/3.84TB SSD /60TB并行存储/双塔/27"-4K图显	228Tops-	672GB/s	168GB	CNN+ RNN	￥399,990
3.4	GX630M 241384-42T8E	2Xeon金6246(24核4.1GHz)/ 睿频4.2GHz* /384GB DDR4 /*8RTX6000**/1.92TB SSD+2TB M2.SSD/42TB并行存储/双塔/32"-4K图显	261Tops	672GB/s	192GB	CNN+ RNN	￥499,990
3.5	GX630M 239768-150T8F	2Xeon金6254(36核3.9GHz)/ 睿频4.0GHz* /768GB DDR4 /*8RTX8000**/3.84TB SSD+3.2TB P-SSD/150TB并行存储/双塔/32"-4K图显	261Tops	672GB/s	384GB	CNN+ RNN+ 推理	￥750,000
3.6	GX630M 235768-210T8G	2Xeon白金8268(48核3.5GHz)/睿频3.9GHz* /768GB DDR4 /*8QGV100 /3.84TB SSD /6.4TB P-SSD**/210TB并行存储/双塔/32"-4K图显	266Tops	870GB/s	256GB	CNN+ RNN+ 推理	￥850,000
3.7	GX630M 2331T-266T9F	2Xeon白金8280(56核3.3GHz/ 睿频4.0GHz* /1TB DDR4 /*9RTX8000/3.84TB SSD系统盘/6.4TB P-SSD/266TB**并行存储/双塔/32"-4K图显	293Tops-地球最强	672GBs	432GB	CNN+ RNN+ 推理	￥999,990

UltraLAB图形工作站供货商：
西安坤隆计算机科技有限公司
国内知名高端定制图形工作站厂家
业务电话：400-705-6800

咨询微信号：

network · 发表于 2021-8-14 06:07:14

回复 2# network

为什么UltraLAB深度学习工作站最快、性价比最高时间:2017-06-16 来源: 网友评论:0 人气: 4207 作者:

目录
1 市场深度学习硬件配置严重缺陷
2 最合理深度学习硬件架构分析
3 UltraLAB 深度学习超级计算机完美配置推荐

2018年6月最新深度学习基准配置报价下载（直接点击）

（一）市场上提供的深度学习硬件配置有严重缺陷

深度学习太火了，卖深度学习的计算机、服务器、工作站，五花八门，到处都是卖家，到处都是专家，似乎，只要机器里能插GPU，插的越多性能越强，实际情况是：

反馈1：为什么4块GPU机器，比人家2块GPU机器还慢
反馈2：为什么同样8块GPU比人家8块GPU卡，还慢
反馈3：为什么2块GPU卡，一个快一个慢
反馈4：为什么这么多GPU卡，计算过程还是很慢
反馈5：我的机器噪音巨大，无法放到办公环境，怎么在静音环境下运行
…
误区1：只要有足够多GPU卡，性能更强大
误区2：同样数量GPU卡，谁便宜、谁性价比更高，就最好选择
误区3：CPU核数，频率不重要，把钱砸到GPU上就行
误区4：硬盘和内存不重要，最重要的是GPU卡越多越好
…
困惑1: 上述反馈是什么原因造成的？
困惑2：市场谁家能给出更好的配置架构

问题来了，深度学习需要什么样的硬件配置才是最合理，最高效的

 
（二）深度学习硬件架构分析

首先一定从深度学习计算过程分析开始

上述图示，深度神经网络计算大致流程，下面通过深度神经网络计算环节，分析核心硬件配置理想要求

环节	主要操作	涉及硬件	瓶颈	配置推荐
1	数据调入	硬盘->内存	硬盘io是最大瓶颈	GPU和硬盘数量1:1 硬盘io越高越好
2	数据预处理	CPU(单核计算模式)	计算量巨大	CPU频率越高，处理越快
3	内存->显存->计算	GPU	计算量巨大	增加GPU，CPU核数大于GPU数量，内存比显存大
4	数据结果->内存	内存
5	数据保存	硬盘	硬盘io	用SSD或多硬盘

常见计算机硬件配置上的低级错误：
1．为了省钱，硬盘用普通PC硬盘，寿命短，带宽低，或数量不够，
2．为了节省，CPU用的最多的是Xeon E5 2620v（8核2.1GHz），频率太低，数据预处理太慢，成为整个计算的最大瓶颈，
3．为了把钱用到“刀刃上”—尽可能多配GPU卡，但是总显存比内存容量大，不合理，或者CPU核数低于GPU卡数，这些都会造成计算过程资源耗尽，数据来回从虚拟内存导入，计算变慢

（三）深度学习计算机、工作站最理想的硬件配置推荐

针对上述深度学习计算过程、低级配置错误分析，深度学习最合理硬件配置架构，保证整个机器是一台理想化异构超算系统，完美强大高效还静音

UltraLAB GXi/M图灵计算工作站是西安坤隆计算机公司2017年上半年推出的、目前市场上一款集多GPU超算、超高频率处理器、海量存储于一体、基于办公静音环境、应用于深度学习(机器学习、人工智能)的AI超级计算机系统。

和市面上深度学习计算机系统相比，显著优势：

拥有超高CPU频率，大幅加速深度学习预处理过程
支持最大4块（GX360i）/7块(GX480M)/9块（GX610M）GPU卡，单精度浮点100Tflops
拥有最大16个硬盘位，容量160TB，
完全处于办公环境（静音级）、不在被噪音所困扰
不需要专门的机房，不占过多空间，维护成本极低
完美的硬件配置和专业优化加速技术，保证整个机器系统高速高效运转

3.1 图灵计算工作站技术规格

机型	硬件配置规格
机型	CPU	GPU	最大内存	存储
GX360i	单CPU架构 4核4.8GHz~5GHz	最大4块	64GB	并行存储最大40TB
GX480M	单CPU架构 6核4.5GHz 8核4.3GHz	最大7块GPU	256GB	并行存储，最大180TB
GX610M	双Xeon架构 2*Xeon E5 2689v4 （共计8核3.5GHz）	最大9块	1TB	并行存储，最大180TB

3.2深度学习工作站硬件配置参考

（1） GX360i机型配置参考（超值型）

该机型特点：支持4块GPU卡，CPU频率高达5GHz，整体配置均衡无死角，满足深度学习训练硬件配置要求

NO	CPU	内存	GPU/总显存	单精度	系统盘	并行存储	平台	售价
1	7600K OC (4核4.8GHz)	16GB	2块GTX1080 8GB	16Tflops	256GB SSD	1TB	塔式	36500
2	7700K OC (4核4.9GHz)	32GB	4块GTX1080 32GB	33Tflops	512GB SSD	*41TB**	塔式	58500
3	7700K OC (4核5.0GHz)	64GB	4块GTX1080Ti 44GB	45Tflops	512GB SSD	*44TB**	双塔单电	69000

备注：含23”高清图显

（2） GX480M、GX610M机型配置参考（高性能型）

该机型特点：支持最大到7块（GX480M）或9块（GX610M）GPU卡，CPU的频率和核数达到最大均衡，每个环节保证达到最高性能，整体配置均衡无死角，满足深度学习训练对配置的要求

NO	CPU	内存	GPU/总显存	单精度浮点	系统盘	并行存储	平台	售价
1	6850K OC (6核4.5GHz)	64GB	5块GTX1080Ti 55GB	56Tflops	1TB SSD	*51TB**	双塔双电	94500
2	6900K (8核4.3GHz)	96GB	6块GTX1080Ti 66GB	68Tflops	1TB SSD	*61TB**	双塔双电	115000
3	6900K (8核4.3GHz)	128GB	7块GTX1080Ti 77GB	79Tflops	1TB SSD	*71TB**	双塔双电	128000
4	2*Xeon E5v4 (20核3.1GHz，睿频3.8GHz)	128GB	8块GTX1080Ti 88GB	90Tflops	1TB SSD	*81TB**	双塔双电	159000
5	2*Xeon E5v4 (20核3.1GHz，睿频3.8GHz)	128GB	9块GTX1080Ti 99GB	101Tflops	1TB SSD	*91TB**	双塔双电	169000

备注：含23”高清图显

总结
UltraLAB GXi/M是一款静音级、真正高性能GPU超算的深度学习训练计算机，比市面上的机器，更安静，性能更强大，适合科研、研究部门在安静的办公环境下运行。

此外，该机型用途极广，扩展能力强，调整配置后，可为电磁仿真计算（CST）、量子化学/分子动力学计算（VASP、AMBER等）、超大屏拼接（8X9=72路视频拼接合成）、视频剪辑合成、指纹识别等应用，提供强悍的计算、图形生成能力

network · 发表于 2021-8-14 06:09:03

回复 3# network
地表最强深度学习训练平台~UltraLAB GPU硬件选型时间:2017-04-17 来源: 网友评论:0 人气: 2388 作者:

目录
1 深度学习训练平台与理想计算架构
2 深度神经网络计算特点与硬件配置分析
3 UltraLAB GXM图灵工作站与配置推荐

2018年8月最新深度学习基准配置报价下载（直接点击，GPU更新为RTX2080/2080Ti）

（一）深度学习训练平台现状与完美计算架构

深度神经网络（DNN）计算数据模型繁多，结构复杂，主流模型含几十个隐含层，每层都在上千上万级的神经元，整个网络更多，其计算量巨大，

市场上用于深度学习的训练计算机大致情况，
（1）服务器/工作站（支持2、4、8块GPU架构）：普遍存在噪音大，无法放置于办公环境，必须放到专门的机房，维护成本高，另外数据存储带宽、延迟、容量也不尽如意
（2）分布式集群架构：性能强大，但是开发成本太高，是大多数科研单位无法承受

那么问题来了，市场上是否有一个理想产品，弥补上述缺陷，让更多单位都能用的起~人工智能AI超级异构计算机

UltraLAB GXM图灵计算工作站是西安坤隆计算机公司2017年上半年推出的、目前市场上一款集GPU超算、海量存储于一体、基于办公静音环境、应用于深度学习(机器学习、人工智能)的AI超级计算机系统。

和市面上深度学习计算机系统相比，显著优势：

完全处于办公环境（静音级）、不在被噪音所困扰
配备基于PCIe总线的海量高速并行存储（最大容量180TB），延迟低，支持最大15个并行读，硬盘io性能大幅提升，性能和管理远超传统的DAS/NAS存储系统
配备超级强大的计算能力，最大10个GPU卡，3.82万计算核，单精度浮点120Tflops
不需要专门的机房，不占过多空间，维护成本极低
不需要作业调度系统，管理难度大幅降低

（二）深度神经网络计算特点与硬件配置分析

市场上大部分GPU计算机(服务器/工作站），重点都放在GPU卡数量上，似乎只要配上足够GPU卡，就可以了，实际情况是，机器硬件配置还需要整体均衡，只有这样这台机器性能才能更好的发挥

上述图示，深度神经网络计算大致流程，下面通过深度神经网络计算环节，分析核心硬件配置理想要求

1.数据存储要求
做深度学习首先需要一个好的存储系统，将历史资料保存起来
主要任务：历史数据存储，如：文字、图像、声音、视频、数据库等。。。
性能要求：
a.数据容量：提供足够高的存储能力，
b.读写带宽：多硬盘并行读写架构提高数据读写带宽
c.接口：高带宽，同时延迟低

传统解决方式：专门的存储服务器，借助万兆端口访问
缺点：带宽不高，对深度学习的数据读取过程时间长(延迟大，两台机器之间数据交换)，成本高

UltraLAB解决方案：将并行存储直接通过PCIe接口，提供最大16个硬盘的并行读取，数据量大并行读取要求高，无论是总线还是硬盘并行带宽，都得到加大提升，满足海量数据密集io请求和计算需要

2.CPU要求
主要任务：
（1）数据从存储系统调入到内存的解压计算
（2）GPU计算前的数据预处理
（3）运行在代码中写入并读取变量执行指令，如函数调用启动在GPU上函数调用，创建小批量数据启动到GPU的数据传输
（4）GPU多卡并行计算前，每个核负责一块卡的所需要的数据并行切分处理和控制
（5）求解后数据保存前的压缩计算
上述每一类操作基本都是单核计算模式，如果要加速这些过程，唯有提升CPU频率

传统解决方式：CPU规格很随意，核数和频率没有任何要求
UltraLAB合理推荐：
a.CPU频率：越高越好
b.CPU三级缓存：越大越好
c.CPU核数：比GPU卡数量大（原则：1核对应1卡，核数要有至少2个冗余）

3.GPU要求
主要任务：承担深度学习的数据建模计算、运行复杂算法
传统架构：提供1~8块GPU
UltraLAB合理推荐：
a.数据带宽：PCIe8x 3.0以上
b.数据容量：显存大小也很关键
c.计算匹配：CPU核-GPU卡 1对1
d.GPU卡加速：多卡提升并行处理效率

4 内存要求
主要任务：存放预处理的数据，待GPU读取处理，中间结果存放
UltraLAB合理推荐：
a.数据带宽最大化：单Xeon E5v4 4通道内存，双Xeon E5v4 8通道内存，内存带宽最大化
b.内存容量合理化：大于GPU总显存三）UltraLAB GXM图灵计算工作站介绍与配置推荐

针对上述深度学习应用计算特点，UltraLAB图灵工作站具有深度学习最合理硬件配置架构，保证整个机器是一台理想化异构超算系统，完美强大高效还静音，目前提供两种机型：GX480M和GX610M

3.1 图灵计算工作站技术规格

机型	硬件配置规格
机型	CPU	GPU	内存	存储
GX480M	单CPU架构，6核4.5GHz，8核4.3GHz，10核43GHz	最大6块GPU	最大256GB	并行存储，最大180TB
GX610M	双Xeon架构， 2Xeon E5 2637v4（共计8核3.5GHz） 2Xeon E5 2643v4（共计12核3.4GHz） 2*Xeon E5 2667v4（共计16核3.2GHz）	最大10块GPU	最大1TB	并行存储，最大180TB

技术规格一览表

（1）GX480M技术规格一览表

NO	主要项	技术规格
1	CPU	1颗intel 至尊处理器推荐型号：6850K OC（6核4.5GHz） 6900K OC（8核4.3GHz） 6950X OC（10核4.3GHz） Xeon E5 2687Wv4（12核3.0GHz）
2	芯片组	intel X99+PCH
3	内存	插槽：8个，规格：DDR4 2400 Reg ECC 最大容量：256GB（8根32GB）
4	GPU卡	数量：最大7个接口：PCIE 8x 3.0 GPU种类：Nvidia Geforce、Quadro、Tesla Intel Xeon Phi，AMD Firepro 备注：散热系统必须是主动式
5	系统盘	数量: 2块单盘容量：512GB/1TB/2TB/4TB SSD SATA-6Gbps接口，支持RAID1
	数据盘	数量：16块，单盘容量：4TB/6TB/8TB/10TB/12TB SATA 企业级，最大容量180TB（RAID5），PCIe 4x 2.0接口
6	光驱	DVD刻录
7	平台	型号UltraLAB S2AGDT01PCS 电源 1600w，数量1个（四块GPU卡）或2个（5个以上）机箱：双塔式机箱尺寸：深度658mm，宽度478mm，高度674mm 输出口: 2个千兆以太端口（可选万兆）， 4个USB 3.0口，2个USB2.0,1个VGA口硬盘位：16个3.5”热插拔，最大容量180TB PCI扩展槽：7个PCIe 16x
8	键盘鼠标	键盘：104键、有线、USB口，鼠标：1000dpi精度、光电、有线、USB口
9	显示器	23”图显（高清，可升降转向，数量2台）
10	整机优化	2.1 自动超频加速优化；* 2.2 高性能低延迟优化；*
11	操作系统	支持Window 7/8/10, Windows 2008/2012/2016 支持Ubuntu 全系列
12	支持深度学习框架	Nvidia GPU驱动程序，CUDA , Nvidia Digits, Nvidia cuDNN Caffe,Torch ,TensorFlow,CNTK,Theano, Chainer,DL4J,MXNet

（2）GX610M技术规格一览表

NO	主要项	技术规格
1	CPU	2颗Xeon E5 2600v4 推荐型号：Xeon E5 2637v4（4核3.5GHz） Xeon E5 2643v4 (6核3.4GHz) Xeon E5 2667v4（8核3.2GHz） Xeon E5 2687Wv4（12核3.0GHz）
2	芯片组	intel C612+PCH
3	内存	插槽：16个，规格：DDR4 2400 Reg ECC 最大容量：1TB（16根64GB）
4	GPU卡	数量：最大10个接口：PCIE 8x 3.0 GPU种类：Nvidia Geforce、Quadro、Tesla Intel Xeon Phi，AMD Firepro 备注：散热系统必须是主动式
5	系统盘	数量: 2块单盘容量：512GB/1TB/2TB/4TB SSD SATA-6Gbps接口支持RAID1
	数据盘	数量：16块，单盘容量4TB/6TB/8TB/10TB/12TB SATA 企业级，最大容量180TB（RAID5），PCIe 4x 2.0接口
6	光驱	DVD刻录
7	平台	型号UltraLAB S2AGDT01PCS 电源 1600w，数量1个（四块GPU卡）或2个（5个以上）机箱：双塔式机箱尺寸：深度658mm，宽度478mm，高度674mm 输出口: 2个千兆以太端口（可选万兆） 4个USB 3.0口，2个USB2.0,1个VGA口硬盘位：16个3.5”热插拔，最大容量180TB PCI扩展槽：10个PCIe 8x 3.0, 1个PCIe 4x 2.0
8	键盘鼠标	键盘：104键、有线、USB口，鼠标：1000dpi精度、光电、有线、USB口
9	显示器	23”图显（高清，可升降转向，数量2台）
10	整机优化	2.1 自动超频加速优化；* 2.2 高性能低延迟优化；*
11	操作系统	支持Window 7/8/10, Windows 2008/2012/2016 支持Ubuntu 全系列
12	支持深度学习框架	Nvidia GPU驱动程序，CUDA ,Nvidia Digits, Nvidia cuDNN，Caffe,Torch ,TensorFlow, CNTK,Theano,Chainer,DL4J,MXNet

3.2 产品特点
（1）集GPU超算、并行存储于一体的超级训练系统
基于办公环境，静音级
支持最大10块GPU超算，单精度浮点最大到120Tflops
配备高速并行存储（16个盘位），最大180TB容量
支持双Xeon E5v4高频处理器，加速密集预处理、高强度数据压缩等计算环节
拥有CPU+GPU完美的深度学习架构

（2）预装完整开发工具的硬件系统，帮助快速启动深度学习研究项目
基于GPU工作站系统，预装深度学习所需的软件：Nvidia 驱动程序，CUDA工具包，cuDNN，开源工具TensorFlow,Cafe，Torch，NVIDIA DIGITS等

3.3深度学习工作站硬件配置参考

（1）GX480M机型配置参考（超值型）
该机型特点：支持最大到6块GPU卡，CPU的频率达到极致，每个环节保证达到最理想性能，整体配置均衡无死角，满足深度学习训练硬件配置要求

NO	CPU	内存	GPU/总显存	单精度	系统盘	并行存储	平台	售价
1	6850K OC (6核4.5GHz)	32GB	1块GTX1080 8GB	8Tflops	512GB SSD	4TB	双塔单电	46500
2	6850K OC (6核4.5GHz)	32GB	2块GTX1080 16GB	16Tflops	512GB SSD	*24TB**	双塔单电	55000
3	6850K OC (6核4.5GHz)	64GB	3块GTX1080 24GB	24Tflops	512GB SSD	*34TB**	双塔单电	67500
4	6900K OC (8核4.3GHz)	64GB	4块GTX1080 32GB	32Tflops	1TB SSD	28TB	双塔单电	98000
5	6900K OC (8核4.3GHz)	96GB	6块GTX1080Ti 66GB	68Tflops	1TB SSD	36TB	双塔双电	149990

备注：含双23”高清图显

（2）GX610M机型配置参考（高性能型）
该机型特点：支持最大到10块GPU卡，CPU的频率和核数达到最大均衡，每个环节保证达到最高性能，整体配置均衡无死角，满足深度学习训练对配置的要求

NO	CPU	内存	GPU/总显存	单精度浮点	系统盘	并行存储	平台	售价
1	2*Xeon E5v4 8核3.5GHz	64GB	4块GTX1080 32GB	33Tflops	512GB SSD	28TB	双塔单电	111000
2	2*Xeon E5v4 12核3.4GHz	128GB	6块GTX1080Ti 66GB	68Tflops	1TB SSD	36TB	双塔单电	182000
3	2*Xeon E5v4 12核3.4GHz	192GB	8块GTX1080Ti 88GB	91Tflops	1TB SSD	44TB	双塔双电	215000
4	2*Xeon E5v4 16核3.2GHz	256GB	9块GTX1080Ti 99GB	102Tflops	1TB SSD	60TB	双塔双电	248000
5	2*Xeon E5v4 16核3.2GHz	512GB	9块GTX1080Ti 99GB	102Tflops	1TB SSD	120TB	双塔双电	310000
6	2*Xeon E5v4 16核3.2GHz	512GB	9块 Quadro P5000 144GB	79.74Tflops	2TB SSD	120TB	双塔双电	415000
7	2*Xeon E5v4 24核3.0GHz	512GB	9块 Quadro P6000 216GB	107.8Tflops	2TB SSD	150TB	双塔双电	735000

备注：含双23”高清图显

关于GPU计算卡主要型号参考

No	型号	显存	流处理器SP	显存带宽 (GBs)	浮点计算指标 TFLOPs (单精度)	功耗	备注
1	Quadro P6000	24GB	3840	432	11.98	250w	显存和性能最大
2	Quadro P5000	16GB	2560	288	8.86	180w	显存更大
3	TITAN X	12GB	3584	480	10.97	250w
4	GTX1080Ti	11GB	3584	484	11.33	250w	性价比高
5	GTX1080	8GB	2560	320	8.22	180w	超值
6	GTX1070	8GB	1920	256	5.78	150w	超值

UltraLAB GXM在深度学习模型训练领域

除了热门的语音识别、图像识别、自然语言处理(机器翻译)外，更多应用

制造业	生产管理，事故预防，技术更新，不合格产品预判
医疗与护理	影像诊断，用药管理
零售，饮食，食品	自动记账，库存控制，店面防盗预防，内部检测，污染检测，可疑人物检测
安全监控	电梯监控，设备监控，店面监控
建筑与房地产	工程管理，事故预防，房地产信息查询，设施监控
农业与海洋	浇水附加肥料，除草和培育作物管理和病虫害防治，野生动物损害控制，水质监测管理，饲养和运输调整，航运
仓储与物流	库存管理，事故预防，转运和设备维护，异常监测
广告与营销	客户响应分析，客户行为分析

总结
UltraLAB GXM是一款静音级超级异构计算能力的深度学习训练计算机，比市面上的机器，更安静，性能更强大，适合科研、研究部门在安静的办公环境下运行。

此外，该机型用途极广，扩展能力强，调整配置后，可为电磁仿真计算（CST）、量子化学/分子动力学计算（VASP、AMBER等）、超大屏拼接（8X9=72路视频拼接合成）、视频剪辑合成、指纹识别等应用，提供强悍的计算、图形生成能力

账号		自动登录	找回密码
密码			注册