博威---云架构决胜云计算

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 4397|回复: 3

最新显卡RTX3090、RTX3080ti、RTX3080详细技术参数与应用加速分析(修正)

[复制链接]
发表于 2021-8-14 06:03:43 | 显示全部楼层 |阅读模式
最新显卡RTX3090、RTX3080ti、RTX3080详细技术参数与应用加速分析(修正)



地球最强--支持6块RTX3090静音级深度学习工作站硬件配置

http://www.xasun.com/article/95/2442.html






nvidia 的Amper(安倍)架构显卡上市,和上一代Turing(图灵)架构显卡相比,性能提升显著

技术参数对比表:


关键指标 

RTX

3090

RTX

3080

RTX

3070Ti

Titan RTX

RTX

2080Ti

备注

GPU 基频MHz

1410

1410

1410

1350

1350


GPU自动超频MHz

1695

1710

1695

1770

1545


内存等效频率MHz

19496

19000

16000

14000

14000


CUDA

10496

8704

6144

4608

4352

关键指标

TMUs紋理單元

328

272

192

288

272


ROPs光珊單元

112

96

64

96

88


Tensor核数

328

272

192

576

544

深度学习关键指标

RT核数

82

38

48

72

68


显存

24GB

10GB

16GB

24GB

11GB

关键指标

显存位宽bits

384

320

256

384

352


显存带宽GBs

936

760

512

672

616

关键指标

像素填充率GPs

163

150

108

170

136

图形生成指标

纹理填充率

556

465

325

510

420


半精度FP16

Tflops

35.58

29.77

20.83

32.62

26.90

深度学习性能指标

单精度FP32

Tflops

35.58

29.77

20.83

16.31

13.45

时域/显式计算指标

功耗W

350

320

250

280

250


实际功耗

400

360

280

315

315


供电口

1x12-pin

2x8-pin

1x8-pin

2x8-pin

2x8-pin




新卡上市时间:

RTX3080 10GB  2020年9月17号

RTX3090 24GB  2020年9月24号

RTX3070 8GB  2020年10月

RTX3080 20GB  2020年

RTX3070Ti 16GB  2020年

第二代RTX卡对UltraLAB图形工作站在下面应用,有什么提升呢

1 科学与仿真计算方面
  1.1 基于时域算法的电磁仿真计算提升,相关机型:GT410P、GX630M、Alpha730
  1.2 基于GPU加速的分子动力模拟提升,相关机型:GX630M

显卡推荐:单精度浮点指标性价比最高的RTX3080Ti

2  3D图形设计方面
  2.1 3D模型实时生成与即时渲染   相关机型:H380

显卡推荐:像素填充率、显存带宽两者兼顾,RTX3090、RTX3080Ti

3  图像处理方面
  3.1 无人机航拍影像处理、倾斜摄影建模, 相关机型:H380

显卡推荐:像素填充率、显存带宽两者兼顾,RTX3080、RTX3080Ti


4  视景仿真方面
  4.1 大型三维场景、科学可视化、三维GIS应用,相关机型:V390

显卡推荐:像素填充率、显存带宽两者兼顾,RTX3090、RTX3080Ti


5  影视后期方面
  5.1 4K/6K/8K视频编解码计算,相关机型:GT400M
  5.2 3D渲染计算加速,相关机型:H390、GT400M

显卡推荐:像素填充率、显存带宽两者兼顾,RTX3090、RTX3080Ti


6  深度学习和大数据分析方面
  6.1 基于CNN算法的计算机视觉应用加速,相关机型:GX630M

显卡推荐:半精度浮点指标、Tensor核数性价比最高,RTX3080Ti、RTX3070Ti

应用于深度学习,可能问题:

(1)功耗问题  新卡的功耗比上一代升幅巨大,RTX3090/RTX3080Ti实际功耗到400w以上,对基于GX630M机型,支持8块GPU卡,可能成为历史,GX630M配备的双2000w电源,也不够用,

(2)散热问题  上一代GPU卡配备涡轮风扇,多卡并行间距空间很窄,进气散热也不错,但是新GPU因为功耗大幅提升,只能用双风扇以上的散热架构,多卡并行原设计间距势必增大

因此,综合上面两个原因,图灵超算工作站GX630M可能支持最多6块卡RTX3090/RTX3080Ti


最新的UltraLAB图形工作站基准配置近期推出

 楼主| 发表于 2021-8-14 06:06:17 | 显示全部楼层
深度学习训练与推理计算平台硬件配置完美选型2020v1时间:2020-02-17   来源:   网友评论:0   人气: 2600 作者:



支持6块RTX3090静音级深度学习工作站硬件配置方案2020v4


人工智能随着核心算法、计算能力的迅速提升,以及海量联网数据的支持,在本世纪终于迎来了质的飞跃,人工智能将是未来应用最广泛的技术之一,在市场经济领域带来更多的机遇与机会,在医学领域可以大大加快诊断速度和准确性,在军事领域人工智能武器将成为未来武器的王牌……

(一)了解深度学习算法
深度学习两个主要过程:训练(Training)和推理(Inference)。其中:
训练(Training)是将大量数据加载到机器中并分析数据以建立用于分类,识别,预测等的模式的过程(已建立的模式称为训练后的模型),训练需要高速密集并行计算---“高性能计算”


任务领域

原始输入

浅层特层
中层特征
高层特征

训练目标

语音

样本

频段
声音

音调  
音素
单词

语音识别

图像

像素

线条  纹理
图案
局部
物体

图像识别

文本

字母

单词
词组
短语
段落
文正

语义理解

推理(Inference)是将未知数据输入到通过学习过程创建的训练模型中,然后根据已建立的模式对数据进行实际分类,识别和预测的过程,推理需要快速将推理结果转化为行动—“边缘计算”、实时要求高

深度学习是指多层神经网络上运用各种机器学习算法解决图像、文本、语音等各种问题的算法集合


典型算法

应用领域

CNN卷积神经网络

计算机视觉医学图像分析、图像识别、面部检测、识别系统、全动态视频分析,自动驾驶,卫星图像

药物发现、推荐引擎、游戏

RNN递归神经网络

变体:LSTM、GRU、NTM、双向RNN

自然语言处理(NLP)机器翻译、情感处理,语言生成,文本分类和句子完成:

时间序列预测股票预测、金融工程,应用物理、医学医药

顺序图像处理:图像分类、图像字幕

分割的手写识别、语音识别

问题解答系统,机器人控制,

DBN深度信念网络

图像识别、信息检索、自然语言理解、故障预测

DSN深度堆栈网络

信息检索、连续语音识别

GAN生成对抗网络

图像样式转换,高分辨率图像合成,文本到图像合成,图像超分辨率[例如小剂量PET重建,异常检测,3D对象生成[例如牙齿修复],音乐生成,科学模拟加速度(例如天体物理学或高能物理

Autoencoder自动编码器

推荐系统,图像重构、聚类、机器翻译,异常值检测、数据去噪(图像、音频),图像修复,信息检索


(二)深度学习主流算法计算特点

2019年,Nvidia(英伟达)公司上市Turing架构的RTX系列的GPU卡,增加了Tensor张量计算单元,大幅提升了深度学习关键的矩阵乘法计算、卷积计算(借助张量Tensors),GPU卡性能的关键指标:Tensor张量核数、显存带宽、FP16/FP32计算精度

目前可选GPU型号(2020年1季度)的主要技术参数


型号

CUDA

张量

核数

显存1

显存带宽2

张量计算3

FP16半精度计算4

FP32单精度计算5

Quadro GV100

5120

640

32

870

133

33.32

16.66

Quadro RTX8000

4608

576

48

672

130

32.62

16.31

Quadro RTX6000

4608

576

24

672

130

32.62

16.31

Titan RTX

4608

576

24

672

130

32.62

16.31

TITAN V

5120

640

12

651

119

29.80

14.90

TESLA V100

5120

640

16

897

113

28.26

14.13

RTX2080Ti

4352

544

11

616

108

26.90

13.45

Quadro RTX5000

3072

384

16

448

89

22.30

11.15

RTX2080S

3072

368

8

496

85

22.30

11.15

TESLA T4

2560

320

16

320

65

65.13

8.14

RTX2070S

2560

288

8

448

65

18.12

9.06

Quadro RTX4000

2304

288

8

416

57

14.24

7.12

RTX2060S

2176

272

6

336

57

14.36

7.18

标注1 显存单位GB,标注2 显存带宽单位GB/s,标注3-5 单位Tflops(每秒万亿次)

应用1  CNN(卷积神经网络)计算特点
这类应用主要是计算机视觉应用,计算机获得对图像的高级“理解”。为了评估模型是否真正“理解”了图像,研究人员开发了不同的评估方法来衡量性能
主要算法:卷积神经网络(CNN)


  • CNN主要模型:AlexNet,VGG,GoogleNet, ResNet, Inception 等
  • 主流深度学习框架:Theano、Caffe、MXNet、TensorFlow、Torch/Pytorch
  • CNN多GPU并行计算特点:非常理想

利用GPU加速主要是在conv(卷积)过程上,conv过程可以像向量加法一样通过CUDA实现并行化。具体的方法很多,最好的是用FFT(快速傅里叶变换)进行快速卷积,NVIDIA提供了cuFFT库实现FFT,复数乘法则可以用cuBLAS库里的对应的level3的cublasCgemm函数。

GPU加速的基本准则就是“人多力量大”。CNN说到底主要问题就是计算量大,但是却可以比较有效的拆分成并行问题。随便拿一个层的filter来举例子,假设某一层有n个filter,每一个需要对上一层输入过来的map进行卷积操作。那么,这个卷积操作并不需要按照线性的流程去做,每个滤波器互相之间并不影响,可以大家同时做,然后大家生成了n张新的谱之后再继续接下来的操作。既然可以并行,那么同一时间处理单元越多,理论上速度优势就会越大。所以,处理问题就变得很简单粗暴,就像NV那样,暴力增加显卡单元数(当然,显卡的架构、内部数据的传输速率、算法的优化等等也都很重要)。

GPU计算性能出众的根本原因是处理矩阵算法能力的非常强大,CNN中涉及大量的卷积,也就是矩阵乘法等,所以在这方面具有优势,GPU上的TFLOP是ResNet和其他卷积架构性能的最佳指标。Tensor Core可以显着增加FLOP,使用卷积网络,则应首先确定具有高GPU张量计算能力的优先级,然后分配高FLOPs的CUDA数量,然后分配高内存带宽,然后分配具有FP16位精度数据

  • CNN硬件配置要点:Tensors> FLOP> 显存> 半精度计算(FP16)

GPU可选型号:


No

型号

CUDAs

Tensors

显存1

显存带宽2

张量计算3

F16半精度4

F32单精度5

1

Quadro GV100

5120

640

32

870

133

33.32

16.66


Quadro RTX8000

4608

576

48

672

130

32.62

16.31


Quadro RTX6000

4608

576

24

672

130

32.62

16.31


Titan RTX

4608

576

24

672

130

32.62

16.31

2

TITAN V

5120

640

12

651

119

29.80

14.90


TESLA V100

5120

640

16

897

113

28.26

14.13


RTX2080Ti

4352

544

11

616

108

26.90

13.45

3

Quadro RTX5000

3072

384

16

448

89

22.30

11.15


RTX2080S

3072

368

8

496

85

22.30

11.15

4

TESLA T4

2560

320

16

320

65

65.13

8.14


RTX2070S

2560

288

8

448

65

18.12

9.06


Quadro RTX4000

2304

288

8

416

57

14.24

7.12


RTX2060S

2176

272

6

336

57

14.36

7.18

标注1—单位GB,标注2—单位GB/s, 标注3~5 ---单位TFlops

说明:



GPU卡型号

显存

计算规模

说明

1

RTX2070s

RTX2080s

RTX2080ti

8GB

8GB

11GB

小型模型开发

较小的GPU内存占用空间,

高吞吐量工作负载应用

涡轮式散热,单台工作站中最多配置8个

2

Titan RTX

24GB

中等模型开发

大显存支持使用更大的批处理

需要训练大型计算机视觉模型,TITAN RTX可以做到。

最多4块,不支持密集地装进工作站

3

RTX6000

24GB

中大等规模开发

配备涡轮风扇,支持密集安装

支持单机最大9块

4

RTX8000

48GB

超大规模

拥有所有NVIDIA GPU中最大的内存容量,

配备涡轮风扇,支持密集安装

支持单机最大9块



应用2  RNN(循环神经网络)计算特点
这类典型应用主要是自然语言处理(NLP),包括语音识别,语言翻译,语音转文本和Q&A系统。

  • 主要算法:RNN(包括变体: LSTM、GRU、NTM、双向RNN等)、Transformer
  • 主流框架:CNTK、Torch/PyTorch、Keras
  • 多GPU并行计算: 不明确,跟程序设计、算法、框架、SDK以及具体应用都有很大关系,一些应用CPU多核并行反倒更快。

RNN和LSTM的训练并行计算是困难的,因为它们需要存储带宽绑定计算,这是硬件设计者的噩梦,最终限制了神经网络解决方案的适用性。简而言之,LSTM需要每个单元4个线性层(MLP层)在每个序列时间步骤中运行。线性层需要大量的存储带宽来计算,事实上,它们不能使用许多计算单元,通常是因为系统没有足够的存储带宽来满足计算单元。而且很容易添加更多的计算单元,但是很难增加更多的存储带宽(注意芯片上有足够的线,从处理器到存储的长电线等)

GPU内存非常重要,因为诸如XLNet和BERT之类的transformer网络需要大量的内存才能达到最高的精度,考虑矩阵乘法A*B=C的一种简单有效的方法是受内存(显存)带宽限制:将A,B的内存复制到芯片上比进行A * B的计算要昂贵。这意味着如果您要使用LSTM和其他执行大量小矩阵乘法的循环网络,则内存(显存)带宽是GPU的最重要功能。矩阵乘法越小,内存(显存)带宽就越重要,介于卷积运算和小型矩阵乘法之间的transformer在整体求解过程环节中并行效率低,加快方式提升显存带宽和足够的显存容量

  • RNN硬件配置要点: 显存带宽+显存> 半精度计算(FP16) > Tensors> FLOP

GPU可选型号


No

型号

CUDAs

Tensors

显存1

显存带宽 2

张量计算3

F16半精度4

FP32单精度5

1

TESLA V100

5120

640

16

897

113

28.26

14.13


Quadro GV100

5120

640

32

870

133

33.32

16.66

2

Quadro RTX8000

4608

576

48

672

130

32.62

16.31


Quadro RTX6000

4608

576

24

672

130

32.62

16.31


Titan RTX

4608

576

24

672

130

32.62

16.31


TITAN V

5120

640

12

651

119

29.80

14.90


RTX2080Ti

4352

544

11

616

108

26.90

13.45

3

RTX2080S

3072

368

8

496

85

22.30

11.15


Quadro RTX5000

3072

384

16

448

89

22.30

11.15


RTX2070S

2560

288

8

448

65

18.12

9.06


Quadro RTX4000

2304

288

8

416

57

14.24

7.12

4

RTX2060S

2176

272

6

336

57

14.36

7.18


TESLA T4

2560

320

16

320

65

65.13

8.14


说明



GPU卡型号

显存

可选

说明

1

RTX5000

16GB

Good

拥有16GB显存,

2

Titan RTX

24GB

Better

支持NVLink桥接,加速训练更大的NLP网络模型,


RTX6000

24GB

Better

类似TITAN RTX性能指标,

涡轮散热设计允许密集配置,支持单机最大9块卡扩展

3

Quadro GV100

32GB

Best

拥有最高的显存带宽870GB/s和最高的张量算力

3

RTX8000

48GB

Best

拥有最大48GB显存,是NLP的最佳GPU

涡轮散热设计允许密集配置,支持单机最大9块卡扩展



(四)深度学习计算系统平台配备

4.1深度学习框架对比


框架

重点应用

编程语言

多GPU速度

深度学习主要算法

CNN

RNN

/LTSM

GAN

RBM/

DBN

TensorFlow

自然语言处理,文本分类/摘要,语音/图像/手写识别,预测和标记

Python

C++

R语言

++

+++

++


支持

Caffe

视觉识别

C,C++,Python,Matlab

+

++



CNTK

手写和语音识别.处理图像

C++,Python

++

+

+++

支持


PyTorch

处理图像,手写和语音识别

CUDA,C/C++

+++

+++

++

支持

支持

MXNet

图像,手写/语音识别,预测和NLP

Python,R,C++

Julia,CUDA

+++

+++

+

支持


Chainer

情感分析,机器翻译,语音识别

CUDA


支持

支持



Keras

分类,文本生成和摘要,标记和翻译,以及语音识别

Python


支持

支持



DL4J

图像识别,欺诈检测,文本挖掘,词性标记和自然语言处理

Java


支持

支持

支持

Theano


Python

+

++

++




4.2 深度学习开发库SDK
开发环境:CUDA Toolkit
训练SDK:cuDNN (7.0版本支持Tensor Core)、NCCL、cuBLAS、cuSPARSE
推理SDK:TensorRT(版本3.0支持Tensor Core)、DALI

4.3 深度学习操作系统
操作系统:Windows 10 Pro 64位+ Ubuntu 18.04或RHEL 7.5
容器:Docker 18.06.1,NVIDIA Docker运行时v2.0.3
容器:RAPIDS容器


(五)深度学习计算硬件配置推荐

打造一个快速高效的深度学习计算平台,涉及到多方面因素:
(1)超算硬件设备-—GPU、CPU、内存、硬盘io…
(2)深度学习算法---CNN、RNN…
(3)深度学习框架---Tensorflow、PyTorch…
(4)开发库SDK---CUDA、cuDNN…
(5)程序设计算法优化—-张量单元、FP16精度数据计算、针对算法SDK优化、多卡并行优化算法…

5.1 深度学习工作站配置推荐(科研类)
机型:UltraLAB GX380i/GT410
支持2~4块GPU卡
配备nvidia RTX---配置张量计算单元Tensor,支持intel AVX-512


No

产品型号

主要配置

FP16半精度性能

显存带宽

显存

理想算法

价格

1.1

GX380i 14932-SA2X

intel第9代处理器(6核@4.9Ghz
)/32GB DDR4 /2*RTX2070s/960GB SSD /4TB SATA/微塔式(2000w)/23"图显

36Tops

448GB/s

16GB

CNN

29,990

1.2

GX380i 14964-SB2X

intel第9代处理器(6核@4.9Ghz)/64GB DDR4/ 2*RTX2080Ti/1.9TB SSD/4TB SATA/微塔式(1200w)/23"图显

54Tops

616GB/s

22GB

CNN

49,990

1.3

GX380i 14964-SB2D

intel第9代处理器(6核@4.9Ghz) /64GB DDR4 / 2*RTX5000/1.9TB SSD/6TB SATA/微塔式(2000w)/23"图显

45Tops

448GB/s

32GB

RNN

69,990

1.4

GX380i 14996-SB2T

intel第9代处理器(8核4.9Ghz) /96GB DDR4 / 2*Titan RTX /1.9TB SSD/6TB SATA/微塔式(2000w)/23"图显

65Tops

672GB/s

48GB

CNN+ RNN

97,500

1.5

GX380i 15096-SB2T

intel第9代处理器(8核5.0Ghz) /128GB DDR4 /2*Quadro GV100 /960TB SSD+2TB M2.SSD /6TB SATA/微塔式(2000w)/23"图显

67Tops

870GB/s

64GB

RNN

169,990

1.6

GT410i 14664-SB4X

intel第10代至尊处理器(10核4.6Ghz) /64GB DDR4 /4*RTX2080s /1.92TB SSD/4TB SATA/微塔式(2000W)/23"图显

89Tops

496GB/s

32GB

CNN

69,990

1.7

GT410i 14596-SB4X

intel第10代至尊处理器(12核4.5Ghz
) /96GB DDR4 /4*RTX2080Ti /1.92TB SSD /6TB SATA/微塔式(2000W)/23"图显

108Tops

616GB/s

44GB

CNN

89,990

1.8

GT410i 145192-SC4E

intel第10代至尊处理器(12核4.5Ghz
) /192GB DDR4 /4*RTX6000/ 3.84TB SSD/10TB SATA/微塔式(2000W)/23"图显

131Tops

672GB/s

96GB

CNN+ RNN

210,000

1.9

GT410i 142256-SC4F

intel第10代至尊处理器(18核4.2Ghz
) /256GB DDR4 /4*RTX8000/3.84TB SSD/10TB SATA/微塔式(2000W)/23"图显

131Tops

672GB/s

192GB

RNN

330,000

1.10

GT410i 142256-SC4G

intel第10代至尊处理器(18核4.2Ghz
) /256GB DDR4/4*Qudro GV100/3.84TB SSD /10TB SATA/微塔式(2000W)/23"图显

133Tops

870GB/s

64GB

RNN

350,000


5.2 深度学习工作站配置推荐(高性能类)
机型:UltraLAB GT410P
支持支持5~7块GPU



No

产品型号

主要配置

FP16半精度性能

显存带宽

显存

理想算法

价格

2.1

GT410P 14696-SB5X

intel第10代至尊处理器      (10核4.6Ghz)96GB DDR4 /5*RTX2080s/1.92TB SSD+6TB SATA /双塔式(双2000w)/27"-4K图显

112Tops

496GB/s

40GB

CNN

97,000

2.2

GT410P 14596-SB6X

intel第10代至尊处理器      (12核4.5Ghz)96GB DDR4 /6*RTX2080s/1.9TB SSD+ 8TB SATA /双塔式(双2000w)/27"-4K图显

134Tops

496GB/s

48GB

CNN

108,000

2.3

GT410P 145128-SB7X

intel第10代至尊处理器      (12核4.5Ghz)128GB DDR4 /7*RTX2080s/1.9TB SSD+ 10TB SATA/ /双塔式(双2000w)/27"-4K图显

156Tops

496GB/s

56GB

CNN

118,000

2.4

GT410P 145192-SC7X

intel第10代至尊处理器      (12核4.5Ghz)192GB DDR4 /7*RTX2080Ti
3.84TB SSD+ 8TB SATA/ 双塔式(双2000w)/27"-4K图显

188Tops

616GB/s

77GB

CNN

148,000

2.5

GT410P 145192-SC5T

intel第10代至尊处理器      (12核4.5Ghz)192GB DDR4 /5*Titan RTX/3.84TB SSD+ 10TB SATA/双塔式(双2000w)/27"-4K图显

163Tops

672GB/s

120GB

CNN+ RNN

228,000

2.6

GT410P 142256-SC7E

intel第10代至尊处理器      (18核4.2Ghz)256GB DDR4 /7*RTX6000/3.84TB SSD+ 14TB SATA/双塔式(双2000w)/27"-4K图显

228Tops

672GB/s

168GB

CNN+ RNN

370,000

2.7

GT410P 142256-SC7F

intel第10代至尊处理器      (18核4.2Ghz)256GB DDR4 /7*RTX8000/3.84TB SSD+ 14TB SATA/双塔式(双2000w)/27"-4K图显

228Tops

672GB/s

240GB

RNN

535,000


5.3 深度学习工作站配置推荐(超级类)
机型:UltraLAB GX630M)
支持8~9块GPU



No

产品型号

主要配置

FP16半精度性能

显存带宽

内存/显存

理想算法

价格

3.1

GX630M 237192-MB9X

2*Xeon金6234(16核3.7GHz)/  睿频4GHz /192GB DDR4 /9*RTX2080s/960GB SSD+2TB M2.SSD/28TB存储/双塔/27"-4K图显

201Tops

496GB/s

40GB

CNN

199,990

3.2

GX630M 243192-MB8X

2*Xeon金6244(16核4.3GHz)/  睿频4.3GHz /192GB DDR4 /8*RTX2080Ti/1.9TB SSD+2TB M2.SSD/42TB存储/双塔/27"-4K图显

215Tops

616GB/s

88GB

CNN

245,000

3.3

GX630M 241384-60T7T

2*Xeon金6246(24核4.1GHz)/  睿频4.2GHz /384GB DDR4 /7*Titan RTX/3.84TB SSD /60TB并行存储/双塔/27"-4K图显

228Tops-

672GB/s

168GB

CNN+ RNN

399,990

3.4

GX630M 241384-42T8E

2*Xeon金6246(24核4.1GHz)/  睿频4.2GHz /384GB DDR4 /8*RTX6000/1.92TB SSD+2TB M2.SSD/42TB并行存储/双塔/32"-4K图显

261Tops

672GB/s

192GB

CNN+ RNN

499,990

3.5

GX630M 239768-150T8F

2*Xeon金6254(36核3.9GHz)/  睿频4.0GHz /768GB DDR4 /8*RTX8000/3.84TB SSD+3.2TB P-SSD/150TB并行存储/双塔/32"-4K图显

261Tops

672GB/s

384GB

CNN+
RNN+
推理

750,000

3.6

GX630M 235768-210T8G

2*Xeon白金8268(48核3.5GHz)/睿频3.9GHz
/768GB DDR4 /
8*QGV100 /3.84TB SSD /6.4TB P-SSD/210TB并行存储/双塔/32"-4K图显

266Tops

870GB/s

256GB

CNN+
RNN+
推理

850,000

3.7

GX630M 2331T-266T9F

2*Xeon白金8280(56核3.3GHz/ 睿频4.0GHz /1TB DDR4 /9*RTX8000/3.84TB SSD系统盘/6.4TB P-SSD/266TB并行存储/双塔/32"-4K图显

293Tops-地球最强

672GBs

432GB

CNN+
RNN+
推理

999,990




UltraLAB图形工作站供货商:
西安坤隆计算机科技有限公司
国内知名高端定制图形工作站厂家
业务电话:400-705-6800


咨询微信号:

 楼主| 发表于 2021-8-14 06:07:14 | 显示全部楼层
回复 2# network

为什么UltraLAB深度学习工作站最快、性价比最高时间:2017-06-16   来源:   网友评论:0   人气: 4207 作者:



目录
1    市场深度学习硬件配置严重缺陷
2    最合理深度学习硬件架构分析
3    UltraLAB 深度学习超级计算机完美配置推荐


2018年6月最新深度学习基准配置报价下载(直接点击)


(一)市场上提供的深度学习硬件配置有严重缺陷

深度学习太火了,卖深度学习的计算机、服务器、工作站,五花八门,到处都是卖家,到处都是专家,似乎,只要机器里能插GPU,插的越多性能越强,实际情况是:



反馈1: 为什么4块GPU机器,比人家2块GPU机器还慢
反馈2: 为什么同样8块GPU比人家8块GPU卡,还慢
反馈3: 为什么2块GPU卡,一个快一个慢
反馈4: 为什么这么多GPU卡,计算过程还是很慢
反馈5: 我的机器噪音巨大,无法放到办公环境,怎么在静音环境下运行

误区1:只要有足够多GPU卡,性能更强大
误区2:同样数量GPU卡,谁便宜、谁性价比更高,就最好选择
误区3:CPU核数,频率不重要,把钱砸到GPU上就行
误区4:硬盘和内存不重要,最重要的是GPU卡越多越好

困惑1: 上述反馈是什么原因造成的?
困惑2:市场谁家能给出更好的配置架构

问题来了,深度学习需要什么样的硬件配置才是最合理,最高效的


 
(二)深度学习硬件架构分析

首先一定从深度学习计算过程分析开始




上述图示,深度神经网络计算大致流程,下面通过深度神经网络计算环节,分析核心硬件配置理想要求



环节

主要操作

涉及硬件

瓶颈

配置推荐

1

数据调入

硬盘->内存

硬盘io是最大瓶颈

GPU和硬盘数量1:1

硬盘io越高越好

2

数据预处理

CPU(单核计算模式)

计算量巨大

CPU频率越高,处理越快

3

内存->显存->计算

GPU

计算量巨大

增加GPU,CPU核数大于GPU数量,内存比显存大

4

数据结果->内存

内存

5

数据保存

硬盘

硬盘io

用SSD或多硬盘



常见计算机硬件配置上的低级错误:
1.为了省钱,硬盘用普通PC硬盘,寿命短,带宽低,或数量不够,
2. 为了节省,CPU用的最多的是Xeon E5 2620v(8核2.1GHz),频率太低,数据预处理太慢,成为整个计算的最大瓶颈,
3.为了把钱用到“刀刃上”—尽可能多配GPU卡,但是总显存比内存容量大,不合理,或者CPU核数低于GPU卡数,这些都会造成计算过程资源耗尽,数据来回从虚拟内存导入,计算变慢


(三)深度学习计算机、工作站最理想的硬件配置推荐

针对上述深度学习计算过程、低级配置错误分析,深度学习最合理硬件配置架构,保证整个机器是一台理想化异构超算系统,完美强大高效还静音

UltraLAB GXi/M图灵计算工作站是西安坤隆计算机公司2017年上半年推出的、目前市场上一款集多GPU超算、超高频率处理器、海量存储于一体、基于办公静音环境、应用于深度学习(机器学习、人工智能)的AI超级计算机系统。

和市面上深度学习计算机系统相比,显著优势:

  • 拥有超高CPU频率,大幅加速深度学习预处理过程
  • 支持最大4块(GX360i)/7块(GX480M)/9块(GX610M)GPU卡,单精度浮点100Tflops
  • 拥有最大16个硬盘位,容量160TB,
  • 完全处于办公环境(静音级)、不在被噪音所困扰
  • 不需要专门的机房,不占过多空间,维护成本极低
  • 完美的硬件配置和专业优化加速技术,保证整个机器系统高速高效运转


3.1 图灵计算工作站技术规格



机型

硬件配置规格

CPU

GPU

最大内存

存储

GX360i

单CPU架构

4核4.8GHz~5GHz

最大4块

64GB

并行存储

最大40TB

GX480M

单CPU架构

6核4.5GHz

8核4.3GHz

最大7块GPU

256GB

并行存储,

最大180TB

GX610M

双Xeon架构

2*Xeon E5 2689v4

(共计8核3.5GHz)

最大9块

1TB

并行存储,

最大180TB




3.2深度学习工作站硬件配置参考

(1)    GX360i机型配置参考(超值型)




该机型特点:支持4块GPU卡,CPU频率高达5GHz,整体配置均衡无死角,满足深度学习训练硬件配置要求



NO

CPU

内存

GPU/总显存

单精度

系统盘

并行存储

平台

售价

1

7600K OC
(
4核4.8GHz)

16GB

2块GTX1080

8GB

16Tflops

256GB SSD

1TB

塔式

36500

2

7700K OC
(
4核4.9GHz)

32GB

4块GTX1080 32GB

33Tflops

512GB SSD

4*1TB

塔式

58500

3

7700K OC
(
4核5.0GHz)

64GB

4块GTX1080Ti

44GB

45Tflops

512GB SSD

4*4TB

双塔单电

69000


备注:含23”高清图显


(2)    GX480M、GX610M机型配置参考(高性能型)





该机型特点:支持最大到7块(GX480M)或9块(GX610M)GPU卡,CPU的频率和核数达到最大均衡,每个环节保证达到最高性能,整体配置均衡无死角,满足深度学习训练对配置的要求


NO

CPU

内存

GPU/总显存

单精度浮点

系统盘

并行存储

平台

售价

1

6850K OC

(6核4.5GHz)

64GB

5块GTX1080Ti
55
GB

56Tflops

1TB SSD

5*1TB

双塔双电

94500

2

6900K

(8核4.3GHz)

96GB

6块GTX1080Ti
66GB

68Tflops

1TB SSD

6*1TB

双塔双电

115000

3

6900K

(8核4.3GHz)

128GB

7块GTX1080Ti 77GB

79Tflops

1TB SSD

7*1TB

双塔双电

128000

4

2*Xeon E5v4

(20核3.1GHz,睿频3.8GHz)

128GB

8块GTX1080Ti 88GB

90Tflops

1TB SSD

8*1TB

双塔双电

159000

5

2*Xeon E5v4

(20核3.1GHz,睿频3.8GHz)

128GB

9块GTX1080Ti 99GB

101Tflops

1TB SSD

9*1TB

双塔双电

169000


备注:含23”高清图显


总结
UltraLAB GXi/M是一款静音级、真正高性能GPU超算的深度学习训练计算机,比市面上的机器,更安静,性能更强大,适合科研、研究部门在安静的办公环境下运行。

此外,该机型用途极广,扩展能力强, 调整配置后,可为电磁仿真计算(CST)、量子化学/分子动力学计算(VASP、AMBER等)、超大屏拼接(8X9=72路视频拼接合成)、视频剪辑合成、指纹识别等应用,提供强悍的计算、图形生成能力



 楼主| 发表于 2021-8-14 06:09:03 | 显示全部楼层
回复 3# network
地表最强深度学习训练平台~UltraLAB GPU硬件选型时间:2017-04-17   来源:   网友评论:0   人气: 2388 作者:



目录
1 深度学习训练平台与理想计算架构
2 深度神经网络计算特点与硬件配置分析
3 UltraLAB GXM图灵工作站与配置推荐


2018年8月最新深度学习基准配置报价下载(直接点击,GPU更新为RTX2080/2080Ti)



(一)深度学习训练平台现状与完美计算架构

深度神经网络(DNN)计算数据模型繁多,结构复杂,主流模型含几十个隐含层,每层都在上千上万级的神经元,整个网络更多,其计算量巨大,

市场上用于深度学习的训练计算机大致情况,
(1)服务器/工作站(支持2、4、8块GPU架构):普遍存在噪音大,无法放置于办公环境,必须放到专门的机房,维护成本高,另外数据存储带宽、延迟、容量也不尽如意
(2)分布式集群架构:性能强大,但是开发成本太高,是大多数科研单位无法承受

那么问题来了,市场上是否有一个理想产品,弥补上述缺陷,让更多单位都能用的起~人工智能AI超级异构计算机




UltraLAB GXM图灵计算工作站是西安坤隆计算机公司2017年上半年推出的、目前市场上一款集GPU超算、海量存储于一体、基于办公静音环境、应用于深度学习(机器学习、人工智能)的AI超级计算机系统。

和市面上深度学习计算机系统相比,显著优势:

  • 完全处于办公环境(静音级)、不在被噪音所困扰
  • 配备基于PCIe总线的海量高速并行存储(最大容量180TB),延迟低,支持最大15个并行读,硬盘io性能大幅提升,性能和管理远超传统的DAS/NAS存储系统
  • 配备超级强大的计算能力,最大10个GPU卡,3.82万计算核,单精度浮点120Tflops
  • 不需要专门的机房,不占过多空间,维护成本极低
  • 不需要作业调度系统,管理难度大幅降低



(二)深度神经网络计算特点与硬件配置分析

市场上大部分GPU计算机(服务器/工作站),重点都放在GPU卡数量上,似乎只要配上足够GPU卡,就可以了,实际情况是,机器硬件配置还需要整体均衡,只有这样这台机器性能才能更好的发挥



上述图示,深度神经网络计算大致流程,下面通过深度神经网络计算环节,分析核心硬件配置理想要求

1.数据存储要求
做深度学习首先需要一个好的存储系统,将历史资料保存起来
主要任务:历史数据存储,如:文字、图像、声音、视频、数据库等。。。
性能要求:
a.数据容量:提供足够高的存储能力,
b.读写带宽:多硬盘并行读写架构提高数据读写带宽
c.接口:高带宽,同时延迟低

传统解决方式:专门的存储服务器,借助万兆端口访问
缺点:带宽不高,对深度学习的数据读取过程时间长(延迟大,两台机器之间数据交换),成本高

UltraLAB解决方案:将并行存储直接通过PCIe接口,提供最大16个硬盘的并行读取,数据量大并行读取要求高,无论是总线还是硬盘并行带宽,都得到加大提升,满足海量数据密集io请求和计算需要

2.CPU要求
主要任务:
(1)数据从存储系统调入到内存的解压计算
(2)GPU计算前的数据预处理
(3)运行在代码中写入并读取变量执行指令,如函数调用启动在GPU上函数调用,创建小批量数据启动到GPU的数据传输
(4)GPU多卡并行计算前,每个核负责一块卡的所需要的数据并行切分处理和控制
(5)求解后数据保存前的压缩计算
上述每一类操作基本都是单核计算模式, 如果要加速这些过程,唯有提升CPU频率

传统解决方式:CPU规格很随意,核数和频率没有任何要求
UltraLAB合理推荐:
a.CPU频率:越高越好
b.CPU三级缓存:越大越好
c.CPU核数:比GPU卡数量大(原则:1核对应1卡,核数要有至少2个冗余)

3.GPU要求
主要任务:承担深度学习的数据建模计算、运行复杂算法
传统架构:提供1~8块GPU
UltraLAB合理推荐:
a.数据带宽:PCIe8x 3.0以上
b.数据容量:显存大小也很关键
c.计算匹配:CPU核-GPU卡 1对1
d.GPU卡加速:多卡提升并行处理效率

4 内存要求
主要任务:存放预处理的数据,待GPU读取处理,中间结果存放
UltraLAB合理推荐:
a.数据带宽最大化:单Xeon E5v4 4通道内存,双Xeon E5v4 8通道内存,内存带宽最大化
b.内存容量合理化:大于GPU总显存三)UltraLAB GXM图灵计算工作站介绍与配置推荐


针对上述深度学习应用计算特点,UltraLAB图灵工作站具有深度学习最合理硬件配置架构,保证整个机器是一台理想化异构超算系统,完美强大高效还静音,目前提供两种机型:GX480M和GX610M



3.1 图灵计算工作站技术规格




机型

硬件配置规格

CPU

GPU

内存

存储

GX480M

单CPU架构,6核4.5GHz,8核4.3GHz,10核43GHz

最大6块GPU

最大256GB

并行存储,

最大180TB

GX610M

双Xeon架构,

2*Xeon E5 2637v4(共计8核3.5GHz)

2*Xeon E5 2643v4(共计12核3.4GHz)

2*Xeon E5 2667v4(共计16核3.2GHz)

最大10块GPU

最大1TB

并行存储,

最大180TB



技术规格一览表

(1)GX480M技术规格一览表



NO

主要项

技术规格

1

CPU

1颗intel 至尊处理器

推荐型号:6850K OC(6核4.5GHz)


6900K OC
(8核4.3GHz)


6950X OC
(10核4.3GHz)


Xeon E5 2687Wv4
(12核3.0GHz)

2

芯片组

intel
X99+PCH

3

内存

插槽:8个,

规格:DDR4 2400 Reg ECC

最大容量:256GB(8根32GB)

4

GPU

数量:最大7个

接口:PCIE 8x 3.0

GPU种类:Nvidia Geforce、Quadro、Tesla

Intel Xeon Phi,AMD Firepro

备注:散热系统必须是主动式

5

系统盘

数量: 2块

单盘容量:512GB/1TB/2TB/4TB
SSD
SATA-6Gbps接口,

支持RAID1

数据盘

数量:16块,

单盘容量:4TB/6TB/8TB/10TB/12TB SATA 企业级,

最大容量180TB(RAID5),PCIe 4x 2.0接口

6

光驱

DVD刻录

7

平台

型号UltraLAB S2AGDT01PCS

电源 1600w,数量1个(四块GPU卡)或2个(5个以上)

机箱:双塔式

机箱尺寸:深度658mm,宽度478mm,高度674mm

输出口: 2个千兆以太端口(可选万兆),

4个USB 3.0口,2个USB2.0,1个VGA口

硬盘位:16个3.5”热插拔,最大容量180TB

PCI扩展槽:7个PCIe 16x

8

键盘鼠标

键盘:104键、有线、USB口,

鼠标:1000dpi精度、光电、有线、USB口

9

显示器

23”图显(高清,可升降转向,数量2台)

10

整机优化

*2.1 自动超频加速优化;

*2.2 高性能低延迟优化;

11

操作系统

支持Window 7/8/10, Windows 2008/2012/2016

支持Ubuntu
全系列

12

支持深度学习框架

Nvidia GPU驱动程序,CUDA ,

Nvidia Digits, Nvidia cuDNN

Caffe,Torch ,TensorFlow,CNTK,Theano,

Chainer,DL4J,MXNet




(2)GX610M技术规格一览表

NO

主要项

技术规格

1

CPU

2颗Xeon E5 2600v4

推荐型号:Xeon E5 2637v4(4核3.5GHz)


Xeon E5 2643v4 (6
核3.4GHz)


Xeon E5 2667v4
(8核3.2GHz)


Xeon E5 2687Wv4
(12核3.0GHz)

2

芯片组

intel
C612+PCH

3

内存

插槽:16个,

规格:DDR4 2400 Reg ECC

最大容量:1TB(16根64GB)

4

GPU

数量:最大10个

接口:PCIE 8x 3.0

GPU种类:Nvidia Geforce、Quadro、Tesla

Intel Xeon Phi,AMD Firepro

备注:散热系统必须是主动式

5

系统盘

数量: 2块

单盘容量:512GB/1TB/2TB/4TB SSD SATA-6Gbps接口

支持RAID1

数据盘

数量:16块,

单盘容量4TB/6TB/8TB/10TB/12TB SATA 企业级,

最大容量180TB(RAID5),PCIe 4x 2.0接口

6

光驱

DVD刻录

7

平台

型号UltraLAB S2AGDT01PCS

电源 1600w,数量1个(四块GPU卡)

或2个(5个以上)

机箱:双塔式

机箱尺寸:深度658mm,宽度478mm,高度674mm

输出口: 2个千兆以太端口(可选万兆)

4个USB 3.0口,2个USB2.0,1个VGA口

硬盘位:16个3.5”热插拔,最大容量180TB

PCI扩展槽:10个PCIe 8x
3.0, 1个PCIe 4x 2.0

8

键盘鼠标

键盘:104键、有线、USB口,

鼠标:1000dpi精度、光电、有线、USB口

9

显示器

23”图显(高清,可升降转向,数量2台)

10

整机优化

*2.1 自动超频加速优化;

*2.2 高性能低延迟优化;

11

操作系统

支持Window 7/8/10, Windows 2008/2012/2016

支持Ubuntu
全系列

12

支持深度学习框架

Nvidia GPU驱动程序,CUDA ,Nvidia Digits,

Nvidia cuDNN,Caffe,Torch ,TensorFlow,

CNTK,Theano,Chainer,DL4J,MXNet



3.2 产品特点
(1)集GPU超算、并行存储于一体的超级训练系统
基于办公环境,静音级
支持最大10块GPU超算,单精度浮点最大到120Tflops
配备高速并行存储(16个盘位),最大180TB容量
支持双Xeon E5v4高频处理器,加速密集预处理、高强度数据压缩等计算环节
拥有CPU+GPU完美的深度学习架构

(2)预装完整开发工具的硬件系统,帮助快速启动深度学习研究项目
基于GPU工作站系统,预装深度学习所需的软件:Nvidia 驱动程序,CUDA工具包,cuDNN,开源工具TensorFlow,Cafe,Torch,NVIDIA DIGITS等





3.3深度学习工作站硬件配置参考

(1)GX480M机型配置参考(超值型)
该机型特点:支持最大到6块GPU卡,CPU的频率达到极致,每个环节保证达到最理想性能,整体配置均衡无死角,满足深度学习训练硬件配置要求


NO

CPU

内存

GPU/总显存

单精度

系统盘

并行存储

平台

售价

1

6850K OC
(
6核4.5GHz)

32GB

1块GTX1080

8GB

8Tflops

512GB SSD

4TB

双塔单电

46500

2

6850K OC
(
6核4.5GHz)

32GB

2块GTX1080 16GB

16Tflops

512GB SSD

2*4TB

双塔单电

55000

3

6850K OC
(
6核4.5GHz)

64GB

3块GTX1080 24GB

24Tflops

512GB SSD

3*4TB

双塔单电

67500

4


6900K OC
(8核4.3GHz)

64GB

4块GTX1080 32GB

32Tflops

1TB SSD

28TB

双塔单电

98000

5


6900K OC
(8核4.3GHz)

96GB

6块GTX1080Ti 66GB

68Tflops

1TB SSD

36TB

双塔双电

149990


备注:含双23”高清图显

(2)GX610M机型配置参考(高性能型)
该机型特点:支持最大到10块GPU卡,CPU的频率和核数达到最大均衡,每个环节保证达到最高性能,整体配置均衡无死角,满足深度学习训练对配置的要求

NO

CPU

内存

GPU/总显存

单精度浮点

系统盘

并行存储

平台

售价

1

2*Xeon E5v4

8核3.5GHz

64GB

4块GTX1080
32GB

33Tflops

512GB SSD

28TB

双塔单电

111000

2

2*Xeon E5v4

12核3.4GHz

128GB

6块GTX1080Ti
66GB

68Tflops

1TB SSD

36TB

双塔单电

182000

3

2*Xeon E5v4

12核3.4GHz

192GB

8块GTX1080Ti 88GB

91Tflops

1TB SSD

44TB

双塔双电

215000

4

2*Xeon E5v4

16核3.2GHz

256GB

9块GTX1080Ti 99GB

102Tflops

1TB SSD

60TB

双塔双电

248000

5

2*Xeon E5v4

16核3.2GHz

512GB

9块GTX1080Ti 99GB

102Tflops

1TB SSD

120TB

双塔双电

310000

6

2*Xeon E5v4

16核3.2GHz

512GB

9

Quadro P5000

144GB

79.74Tflops

2TB SSD

120TB

双塔双电

415000

7

2*Xeon E5v4

24核3.0GHz

512GB

9

Quadro P6000

216GB

107.8Tflops

2TB SSD

150TB

双塔双电

735000


备注:含双23”高清图显

关于GPU计算卡主要型号参考

No

型号

显存

流处理器SP

显存带宽 (GBs)

浮点计算指标 TFLOPs (单精度)

功耗

备注

1

Quadro P6000

24GB

3840

432

11.98

250w

显存和性能最大

2

Quadro P5000

16GB

2560

288

8.86

180w

显存更大 

3

TITAN X

12GB

3584

480

10.97

250w

 

4

GTX1080Ti

11GB

3584

484

11.33

250w

性价比高

5

GTX1080

8GB

2560

320

8.22

180w

超值

6

GTX1070

8GB

1920

256

5.78

150w

超值



UltraLAB GXM在深度学习模型训练领域

除了热门的语音识别、图像识别、自然语言处理(机器翻译)外,更多应用

制造业

生产管理,事故预防,技术更新,不合格产品预判

医疗与护理

影像诊断,用药管理

零售,饮食,食品

自动记账,库存控制,店面防盗预防,内部检测,污染检测,可疑人物检测

安全监控

电梯监控,设备监控,店面监控

建筑与房地产

工程管理,事故预防,房地产信息查询,设施监控

农业与海洋

浇水附加肥料,除草和培育作物管理和病虫害防治,野生动物损害控制,水质监测管理,饲养和运输调整,航运

仓储与物流

库存管理,事故预防,转运和设备维护,异常监测

广告与营销

客户响应分析,客户行为分析



总结
UltraLAB GXM是一款静音级超级异构计算能力的深度学习训练计算机,比市面上的机器,更安静,性能更强大,适合科研、研究部门在安静的办公环境下运行。

此外,该机型用途极广,扩展能力强, 调整配置后,可为电磁仿真计算(CST)、量子化学/分子动力学计算(VASP、AMBER等)、超大屏拼接(8X9=72路视频拼接合成)、视频剪辑合成、指纹识别等应用,提供强悍的计算、图形生成能力

您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|Archiver|boway Inc. ( 冀ICP备10011147号 )

GMT+8, 2024-10-9 19:03 , Processed in 0.157295 second(s), 16 queries .

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表