博威---云架构决胜云计算

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 3049|回复: 0

vsphere 6 数据中心的服务器虚拟化解决方案

[复制链接]
发表于 2015-3-28 19:23:34 | 显示全部楼层 |阅读模式
概述
项目背景

不断增长的业务对IT部门的要求越来越高,所以数据中心需要更为快速的提供所需要能力。如果不断购买新的服务器,又会增加采购成本和运作成本,而且还会带来更多供电和冷却的开支,同时,目前的服务器还没有得到充分的利用。通常情况下,企业的服务器工作负载只利用了5%,这导致了大量的硬件、空间以及电力的浪费。同时由于应用程序兼容性的问题,IT人员只能通过在不同场所的不同服务器中分别运行应用的方式,将应用程序隔离起来,而这又会导致服务器数量的增长。购置新的服务器是一项漫长的过程,这使得IT部门更加难以应对业务快速成长和不断变动的需求。例如,对于新业务系统平台的供应和拆除需求,往往就需要消耗大量宝贵的资源和时间。
IT管理员的角度来看,推动虚拟化技术发展的主要动力是基础架构设施的迅猛增长,而硬件部署模式又进一步加剧了基础架构的复杂程度。应用越来越多,也越来越复杂,因此就变得更加难以管理、更新和维护。用户希望能采用各种桌面设备、笔记本电脑、家用PC和移动设备来进行工作。服务器价格急剧下降,服务器散乱现象仍然存在。随着图形和多媒体的发展,数据也变得越来越丰富,文件的平均大小也在不断上升,要求不间断的在线存储。纵观整个数据中心,技术不断增多,分布也越来越广,另外,业界和法律法规也在不断要求企业加强IT管理控制。
在这种环境下,虚拟化技术就体现了整合的优势。应用在IT的不同层面,从逻辑层将物理层抽象出来意味着逻辑组件会得到更一致的管理。
从安全监督来看,虚拟化技术提升了X86服务器的可靠性、可用性,从基础架构层面获得了原先单机系统无法想象的功能,大大提高了业务连续性的级别,降低了故障率、减少了系统宕机的时间。
从服务器的角度来看,虚拟化技术让每台设备都能托管多套操作系统,最大化了利用率,降低了服务器数量。
从存储的角度来看,虚拟化技术可网络化、整合磁盘设备,并让多个服务器共享磁盘设备,从而提高了利用率。
从应用的角度来看,虚拟化技术将应用计算从用户设备中分离出来,并在数据中心对应用及相关数据进行整合,通过集中化技术改善了管理和系统的安全性。
客户作为大型企业,信息化建设不断发展。目前信息化网络以信息中心为运营维护单位,覆盖出单、收付等多套业务系统,服务器资源庞大。出于经济效益和管理安全性考虑,针对基础架构的虚拟化整合已势在必行。
现状分析
客户数据中心目前以X86服务器为主,运行着人力资源、市场计费、生产经营、资产管理、网络管理、邮件、安全等业务系统。具体的服务器配置如下所示,该表涵盖了主要业务系统的服务器配置。

系统
型号
配置
视频服务器
PowerEdge 2950
Xeon E5410 *2/4GB
下载服务器
PowerEdge 2950
Xeon E5110 *2/2GB
生产经营管理系统
PowerEdge 2950
Xeon E5410 *2/4GB
固定资产管理系统
PowerEdge 2950
Xeon E5410 *2/4GB
移动站业务管理系统
PowerEdge 2950
Xeon E5410 *2/2GB
网管系统
PowerEdge 2950
Xeon E5410 *2/2GB
财务系统
PowerEdge 2950
Xeon E5410 *2/2GB
防病毒系统
PowerEdge 2950
Xeon E5410 *2/2GB
邮件系统
PowerEdge 2950
Xeon E5410 *2/2GB
安全评估系统
PowerEdge 2850
Xeon 2.8G *2/2GB
人力资源系统
PowerEdge 2850
Xeon 2.8G *2/2GB
任务管理系统
PowerEdge 2650
Xeon 2.8G *2/2GB
库存管理系统
PowerEdge 1750
Xeon 2.4G *2/1GB
身份认证系统
PowerEdge 750
P4 2.8G/1GB
表:XXX客户数据中心服务器
上述服务器中,除了视频服务器和下载服务器外,其它服务器的负载都非常小,远没有达到充分利用的状态。虽然视频服务器和下载服务器的负载相对较高,但是也没有充分发挥硬件平台的资源效率。
另外还有一些运行边缘业务的服务器,由于设备老旧以及所在位置等原因,本次尚未统计在内。
在存储阵列方面,XXX客户数据中心的主要存储设备及其相应系统的容量与使用率情况如下所示。
u  IBM DS4700阵列上,网管系统可使用的总容量为1400G,现已使用了800G,使用率为57%;邮件系统可使用的总容量为1950G,现统计分析系统已使用了900G,使用率为67%。人力资源系统可使用的容量已全部分配完毕。
u  IBM FastT600阵列上,库存管理系统可使用的总容量为1340G,现已使用了1340G,使用率为100%;身份认证系统可使用的总容量为340G,现已使用了170G,使用率为50%
u  IBM DS5020阵列上,视频服务器可使用的总容量为1540G,现已使用了1530G,使用率为97%;防病毒系统可使用的总容量为270G,现已使用了206G,使用率为76%
u  EMC CX3-40阵列上,财务系统可用总容量为941G,现已使用了325G,使用率为32%;移动站业务管理系统可用总容量为800G,现已使用了270G,使用率为34%安全评估系统可用总容量为600G,现已使用了305G,使用率为51%
u  EMC CX500阵列上,任务管理系统可用总容量为120G,现已使用了95G,使用率为79%;固定资产管理系统可用总容量为300G,现已使用了280G,使用率为94%
u  EMC CX4-480阵列上,下载服务器可用总容量为2000G,现已使用了2000G,使用率为100%;生产经营管理系统可用总容量为980G,现已使用了800G,使用率为82%
上述存储设备及其相应系统的容量与使用率情况如下表所示。
阵列名称
使用系统
可用空间
已用空间
使用率
IBM DS4700
网管系统
1400G
800G
57%

邮件系统
1950G
900G
67%

人力资源系统
400G
400G
100%
IBM FastT600
库存管理系统
1340G
1340G
100%

身份认证系统
340G
170G
50%
IBM DS5020
视频服务器
1540G
1530G
97%

防病毒系统
270G
206G
76%
EMC CX3-40
财务系统
941G
325%
32%

移动站业务管理系统
800G
270G
34%

安全评估系统
600G
305G
51%
EMC CX500
任务管理系统
120G
95G
79%

固定资产管理系统
300G
280G
94%
EMC CX4-480
下载服务器
2000G
2000G
100%

生产经营管理系统
980G
800G
82%
表:客户数据中心存储阵列

可见,目前客户的磁盘阵列划分孤立、分散,造成了磁盘阵列的浪费以及数据的高风险性,而且十分不易于维护。随着之后系统和数据量的不断增加,这一现象将会持续加剧。
通过对客户服务器存储现状的分析,目前IT基础架构有以下几个问题亟待解决:
u  服务器的利用率低。现在机房内运行的大部分机器的利用率都非常低,由于一台服务器只能有一个操作系统,受系统和软件开发平台的限制,CPU、内存、硬盘空间的资源利用率都很低,大量的系统资源被闲置。
u  可管理性差。首先是可用性低,几乎每个应用服务器都是单机,如果某台服务器出现故障,相对应的业务也将中断。其次是当硬件需要维护、升级或出现硬件故障时,上层业务系统均会出现较长时间的中断,影响业务的连续性,其中包括一些重要业务系统,一旦中断服务影响很大,未来数据中心搬迁时会更加麻烦。
u  兼容性差。系统和应用迁移到其他服务器,需要和旧系统兼容的系统。新的软件包括操作系统和应用软件无法运行在老的硬件平台,而老的代码有时候也很难移植到新的硬件平台上。例如:由于各种资源数据库不同公司分别开发,需要的运行的软硬平台很多时候不能保证兼容。为节省时间、物力和保持系统部署的顺利,只能用增加服务器单独部署的方法来解决。
u  服务器和存储购置成本高,维护成本递增,也不得不考虑。随着应用的不断增加,服务器数量也跟着增加,每年要支出高额购置费用不说,还有部分服务器已经过保修期,部件逐渐进入老化期,维护、维修预算费用也逐年增加
u  对业务需求无法做到及时响应,灵活性差。当有新的应用需要部署时,需要重新部署服务器,存储系统,并需要对网络系统进行调整以适应新的IT应用的需求。
u  目前为每套生产系统,在开发测试中心均要保留一套开发测试环境,造成了资源很大的浪费。
vmware的服务器虚拟化解决方案可以很好地解决上面这些问题,下面的章节将从方案的整体规划设计,体系结构,计算,网络与安全,存储,可用性,管理与自动化等方面对该方案进行全面地分析与介绍。
VMware 解决方案规划设计
虚拟化技术的引入大大减少了需要维护和管理的设备,如服务器、交换机、机架、网线、UPS、空调等。原先设备可以根据制度进行折旧报废、或者利旧更新,使得IT管理人员有了更多的选择。虚拟化可以提高资源利用率,降低硬件采购成本,更加节能和节省空间,让整个数据中心更加灵活。
下图是实施了VMware虚拟化方案之后的IT整体架构

luoji.jpg

图:数据中心整体架构图

服务器虚拟化后,我们搭建了虚拟化集群,并统一进行管理。原有的服务器设备仍然可以正常运行,并且与虚拟化服务器融合在一起。
随着虚拟化的不断应用,可以不断动态地增加虚拟化集群的规模,搭建更健康的IT体系架构。客户端方面,延续了原先的访问模式,对于虚拟服务器的数据交互等操作,等同于原先传统物理服务器的的访问模式,不会对业务系统造成任何不利影响。
本章节接下来的部分,将从计算,存储,网络,可用性,管理与监控五个方面对客户的数据中心进行全面高效的规划设计。
计算资源规划
虚拟机上运行着为各个用户和整个业务线提供支持的应用与服务,其中有很多都是关键业务应用,因此,用户必须正确设计、调配和管理虚拟机,以确保这些应用与服务能够高效运行。
VMware ESXi主机是数据中心的基本计算构造块,这些主机资源聚合起来可构建高可用动态资源池环境,作为数据中心各应用的整体计算资源。
本小节将根据客户的生产环境,对计算资源进行整体规划,包括物理服务器,虚拟机等资源。
Ø  指导原则与最佳实践
u  除非确实需要多个虚拟CPU (vCPU),否则默认配置一个,使用尽可能少的虚拟CPU。操作系统必须支持对称多处理(SMP)功能。应用必须是多线程的,才能受益于多个虚拟CPU。虚拟CPU的数量不得超过主机上物理CPU核心(或超线程)的数量。
u  不要规划使用主机的所有CPU或内存资源在设计中保留一些可用资源。要实现虚拟机内存性能最优化,关键是在物理RAM中保留虚拟机的活动内存,应避免过量分配活动内存。
u  始终将透明页共享保持启用状态,始终加载VMware Tools并启用内存释放。
u  资源池CPU和内存份额设置不能用于配置虚拟机优先级。资源池可用于为虚拟机分配专用CPU和内存资源。
u  在工作负载极易变化的环境中配置vSphere DPM,以降低能耗和散热成本。
u  部署一个系统磁盘和一个单独的应用数据磁盘。如果系统磁盘和数据磁盘需要相同的I/O特征(RAID级别、存储带宽和延迟),应将它们一起放置在一个数据存储中。
u  应用要求应作为向虚拟机分配资源的主要指标。使用默认设置部署虚拟机,明确采用其他配置的情况除外。
u  像保护物理机一样保护虚拟机的安全。确保为虚拟基础架构中的每个虚拟机启用了防病毒、反间谍软件、入侵检测和防火墙。确保随时更新所有的安全保护措施。应用合适的最新补丁,要将虚拟机软件和应用保持在最新状态,应使用补丁程序管理工具,或者安装和配置Update Manager
u  为避免管理连接问题,应向每个ESXi主机分配静态IP地址和主机名。为便于管理,应为DNS配置每个ESXi主机的主机名和IP地址。
u  确保数据中心有足够的电源和散热容量以避免服务中断
u  无论选择了哪个硬件平台,都应设计一致的平台配置,特别是在VMware集群中。一致性包括CPU类型、内存容量和内存插槽分配、网卡和主机总线适配器类型,以及PCI插槽分配。
u  使用一个或多个启用了vSphere HADRS的集群,以增加可用性和可扩展性。
u  使用横向扩展还是纵向扩展集群由集群用途、基础架构规模、vSphere限制以及资金和运营成本等因素确定。
Ø  计算资源规划
基于上述指导原则与最佳实践,结合客户数据中心的实际情况,我们对计算资源进行如下的规划设计。
我们使用容量规划工具对客户数据中心里的1000款不同的应用进行了采样评测,以获取这些应用对CPU和内存的需求情况,具体的分析结果如下所示。
[td]  
项目
数值
每个系统的平均CPU需求量
2
平均CPU主频(MHz)
2800MHz
每个系统的平均正常化CPU主频(MHz)
5663MHz
每个系统的平均CPU使用率
6.5% (368.01MHz)
每个系统的平均CPU峰值使用率
9% (509.67MHz)
1000台虚拟机的峰值CPU总需求量
509,670MHz
表:CPU资源需求
[td]  
项目
数值
每个系统的平均内存需求量
1024MB
平均内存使用率
62% (634.88MB)
平均内存峰值使用率
70% (716.80MB)
无内存共享时1000台虚拟机的内存峰值需求量
716,800MB
虚拟化后的内存共享预期收益率
50%
内存共享后1000台虚拟机的内存峰值总需求量
358,400MB
表:内存资源需求
我们建议如下的ESXi主机CPU与内存配置。
[td]  
项目
数值
每台主机的CPU数
4
每颗CPU的核心数
4
每个CPU核心的主频(MHz)
2,400
每颗CPU的总主频(MHz)
9,600
每台主机的总CPU频率(MHz)
38,400
最大CPU使用率建议
80%
每台主机的可用CPU
30,720MHz
表:ESXi主机CPU配置建议
[td]  
项目
数值
每台主机的内存容量
32,768MB (32GB)
最大内存使用率建议
80%
每台主机的可用内存
26,214MB
表:ESXi主机内存配置建议
对于上述配置的一些说明如下。
u  每台服务器的运算能力按照峰值而非平均值进行估算,确保可以支持虚拟机应用同时运行的最高值。
u  CPU和内存的估算需要预留20%的空间用于突发的计算能力过量。
u  内存共享按照50%的比例进行估算,这个数值是基于整合的应用全部以WindowsServer 2003服务器操作系统进行核算的。
接下来,我们将根据上面这些应用需求与ESXi主机配置,对计算资源进行估算。
下面这个公式用来估算可以满足数据中心中这些虚拟机在CPU峰值时正常运行所需的ESXi主机个数。
所有虚拟机的CPU峰值频率需求量
  
=
需要的ESXi主机个数
  
  
每台ESXi主机的可用CPU
  
根据上述公式,客户为了使这1000款应用可以在CPU峰值时正常运行所需的ESXi主机个数是:
509,670MHz
(
CPU频率总体需求量)
  
= 16.59
ESXi主机
  
  
30,720MHz
(
每台主机的可用CPU频率)
  
下面这个公式用来估算可以满足数据中心中这些虚拟机在内存峰值时正常运行所需的ESXi主机个数。
所有虚拟机的内存峰值总需求量
  
=需要的ESXi主机个数
  
  
每台ESXi主机的可用内存
  
根据上述公式,客户为了使这1000款应用可以在内存峰值时正常运行所需的ESXi主机个数是:
358,400MB
(
内存总体需求量)
  
=
13.67
ESXi主机
  
  
26,214MB
(
每台主机的可用内存)
  
CPU的角来说,需要17ESXi主机,而从内存的角度来看,则需要14台物理主机。很显然,我们应该为该数据中心配置17ESXi主机并组建集群。为了使用vSphere的高可用功能,我们还需要添加一台ESXi主机到该集群,因此,总的物理主机数目为18台。
上述对计算资源的规划可以满足虚拟机环境资源突发时的资源溢出要求。
存储资源规划
正确的存储设计对组织实现其业务目标有着积极的影响,可以为性能良好的虚拟数据中心奠定一定的基础。它可以保护数据免受恶意或者意外破坏的影响,同时防止未经授权的用户访问数据。存储设计必须经过合理优化,以满足应用、服务、管理员和用户的多样性需求。
存储资源规划的目标是战略性地协调业务应用与存储基础架构,以降低成本、改善性能、提高可用性、提供安全性,以及增强功能,同时将应用数据分配到相应的存储层。
本小节将根据客户的生产环境,对存储资源进行整体规划,包括共享存储逻辑规划,存储空间规划,存储I/O控制规划,存储分层规划等。
Ø  指导原则与最佳实践
在规划存储资源时,我们会遵循如下的指导原则与最佳实践。
u  构建模块化存储解决方案,该方案可以随时间推移不断扩展,以满足组织的需求,用户无需替换现有的存储基础架构。在模块化存储解决方案中,应同时考虑容量和性能。
u  每个存储层具有不同的性能、容量和可用性特征,只要不是每个应用都需要昂贵、高性能、高度可用的存储,设计不同的存储层将十分经济高效。
u  配置存储多路径功能,配置主机、交换机和存储阵列级别的冗余以便提高可用性、可扩展性和性能。
u  允许集群中的所有主机访问相同的数据存储。
u  启用VMware vSphere Storage APIs - Array Integration (VAAI)与存储I/O控制配置存储DRS以根据使用和延迟进行平衡。
u  根据SLA、工作负载和成本在vSphere中创建多个存储配置文件,并将存储配置文件与相应的提供商虚拟数据中心对应起来。
u  对于光纤通道、NFSiSCSI存储,可对存储进行相应设计,以降低延迟并提高可用性。对于每秒要处理大量事务的工作负载来说,将工作负载分配到不同位置尤其重要(如数据采集或事务日志记录系统)。通过减少存储路径中的跃点数量来降低延迟。
u  NFS存储的最大容量取决于阵列供应商。单个NFS数据存储的容量取决于将访问数据存储的每个虚拟机所需的空间,乘以在延迟可接受的情况下可以访问数据存储的虚拟机数量。考虑将存储DRS配置为使其成员数据存储的使用量保持在80%(默认设置)的均衡水平。
u  单个VMFS数据存储的容量取决于将访问数据存储的每个虚拟机所需的空间,乘以在延迟可接受的情况下可以访问数据存储的虚拟机数量。考虑配置存储DRS,使数据存储使用量保持在80%的均衡水平。保留10%20%的额外容量,用于容纳快照、交换文件和日志文件
u  为促进对iSCSI资源的稳定访问,应该为iSCSI启动器和目标配置静态IP地址。
u  对于基于IP的存储,应使用单独的专用网络或VLAN以隔离存储流量,避免与其他流量类型争用资源,从而可以降低延迟并提高性能。
u  根据可用性要求选择一个RAID级别,对大多数虚拟机工作负载而言,如果阵列具有足够的电池供电缓存,RAID级别对性能不会产生影响。
u  对于大多数应用,除非存在对RDM的特定需求,否则请使用VMDK磁盘。

Ø  共享存储逻辑规划
考虑采用本地存储将无法形成整个虚拟化集群资源池,因此无法有效地使用vSphere虚拟化环境的高可用,灵活配置等功能。本方案将建议购置或利用现有的存储交换网络SAN网络,并新增磁盘阵列作为共享SAN存储,同时做好相应的设备(SAN HBA卡、交换机等)布线、空间、场地布局等相应的规划。
在设计存储架构时应该充分考虑到冗余和性能,因此存储架构的选择根据国家和各省级数据中心整体应用对存储的IOPS和吞吐量的需求进行规划,涉及到端到端的主机适配器选择、控制器和端口数量选择以及磁盘数量和RAID方式选择等。
每台vSphere服务器到存储的连接示意图如下所示。
cunchu.jpg
图:每台服务器的存储连接示意图

针对上图的一些说明如下。
u  确保每个ESXi主机内虚拟机并发IO队列长度与HBA适配卡设置保持一致。
u  底层LUN的需求根据实际虚拟机应用对存储IOPS的实际需求进行规划。
u  根据应用的需要设置LUNRAID结构,如对于随机读写的数据库如OracleSQL数据库,建议在LUN级别采用RAID10结构,对于数据库日志通常为连续写或恢复时连续读,建议在LUN级别采用RAID5结构。
u  对于IO密集型的应用尽量采用单独的VMFS存储,避免在存储端与其他应用产生IO争用。
u  多个虚拟机共用一个数据存储或者多个主机共享一个数据存储时,可以启用存储队列QoS确保核心应用的延时在可控范围以及对数据存储读写的优先级。
u  通常情况下1~2TBLUN大小具有较好的性能和可管理性。
u  磁盘阵列的选择应该满足整个虚拟化环境最大IOPS的吞吐量需求,并配置足够的存储处理器、缓存和端口数。
u  对于双活ALUA磁盘阵列(非双活磁盘阵列),为了防止链路抖动,对于每个LUN在同一时间配置只有一个ESXi服务器通过一个存储处理器进行访问,这就需要在多路径策略选择时设置为MRU(最近使用策略),该策略可以保证只有在某个路径故障时才启用另一个存储处理器连接LUN

Ø  间规
规划LUN容量时建议每个LUN运行1020VM(数据事务类应用可以适当减少)并且每个LUN的使用量不超过容量的80%
VM需要直接访问存储卷,如NTFSEXT3,应在存储中另外创建一LUN,以RDM方式映射到VMVM以裸磁盘方式使用。
LUN容量规划的公式如下所示
LUN容量 = (Z x (X + Y) *1.25)
其中:
n  Z = 每LUN上驻留10个虚拟机
n  Y = 虚拟磁盘文件容量
n  X = 内存大小
根据客户的实际生产环境的情况,即:1GB内存,单一VMDK文件需要80GBLUN容量计算如下:
LUN容量= (10 x (1 + 80) * 1.25)

1000 GB
根据最佳实践,部署的每一个VMFS文件系统下最好分配一个LUN磁盘,这样可以避免虚拟机文件VMDKLUN造成的性能不一致等问题。因此在构建VMFS文件系统的空间时应该充分考虑在其上运行的虚拟机数量和可增长空间,在规划时将LUN的空间预留充足。虽然将来仍然可以利用vmkfstools等工具在线扩充VMFS,但是仍然无法避免上述虚拟机磁盘跨LUN使用的问题。
我们建议客户采用如下的存储配置。
[td]  
项目
说明
存储类型
Fibre Channel SAN
存储处理器个数
2 (冗余)
交换机个数
  
每个主机上每个交换机的端口数
2 (冗余)
  
1
LUN大小
1TB
LUN总数
根据总量确定
每个LUN上的VMFS数据存储数
1
VMFS版本
5
表:存储配置建议
Ø  存储分层规划
每个存储层具有不同的性能、容量和可用性特征,只要不是每个应用都需要昂贵、高性能、高度可用的存储,设计不同的存储层将十分经济高效。一个典型的存储分层实例如下图所示。
存储分层.jpg..jpg
图:存储分层实例

在规划存储分层时,我们主要考量应用和服务的如下存储特征。
u  每秒I/O操作数(IOPS)要求
u  每秒兆字节数(MBps)要求
u  容量要求
u  可用性要求
u  延迟要求
并依据下列信息将应用及服务移至设计有匹配特征的存储层。
u  考虑任何现有的服务级别协议(SLA)
u  数据在信息生命周期中可能会在存储层之间移动
基于上述原则,我们为客户所做的存储分层规划如下所示。
[td]  
接口
应用
速度
RAID
磁盘数
注释
1
光纤通道
- 电子邮件
  
- Web 服务器
  
- 客户资源管理
15K RPM
10
8
10 VMs/VMFS 数据存储
2
光纤通道
- 薪酬管理
  
- 人力资源
15K RPM
5
4
15 VMs/VMFS数据存储
3
光纤通道
- 测试
  
- 开发
10K RPM
5
4
15 VMs/VMFS数据存储
表:存储分层实现
Ø  数据存储群集规划
数据存储以及与数据存储群集关联的主机必须符合特定要求,才能成功使用数据存储群集功能。
创建数据存储群集时,遵循下列准则。
u  数据存储群集必须包含类似的或可互换的数据存储。
一个数据存储群集中可以混用不同大小和I/O能力的数据存储,还可以混用来自不同阵列和供应商的数据存储。但是,下列类型的数据存储不能共存于一个数据存储群集中。
·      在同一个数据存储群集中,不能组合使用NFSVMFS数据存储。
·      在同一个启用了存储DRS的数据存储群集中,不能结合使用复制的数据存储和非复制的数据存储。
u  连接到数据存储群集中的数据存储的所有主机必须是ESXi 5.0及更高版本。如果数据存储群集中的数据存储连接到ESX/ESXi 4.x及更早版本的主机,则存储DRS不会运行。
u  数据存储群集中不能包含跨多个数据中心共享的数据存储。
u  最佳做法是,启用了硬件加速的数据存储不能与未启用硬件加速的数据存储放在同一个数据存储群集中。数据存储群集中的数据存储必须属于同类,才能保证实现硬件加速支持的行为。
基于上述原则,我们建议户采用如下数据存储集群规划。
集群名
存储
DRS
自动化
是否启动
I/O Metric
空间使用率
I/O
延迟
DataClusters-W/O
启用
全自动化
85%
15ms
DataClusters-W
启用
未自动化
85%
15ms
表:数据存储集群设计

网络资源规划
正确的网络设计对组织实现其业务目标有着积极的影响,它可确保经过授权的用户能够及时访问业务数据,同时防止未经授权的用户访问数据。网络设计必须经过合理优化,以满足应用、服务、存储、管理员和用户的各种需求。
网络资源规划的目标是设计一种能降低成本、改善性能、提高可用性、提供安全性,以及增强功能的虚拟网络基础架构,该架构能够更顺畅地在应用、存储、用户和管理员之间传递数据。
本小节将根据XXX客户的生产环境,对网络资源进行整体规划,包括虚拟交换机,网卡绑定等。
在规划网络设计时,我们主要从以下几个方面进行考量并进行相关的设计。
u  连接要求
u  带宽要求
u  延迟要求
u  可用性要求
u  成本要求   

Ø  指导原则与最佳实践
在规划网络资源时,我们会遵循如下的指导原则与最佳实践。
u  构建模块化网络解决方案,该方案可随时间的推移不断扩展以满足组织的需求,使得用户无需替换现有的网络基础架构,进而降低成本。
u  为了减少争用和增强安全性,应该按照流量类型(vSphere管理网络(HA心跳互联网络)、vMotion在线迁移网络、虚拟机对外提供服务的网络、FTIP存储)对网络流量进行逻辑分离。
u  VLAN可减少所需的网络端口和电缆数量,但需要得到物理网络基础架构的支持。
u  首选分布式交换机,并应尽可能少配置虚拟交换机。对于每一个虚拟交换机vSwitch应该配置至少两个上行链路物理网络端口。
u  可以在不影响虚拟机或在交换机后端运行的网络服务的前提下,向标准或分布式交换机添加或从中移除网络适配器。如果移除所有正在运行的硬件,虚拟机仍可互相通信。如果保留一个网络适配器原封不动,则所有的虚拟机仍然可以与物理网络相连。
u  连接到同一vSphere标准交换机或分布式交换机的每个物理网络适配器还应该连接到同一物理网络。将所有VMkernel网络适配器配置为相同MTU
u  实施网络组件和路径冗余,以支持可用性和负载分配。
u  使用具有活动/备用端口配置的网卡绑定,以减少所需端口的数量,同时保持冗余。
u  对于多网口的冗余配置应该遵循配置在不同PCI插槽间的物理网卡口之间。
u  对于物理交换网络也应该相应的进行冗余设置,避免单点故障。建议采用千兆以太网交换网络,避免网络瓶颈。
u  对吞吐量和并发网络带宽有较高使用要求的情况,可以考虑采用10GbE,不过采用万兆网络在适配器和交换机上的投入成本也会相应增加。简单的方法是通过在虚拟机网络vSwitchvPortGroup上通过对多块1GbE端口捆绑负载均衡实现。
u  将直通设备与Linux内核2.6.20或更低版本配合使用时,避免使用MSIMSI-X模式,因为这会明显影响性能。
u  为了保护大部分敏感的虚拟机,要在虚拟机中部署防火墙,以便在带有上行链路(连接物理网络)的虚拟网络和无上行链路的纯虚拟网络之间路由。

Ø  虚拟交换机规划
为每台vSphere服务器规划的虚拟交换机配置如下。
标准虚拟交换机/分布式虚拟交换机
功能
物理网卡端口数

VDS0
管理网络
2

VDS1
vSphere vMotion
2

VDS2
虚拟机网络
2
表:每台服务器的虚拟交换机建议
上述配置的相关说明如下。
u  所选用的网卡必须在vSphere服务器的网络I/O设备兼容列表里,请从http://www.vmware.com/resources/compatibility/search.php上查找最新的网络I/O设备来确认选用网卡设备是否满足要求。
u  对于虚拟交换机的双端口冗余,如果网卡自带软件支持可以在ESX操作系统级别实现NIC Teaming,本方案建议通过在vSwitch交换机层面配置双网卡的负载均衡或主备切换策略,负载均衡策略可以基于虚拟机源地址目标地址IP哈希值,也可以设置为基于MAC地址哈希值。
u  对于虚拟机应用的网络,为了确保虚拟机在执行了vMotion迁移到另一物理主机保持其原有的VLAN状态,建议根据实际需要在虚拟交换机端口启用802.1qVLAN标记(VST)方式采用此方式可以确保迁移主机可以保留原有的网络配置如网关等,并且建议在网络设置中启用通知物理交换机功能,该功能可以确保迁移主机通过反向ARP通知物理交换机虚拟机端口的更改,确保新的用户会话可以被正确建立。
u  对于虚拟机存储,采用IPSAN网络,通过虚拟机vmkernel包含的PSA多路径模块进行存储路径汇聚及故障策略选择。
vSphere主机网络连接配置示意图如下所示。
主机连接.jpg
图:主机网络连接示意图
Ø  网卡绑定
服务器整合会将各种故障影响混在一起,从而增加对冗余的需要。而通过使用来自多个网卡和主板接口的端口配置网卡绑定可进一步减少单点故障的数量。除此之外,网卡绑定还可以增加网络路径的可用带宽
网卡绑定要求满足以下条件:
u  将两个或更多网卡分配到同一虚拟交换机
u  同一端口组中的所有网卡都位于相同的第二层广播域中
网卡绑定的示意图如下所示。
网卡绑定.jpg
图:网卡绑定示意图
可用性规划
本次规划充分考虑了虚拟化环境的可用性设计,例如:在网络层面和存储层面分别利用了VMware vSphere内置的网络冗余和存储多路径控制确保高可用在服务器高可用性上,vSphere内置了HADRSvMotion等功能可以应对本地站点多种虚拟机应用计划内和计划外意外停机的问题。
本小节将根据XXX客户的生产环境,对可用性进行整体规划。
可用性相关技术的说明与配置指导原则如下。
组件
可用性
故障影响

维护正在运行的工作负载

vSphere 主机
在高可用性集群中配置所有vSphere主机,最少应实现
n+1冗余。这样可保护客户的
虚拟机、托管平台门户/管理
用。
如果某台主机出现故障,vSphere HA可在13秒内检测到故障,并开始在集群内的其他主机上启动该主机的虚拟机。
vSphere HA接入控制会确保集群内有足够的资源用于重新启动虚拟机。VMware建议采用一种名为“集群资源百分比”的接入控制策略,因为此策略不仅十分灵活,而且能够实现资源可用性。
此外,VMware还建议对vCenter进行配置,使之能够主动将虚拟机从运行状况不稳定的主机中迁移出来。
在vCenter中,可以定义用于监控主机系统运行状况的规则。

虚拟机资源使用情况
vSphere DRS和vSphere Storage DRS可在主机之间迁移虚拟机,以便平衡集群资源和降低出现“邻位干扰”虚拟机的风险,防止虚拟机在主机内独占CPU、内存和存储资源,从而避免侵害相同主机上的其他虚
拟机。
当检测到I/O冲突时,vSphere Storage I/O Control会自动调节主机和虚拟机,确保在数据存储中的虚拟机之间公平分配磁盘份额。这可确保邻位干扰虚拟机不会独占存储I/O资源。Storage I/O Control会利用份额分配机制来确保每个虚拟机获得应得的
资源。
无影响。通过vSphere DRS或vSphere Storage DRS,无需停机即可在主机之间迁移虚拟机。
无影响。Storage I/O Control会根据虚拟机和vSphere主机相应的份额授权容量或配置的最大IOPS数量来调节虚拟机和vSphere主机。

vSphere主机网络
连接
为端口组最少配置两个物理路径,防止因单个链路故障而影响到平台或虚拟机连接。这包括管理和vMotion网络。可使用基于负载的绑定机制来避免超额使用网络链路的情况。
无影响。即使发生故障切换,也不会导致服务中断。
需要配置故障切换和故障恢复以及相应的物理设置(如PortFast)。

vSphere主机存储
连接
对于每个LUN或NFS共享,将vSphere主机配置为至少具有两个物理路径,以防止因单个存储路径故障而影响到服务。基于存储供应商的设计指导准则来甄选路径选择插件。
无影响。即使发生故障切换,也不会导致服务中断。

保持工作负载可访问性

VMware vCenter Server
vCenter Server
作为虚拟机运行并使用 vCenter Server Heartbeat。
vCenter Server Heartbeat
针对vCenter Server提供一个集群解决方案,可在节点之间实现全自动故障切换,几乎可实现零停机。
       表:可用性技术相关说明
VMware HA提供了简单易用、高效、高可用的虚拟机应用运行环境。在物理机发生故障时,可以被集群中的其他物理节点侦测到并且自动在备用物理机或其他有空闲资源的物理机启动故障节点在线的虚拟机。此外,如果虚拟机操作系统故障也可以被VMware HA侦测到并尝试重启该虚拟机,最大限度保持虚拟机应用的可用性。
利用VMware DRS动态资源调配可以收集各物理主机和虚拟机资源(CPU、内存等)使用情况,并且提供虚拟机最佳放置策略,可以自动或手动进行虚拟机的在线迁移功能满足最佳负载平衡需求。利用DRS建立资源池,可以最大限度的保证XXXX信息中心虚拟化环境的核心应用,例如针对办公系统的SQL数据库设置高优先级别,确保其在资源池中CPU、内存等资源的配比保持最优。同时,可以构建DRS HA集群在确保负载平衡的同时满足高可用的要求。
对于需要对虚拟机所在物理机运行环境进行升级维护时,可以采用VMware VMotion技术在线将该物理机运行的虚拟机通过网络迁移到其他物理主机,并且确保迁移过程中对虚拟机应用没有影响迁移后所有与客户端的会话连接不会中断,目前千兆网络vSphere可以同时并发迁移4个虚拟主机。
综上,我们建议XXX客户在数据中心的虚拟化基础架构中综合采用VMware vMotionDRSStorage DRSHAvCenter Server Heartbeat等提高可用性的技术,确保所有运行虚拟机均得到同样的高可用运行环境保护,提高整体的应用SLA
管理与监控规划
为了支持XXX客户实现业务目标,VMware vSphere虚拟基础架构每天都必须持续高效运行。而保持这种高效性首先要从正确设计管理和监视组件开始。
本小节将根据XXX客户的生产环境,对管理与监控组建进行整体规划,包括vCenter Server及其数据库,警报和ESXi主机安装与配置等。
Ø  指导原则与最佳实践
在进行管理与监控规划时,我们会遵循如下的指导原则与最佳实践。
u  首选使用虚拟机部署vCenter Server和数据库系统。根据虚拟基础架构的大小部署一个或多个vCenter Server系统。
u  配置静态IP地址和主机名称,以避免与vCenter Server实例的连接
中断。
u  如果可以允许停机一两分钟,请使用vSphere HA保护vCenter Server系统。如果无法容忍停机一或两分钟以上,请使用vCenter Server Heartbeat
之类的产品或第三方集群解决方案保护vCenter Server系统。
u  如果为vSphere HA集群启用了DRS,请禁用vCenter Server虚拟机迁移。
u  对于除包括少量主机的小型基础架构外的所有基础架构而言,
请勿将vCenter Server数据库系统和vCenter Server置于相同的系统中:
u  使用数据库供应商提供的可用性方法(如果可能),如果数据库供应商未提供特定的方法,请使用vSphere HA保护数据库服务器。
u  如果组织担心在使用管理界面连接vCenter Server系统或ESXi
主机时会有中间人攻击,请使用证书。如果配置了vCenter链接模式(仅限基于WindowsvCenter Server系统)或vSphere Fault Tolerance (FT),必须启用vCenter Server证书检查。
u  使用自动化方法安装和配置ESXi主机。为基础架构服务创建独立的管理集群。
u  限制具有vCenter Server访问权限的用户数量。对具有vCenter Server访问权限的用户采用最低特权原则。
u  vCenter Server系统和托管管理接口的所有服务器(VMware vSphere ClientvSphere PowerCLI等)添加到目录服务。然后在目录服务中创建用户和组
u  使用文件夹为需要相似访问权限的对象分配角色,通过简化权限分配来简化管理和增强安全性
u  在独立于vCenter Server系统的系统中安装vCenter Server可选模块。最好在虚拟机上安装可选模块。
u  如果设计包括多个vCenter Server系统,应该配置vCenter链接模式。vCenter链接模式要求所有vCenter Server系统都是同一个域中的Active Directory成员,或至少是受信任域的成员。
u  必须在虚拟机、ESX/ESXi主机和管理系统中保持时间同步。
u  快照不是备份解决方案,但却是很有用的撤消操作解决方案。对于生产环境,建议每个虚拟机对应一个快照和清除策略:
u  尽可能自动执行性能监视,并在超过性能阈值时创建用于通知的
警报。但避免采用过于严格的vCenter Server警报设置。
u  在包含70–100
台主机或者更多主机的大型基础架构中,考虑至少创建
一个启用了vSphere HADRS且包含三台主机的管理集群。
u  如果已存在管理集群,请优先使用现有管理工具与流程执行操作系统和应用的更新操作。否则,请使用Update Manager

Ø  vCenter Server规划建议
vCenter Server (Windows)vCenter Server Appliance (Linux)对虚拟硬件的规划建议如下所示。
vCenter Server
系统性能建议
多达 50 台主机/500 个开启的虚拟机
2 个 CPU
4 GB RAM
5 GB 磁盘空间
多达 300 台主机/3000 个开启的虚拟机
4 个 CPU
8 GB RAM
10 GB 磁盘空间
多达 1000 台主机/10000 个开启的虚拟机
8 个 CPU
16 GB RAM
10 GB 磁盘空间
表:vCenter Server (Windows)系统性能建议
vCenter Server Appliance
内存建议
多达 10 台主机/100 个开启的虚拟机
4 GB RAM
多达 100 台主机/1000 个开启的虚拟机
8 GB RAM
多达 400 台主机/4000 个开启的虚拟机
13 GB RAM
超过 400 台主机/4000 个开启的虚拟机
17 GB RAM
表:vCenter Server Appliance (Linux)内存建议
本次规划将采用基于WindowsvCenter Server,根据XXX客户的生产环境情况,即:18台物理主机,1000个开启的虚拟机,我们对vCenter Server使用如下的逻辑设计。
项目
说明

vCenter Server
版本
6.0

物理/虚拟系统
虚拟

CPU个数
CPU类型
CPU速度
4
VMware vCPU
Virtual CPU

内存
16GB

网卡/端口数
1/1

磁盘个数与大小
2x 40GB (C:)

160GB (
D:)

操作系统
Windows Server 2008 64-bit
表:vCenter Server逻辑设计
vCenter Server物理设计如下所示。
项目
说明

厂商与模型
VMware virtual machine virtual hardware 8

CPU类型
VMware vCPU

网卡厂商与模型
每个网卡的端口数
x
速度
网络
VMXNET3
1x Gigabit Ethernet
Management network

本地磁盘RAID级别
N/A
表:vCenter Server物理设计
为了更好的管理与监控对数据中心的运行情况,我们向客户推荐VMware vSphere with Operations Management套件,该套件除了可以高效的完成服务器虚拟化,让整个数据中心更加的灵活,敏捷,高效外,它还可以深度监控整个IT基础架构的容量与性能,可以实现更高的容量利用率、整合率和硬件节约,同时还可缩短问题诊断和解决的时间,避免业务受到影响。

您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|Archiver|boway Inc. ( 冀ICP备10011147号 )

GMT+8, 2024-11-1 10:22 , Processed in 0.130271 second(s), 20 queries .

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表