博威---云架构决胜云计算

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 4320|回复: 4

12306是如何实现高流量高并发的关键技术

[复制链接]
发表于 2015-6-8 15:21:33 | 显示全部楼层 |阅读模式

12306网站曾被认为是“全球最忙碌的网站”,在应对高并发访问处理方面,曾备受网民诟病。因此记者在第一时间联系到一位对12306改造非常关注的技术架构师,他从技术的角度,用科学论证的方式,指出原因所在,并根据他的经验进一步说明12306是如何实现高流量高并发的关键技术,与大家共享。以下为正文:
前言:
12306互联网售票系统在2011年下半年开始上线使用,但在2012年春运期间引发无数的争议。在2012年春运后,12306项目承接单位与多家IT公司联系,经过多次论证和POC 测试, 最终引入分布式内存运算数据管理云平台 - Pivotal Gemfire做试点,用以提高12306系统性能,解决“高流量和高并发“的难题。
高流量高并发是指某特定时间段的海量请求,根据过去的经验法则,高并发是指访问流量是平常流量的 3-5倍;但由于互联网和移动设备apps的普遍化,电商网站的促销模式“11.11“,或是厂商的“饥饿营销“,都会衍生“秒杀“现象。所以过去的经验法则用到12306春运售票系统,往往是远远低于实际的的流量。例如,12306平常一天的PV(page views)值大约是在 2500万到 3000万左右, 在2015年春运高峰日的PV值是297亿,流量增加1000倍,这样海量的请求,假如不能在短时间内动态调整网络带宽或增加服务器数量,就会造成网络阻塞或是服务器性能无法满足要求,甚至使整个系统不稳定。
12306成长之路
短短的3年,从2012年春运到2015年春运,12306网站从10亿的PV(page views)值增加到297亿PV值,PV值成长 30倍;网络带宽从 1.5G调整到12G,带宽成长8倍;而12306的售票量从110万增加到564万 ,成长5倍。出票处理能力从 每秒200张提升到 每秒1032张,也是5倍的成长。
PV值的增加是与放票的次数和可出售的票量有关系,例如,2015年PV值是2014年的2.3倍, 原因是放票次数多了5次“秒杀”,另外增加12% 的售票量。由此可见,互联网流量PV值的增加速度远远高于售票量增加的速度。

高流量除了代表网络容易造成阻塞以外,系统服务器也会面临更高的CPU负载,在此情况下又该如何应对呢?是选择基于原来系统框架上购买更昂贵的硬件做“scale up“升级呢 ?还是选择购买低成本的x86服务器,进行”可扩展云平台架构“ scale out的改造设计呢?12306互联网购票系统的改造给我们一个很好的案例参考,也让政府单位和企业进一步了解了具体是如何实现的。
12306改造的关键技术– 建立可伸缩扩展的云应用平台
2015年12306网站顺利过关,没有“瘫痪”,是值得庆祝的。根据互联网上的新闻,中国铁道科学研究院电子计算技术研究所副所长,12306网站技术负责人朱建生说,为了应对2015年春运售票高峰,该网站采取5项措施:一是利用外部云计算资源分担系统查询业务,可根据高峰期业务量的增长按需及时扩充。二是通过双中心运行的架构,系统内部处理容量扩充一倍,可靠性得到有效保证。三是对系统的互联网接入带宽进行扩容,并可根据流量情况快速调整,保证高峰时段旅客顺畅访问网站。四是防范恶意抢票,通过技术手段屏蔽抢票软件产生的恶意流量,保证网站健康运行,维护互联网售票秩序。五是制定了多套应急预案,以应对突发情况。
“利用云计算资源“,“按需及时扩充“和”快速调整“,这几个字眼是12306改造的精神,其核心就是要建立一个从下到上全面“可伸缩扩展的云平台”。底层的硬件架构要支持可伸缩扩展,上层的应用系统架构也需要支持可伸缩扩展。
1. 在过去数年,云计算的基础架构虚拟化已经非常成熟,也日益普遍部署;当网络阻塞时,可以动态增加带宽,当服务器 CPU到达高位时,可以快速从资源池获取虚拟机资源来分摊负荷。 “软件定义的数据中心“ 可以轻易完成这些伸缩性扩展的配置。
2. 当客户将底层的架构都虚拟化后,网络设备,Web服务器,应用服务器都可以做“伸缩性”的扩展;但遇到一个难点就是“12306的应用系统框架”无法支持可伸缩扩展。原因是关系型数据库Sybase无法支持“应用系统”的伸缩扩展。
3. 客户在过去数年已经投入大笔经费在IT方面的建设,但“系统框架设计”还是沿用10几年前的三层设计,而且每年都在原来的基础上做不断的升级。当业务不断成长时,数据量也跟着成长,功能越来越多, 但系统性能越来越差。客户该如何选择呢 ?是 scale up? 还是 scale out ?
为什么选择Pivotal Gemfire构建12306的云应用平台?
要解决12306春运时高流量高并发的问题,如果单靠硬件升级解决的话,可能需要扩充数十倍的硬件服务器。但在春运以后,又该如何解决服务器过剩的问题呢?
要真正解决“高流量,高并发“的难题是需要从软件和应用系统层面出发,唯有实现“可扩展的应用云平台架构”,灵活和快速热部署的机制,才是真正解决高并发访问的根本。
在经过多次论证和POC测试后, 12306 最后选择Pivotal Gemfire作为系统改造的平台,其主要原因如下:
1. 关联数据节点设计:可以根据客户的业务逻辑特性和数据关联性,将关联性强的数据放置于同一个服务器节点,提高系统性能,避免分布式系统服务器的频繁数据交换。
2. 将数据移到内存:由于数据是放在内存里面,屏蔽传统数据库频繁访问, CPU与数据库的交互作用,影响服务器性能。内存的数据交换速度远高于磁盘速度上千倍, 极大提高系统性能。
3. 扩展和伸缩性:以Gemfire构建的应用云平台,是以 x86 PC服务器为主的硬件基础。在保证系统的性能下,此平台可以随着客户业务的成长来任意调配x86服务器的数量,避免以后昂贵的硬件升级带来的困扰。经POC测试结果显示,整个系统性能可随着服务器的数量的增加实现几乎线性的成长。
4. 数据可靠性:在同个集群里面可以有多个数据节点备份,数据可以自动同步,或是将内存数据持久化到硬盘或是数据库
5. 跨地域的数据分布或同步 :可以透过“广域网”将指定的 Gemfire集群的内存数据“实时同步”到异地的数据中心。这是属于“应用层”的数据同步异于传统的“数据库”同步。
6. Pivotal Gemfire使用 x86 PC服务器,其性价比远远高于 Unix 小型机。
在后续章节,以12306为案例做进一步分析,使用Pivotal Gemfire会给12306带来什么好处。

回顾12306 成长的烦恼
(1)网络阻塞是个门槛
网络是进入12306征程的起点,网络带宽快慢往往决定“秒杀“的结果,这在很多电商网站促销时时常发生, 因此12306也无法避免。下面数字是由互联网收集得到的,可能有偏差。但我们尽可能根据这些数目字来解析数年来网络原因发生的问题。
2012 年:12306 第一次在春运使用, 网络带宽1.5G,可以支持最大的PV值是11,250;根据报导,此系统有10,000人的登陆限制, 假如每人每秒点击一次的话,理论上是可以勉强支持正常的点击量。
但在购票尖峰日,有上千万的网民第一次上网购票,在无法登陆的情况下, 用户不断刷取首页,或是已登陆者无法得到系统的及时反应,不断点击页面,产生大量的请求,造成网络和系统的高负载,导致崩溃。
2013年 :宽带增加一倍到达3G频宽,有20万用户登陆的限制,采取10次放票,分散流量,防止买票过度集中;但不幸的是“刷票软件”横行,每秒可以刷票数十次到数百次,高峰期有25万的PV值, 远远超过带宽的最大理论值 22,500 PV。
2014年 : 宽带增加到达5G,16次放票,有屏蔽刷票软件抢票的设计,有效阻挡90%的点击,但实名制有漏洞,每秒还是有15万次的浏览需求,远超过37,500 PV的的理论带宽承载量。
2015年 : 12306有21次放票,增加带宽到12G,手机订票(流量小)分担25%的12306售票,解决实名制的问题,可以阻挡95% 刷票软件的点击量,每秒最大有117,800次的浏览请求,此数目字已经很接近理论带宽承载量117,400 PV值。
根据上述解析, 2012年 – 2014年春运的网络带宽给12306带来很多问题。根据网民的反应,在2015年12306带宽在 12G的情况下,虽然稍微有点卡, 但是大致的反应还是不错的。此轮点与我们的推论是大致符合。

1. PV值和放票次数是根据互联网的报导。
2. 2013年与2014年的PV值有10倍的差异, 2014年多了6次放票时段,票的出售量增加90%。但在 2013年,极有可能是大部分的票量集中在少数时段就放完,减少多次的“秒杀“发生。
3. 2012和2013年, 12306 没有屏蔽抢票软件的设置。在2014年以后,实现了基本的屏蔽功能。 假设此在2014年可以阻挡90%抢票软件的点击, 在2015年可以阻挡 95%的点击。
4. 在2015年, 假设互联网的平均PV值的数据量是15K byte, 手机上网的PV值是 1K byte,占有25%的流量。
5. 带宽最大理论PV值/秒 : 1G的带宽是1,000,000,000 bit/second,1 byte = 8 bits.
2015年平均PV值 =11.5K byte (含手机上网), 2012-2014年的PV值= 15K bytes。
另外,假设考虑网络IP协议交换有10%的损耗。
6. 浏览请求最大PV值/秒:假设在每个放票时段,抢票的高峰期是5分钟(含查询, 下单,付款等操作),在高峰期5分钟的下载流量是整个时段下载总量50%;
再假设有效的浏览下载量是5%上传的请求点击量,换句话说,有95%的点击量被屏蔽,可能是阻挡刷票软件,或是网络阻塞丢包,或是系统忙碌没有反应等等。
(2)服务器集群性能无法伸缩性扩展
参考互联网上的资料,12306服务器集群是传统的三层架构设计,如果不考虑最前端的F5负载均衡服务器,它是由 数百部 Web服务器集群和应用服务器集群构成前端,64部数据库小型机集群(用于专门实现并行计算每班车次的余票量),和订单处理服务器集群构成后端。从专业的角度来看,此种框架设计是中规中矩的,国内99%的框架设计师都是如此设计。
如前述所提,由于Sybase数据库的原因,此种设计无法做伸缩性的扩展。因此,12306要进一步提高性能就面临很大的抉择。在此,先了解服务器集群性能与实际需求之间有多少差距。
回顾2012年到2015年,12306系统在这3年内有很大的变化。
1. 2012年春运 :根据互联网上的信息,2012年 12306设计的售票指标是在100万张票的销售,这完全低估了互联网网民的实际需求,在尖峰日,有上千万人登陆。网络带宽,Web服务器集群,应用服务器集群,余票查询/计算集群,到订单处理集群, 这些设备性能完全无法应付高流量高并发的请求。由于极大的低估互联网的需求,造成12306整个系统不稳定。
在12306系统,余票查询/计算子系统是最复杂的, 最耗损服务器CPU资源。在整个客票系统里,有数十条行车路线,有3000多个车次(G,D,K,Z,C,..),5000多个火车站,不同的席次(硬座,硬卧, 软座, 软卧, etc),座位等级(商务, 一等, 二等),和车票等级(一般,军人, 学生,残障,小孩)等因素,将这些参数换算成数学模型,那可是有数千亿条的排列组合。
2012年的余票计算系统实际处理能力据估计不会超过 300-400 TPS,而有效的余票查询请求远远高于3000 QPS (query per second)。另外,系统每隔10分钟更新车次的余票,这些余票信息是没有参考价值,因为在10分钟里已经售出数十万张票。如果要满足余票计算的需求达到至少 3000 TPS, 那么12306 需要再增加6倍的服务器,即将近 400部小型机(原有系统有64部服务器)。
2. 2013年春运:在2012年6月进行第一步余票查询/计算改造,使用Pivotal Gemfire改造后的结果是每秒至少支持 10,000 TPS 以上,此数目字已经足够应付高并发的需求,因此在2013年春运余票查询顺利过关。 由于集群计算能力大增,余票更新缩短到每隔2分钟提供最及时的信息。
在余票查询瓶颈移除后,订单处理服务器的瓶颈就出现在订单排队,网民必须等待数十秒到数十分钟才会得到订单的确认。订单的请求累积高达数千甚至数万个以上,估计当时订单处理服务器的处理能力不超过 200-300 TPS。
3. 2014年:在2013年后,进行“订单分库二级查询”处理,将订单生成与订单查询分开处理。因为订单查询的数量远远超过订单生成的数量。因此, 12306将查询订单的热点数据放在Gemfire集群, 将历史订单数据放在Hadoop集群。如此设计,不但提高订单查询的功能数十倍,而且订单生成的性能至少也提高5倍以上(使用原有服务器)。
4. 2015年:进一步使用Gemfire优化整个 12306系统,总共建立5个Gemfire集群。另外建立三个数据中心(高铁公司, 铁科院,和阿里云),在阿里云上部署数百个虚拟机(有 Web服务器,应用服务器,和余票查询服务器集群)分流余票查询75%的流量,因为余票查询流量占据12306整体流量的90%。

在12306系统,余票计算的结果是放在“数据缓存应用服务器”,在2012年每隔10分钟更新每班车次的余票结果。如果新请求与上次更新的时间间隔低于10分钟,数据缓存系统就直接返回上次计算的结果。而在10分钟左右再重新计算新的请求。在10分钟的间隔,服务器集群需要计算3000多个车次的余票结果。自2013年以后,12306系统每隔2分钟更新车次余票结果。
使用Gemfire改造后12306的现状和启示
2015年的春运购票期间12306系统的表现是很令人瞩目的,它的效果和影响总结如下:
1. 提供“高并发,低延迟”的解决方案,一劳永逸,不用烦恼后续硬件升级的问题
2. 通过GemFire多集群技术,实现多重的高可用性,确保高峰压力下和系统异常的情况下保证业务的持续性。
3. 构建一个可扩展的云应用平台架构,灵活和快速热部署的机制,为未来混合云的部署打基础。
4. 余票查询集群性能提升 :
使用数十部 x86服务器 (或是上百部虚拟机)可以达到 10,000 TPS以上,提升原来系统性能达30倍以上。原来的系统是使用64部Unix 小型机。
余票信息更新从原来10分钟缩短到2分钟,使信息更有参考价值。
5. 12306“订单分库二级查询”子系统:
将订单生成与订单查询分库处理,订单查询性能提高50倍, 订单生成性能提高4-5倍。
将热点订单放在Gemfire集群,将历史订单数据放在Hadoop集群。这是快数据和大数据结合的完美案例。
6. 混合云的应用:
使用Gemfire改造后的分布式系统,极易分散部署到不同的数据中心
例如,余票查询子系统可以独立于原来的大系统部署到公有云上,同时也可以再将此子系统一分为二,将另一部分服务器部署在私有云的数据中心。即按业务需求随时部署所需要的资源,来解决高并发的难题。
 楼主| 发表于 2017-7-7 10:35:55 | 显示全部楼层
系统吞吐量(TPS)、用户并发量、性能测试概念和公式
发表于: DataBase, Linux, UNIX, 个人日记 | 作者: 博客教主
标签: TPS,公式,吞吐量,并发量,性能测试,概念

PS:下面是性能测试的主要概念和计算公式,记录下:
一.系统吞度量要素:
  一个系统的吞度量(承压能力)与request对CPU的消耗、外部接口、IO等等紧密关联。
单个reqeust 对CPU消耗越高,外部系统接口、IO影响速度越慢,系统吞吐能力越低,反之越高。
系统吞吐量几个重要参数:QPS(TPS)、并发数、响应时间
        QPS(TPS):每秒钟request/事务 数量
        并发数: 系统同时处理的request/事务数
        响应时间: 一般取平均响应时间
(很多人经常会把并发数和TPS理解混淆)
理解了上面三个要素的意义之后,就能推算出它们之间的关系:
QPS(TPS)= 并发数/平均响应时间
        一个系统吞吐量通常由QPS(TPS)、并发数两个因素决定,每套系统这两个值都有一个相对极限值,在应用场景访问压力下,只要某一项达到系统最高值,系统的吞吐量就上不去了,如果压力继续增大,系统的吞吐量反而会下降,原因是系统超负荷工作,上下文切换、内存等等其它消耗导致系统性能下降。
决定系统响应时间要素
我们做项目要排计划,可以多人同时并发做多项任务,也可以一个人或者多个人串行工作,始终会有一条关键路径,这条路径就是项目的工期。
系统一次调用的响应时间跟项目计划一样,也有一条关键路径,这个关键路径是就是系统影响时间;
关键路径是有CPU运算、IO、外部系统响应等等组成。
二.系统吞吐量评估:
我们在做系统设计的时候就需要考虑CPU运算、IO、外部系统响应因素造成的影响以及对系统性能的初步预估。
而通常境况下,我们面对需求,我们评估出来的出来QPS、并发数之外,还有另外一个维度:日PV。
通过观察系统的访问日志发现,在用户量很大的情况下,各个时间周期内的同一时间段的访问流量几乎一样。比如工作日的每天早上。只要能拿到日流量图和QPS我们就可以推算日流量。
通常的技术方法:
        1. 找出系统的最高TPS和日PV,这两个要素有相对比较稳定的关系(除了放假、季节性因素影响之外)
        2. 通过压力测试或者经验预估,得出最高TPS,然后跟进1的关系,计算出系统最高的日吞吐量。B2B中文和淘宝面对的客户群不一样,这两个客户群的网络行为不应用,他们之间的TPS和PV关系比例也不一样。


A)淘宝
淘宝流量图:

淘宝的TPS和PV之间的关系通常为  最高TPS:PV大约为 1 : 11*3600 (相当于按最高TPS访问11个小时,这个是商品详情的场景,不同的应用场景会有一些不同)
B) B2B中文站
B2B的TPS和PV之间的关系不同的系统不同的应用场景比例变化比较大,粗略估计在1 : 8个小时左右的关系(09年对offerdetail的流量分析数据)。旺铺和offerdetail这两个比例相差很大,可能是因为爬虫暂的比例较高的原因导致。
在淘宝环境下,假设我们压力测试出的TPS为100,那么这个系统的日吞吐量=100*11*3600=396万
这个是在简单(单一url)的情况下,有些页面,一个页面有多个request,系统的实际吞吐量还要小。
无论有无思考时间(T_think),测试所得的TPS值和并发虚拟用户数(U_concurrent)、Loadrunner读取的交易响应时间(T_response)之间有以下关系(稳定运行情况下):
TPS=U_concurrent / (T_response+T_think)。
并发数、QPS、平均响应时间三者之间关系

来源:http://www.cnblogs.com/jackei/软件性能测试的基本概念和计算公式
一、软件性能的关注点
对一个软件做性能测试时需要关注那些性能呢?
我们想想在软件设计、部署、使用、维护中一共有哪些角色的参与,然后再考虑这些角色各自关注的性能点是什么,作为一个软件性能测试工程师,我们又该关注什么?
首先,开发软件的目的是为了让用户使用,我们先站在用户的角度分析一下,用户需要关注哪些性能。
对于用户来说,当点击一个按钮、链接或发出一条指令开始,到系统把结果已用户感知的形式展现出来为止,这个过程所消耗的时间是用户对这个软件性能的直观印象。也就是我们所说的响应时间,当相应时间较小时,用户体验是很好的,当然用户体验的响应时间包括个人主观因素和客观响应时间,在设计软件时,我们就需要考虑到如何更好地结合这两部分达到用户最佳的体验。如:用户在大数据量查询时,我们可以将先提取出来的数据展示给用户,在用户看的过程中继续进行数据检索,这时用户并不知道我们后台在做什么。
用户关注的是用户操作的相应时间。
其次,我们站在管理员的角度考虑需要关注的性能点。
1、 相应时间
2、 服务器资源使用情况是否合理
3、 应用服务器和数据库资源使用是否合理
4、 系统能否实现扩展
5、 系统最多支持多少用户访问、系统最大业务处理量是多少
6、 系统性能可能存在的瓶颈在哪里
7、 更换那些设备可以提高性能
8、 系统能否支持7×24小时的业务访问
再次,站在开发(设计)人员角度去考虑。
1、 架构设计是否合理
2、 数据库设计是否合理
3、 代码是否存在性能方面的问题
4、 系统中是否有不合理的内存使用方式
5、 系统中是否存在不合理的线程同步方式
6、 系统中是否存在不合理的资源竞争
那么站在性能测试工程师的角度,我们要关注什么呢?
一句话,我们要关注以上所有的性能点。
二、软件性能的几个主要术语
1、响应时间:对请求作出响应所需要的时间
网络传输时间:N1+N2+N3+N4
应用服务器处理时间:A1+A3
数据库服务器处理时间:A2
响应时间=N1+N2+N3+N4+A1+A3+A2
2、并发用户数的计算公式
系统用户数:系统额定的用户数量,如一个OA系统,可能使用该系统的用户总数是5000个,那么这个数量,就是系统用户数。
同时在线用户数:在一定的时间范围内,最大的同时在线用户数量。
同时在线用户数=每秒请求数RPS(吞吐量)+并发连接数+平均用户思考时间
平均并发用户数的计算:C=nL / T
其中C是平均的并发用户数,n是平均每天访问用户数(login session),L是一天内用户从登录到退出的平均时间(login session的平均时间),T是考察时间长度(一天内多长时间有用户使用系统)
并发用户数峰值计算:C^约等于C + 3*根号C
其中C^是并发用户峰值,C是平均并发用户数,该公式遵循泊松分布理论。
3、吞吐量的计算公式
指单位时间内系统处理用户的请求数
从业务角度看,吞吐量可以用:请求数/秒、页面数/秒、人数/天或处理业务数/小时等单位来衡量
从网络角度看,吞吐量可以用:字节/秒来衡量
对于交互式应用来说,吞吐量指标反映的是服务器承受的压力,他能够说明系统的负载能力
以不同方式表达的吞吐量可以说明不同层次的问题,例如,以字节数/秒方式可以表示数要受网络基础设施、服务器架构、应用服务器制约等方面的瓶颈;已请求数/秒的方式表示主要是受应用服务器和应用代码的制约体现出的瓶颈。
当没有遇到性能瓶颈的时候,吞吐量与虚拟用户数之间存在一定的联系,可以采用以下公式计算:F=VU * R /
其中F为吞吐量,VU表示虚拟用户个数,R表示每个虚拟用户发出的请求数,T表示性能测试所用的时间
4、性能计数器
是描述服务器或操作系统性能的一些数据指标,如使用内存数、进程时间,在性能测试中发挥着“监控和分析”的作用,尤其是在分析统统可扩展性、进行新能瓶颈定位时有着非常关键的作用。
资源利用率:指系统各种资源的使用情况,如cpu占用率为68%,内存占用率为55%,一般使用“资源实际使用/总的资源可用量”形成资源利用率。
5、思考时间的计算公式
Think Time,从业务角度来看,这个时间指用户进行操作时每个请求之间的时间间隔,而在做新能测试时,为了模拟这样的时间间隔,引入了思考时间这个概念,来更加真实的模拟用户的操作。
在吞吐量这个公式中F=VU * R / T说明吞吐量F是VU数量、每个用户发出的请求数R和时间T的函数,而其中的R又可以用时间T和用户思考时间TS来计算:R = T / TS
下面给出一个计算思考时间的一般步骤:
A、首先计算出系统的并发用户数
C=nL / T F=R×C
B、统计出系统平均的吞吐量
F=VU * R / T R×C = VU * R / T
C、统计出平均每个用户发出的请求数量
R=u*C*T/VU
D、根据公式计算出思考时间
TS=T/R
 楼主| 发表于 2017-7-7 10:46:03 | 显示全部楼层
中国铁路客户服务中心网站(12306.cn)是世界规模最大的实时交易系统之一。2012年初的春运高峰期间,每天有2000万人访问该网站,日点击量最高达到14亿。大量同时涌入的网络访问造成12306几近瘫痪。 为此,2012年3月开始,铁路总公司(原铁道部)开始调研、改造12306。2012年6月选择了Pivotal GemFire分布式内存计算平台改造12306,由铁科院和资拓宏宇(IISI)信息科技有限公司提供技术实施。


点击可看大图


一期先改造12306的主要瓶颈——余票查询系统。9月份完成代码改造,系统上线。2012年国庆,在网上订票高峰期间,可以登录12306,虽然还是很难订票,但是查询余票很快。2012年10月份,二期用GemFire改造订单查询系统(客户查询自己的订单记录)。2013年春节,在网上订票高峰期间,可以登录12306,虽然还是很难订票,但是查询余票很快,而且查询自己的订票和下订单也很快。
根据系统运行数据记录,技术改造之后,在只采用10几台X86服务器实现了以前数十台小型机的余票计算和查询能力,单次查询的最长时间从之前的15秒左右下降到0.2秒以下,缩短了75倍以上。2012年春运的极端高流量并发情况下,支持每秒上万次的并发查询,高峰期间达到2.6万QPS吞吐量,整个系统效率显著提高。
订单查询系统改造,在改造之前的系统运行模式下,每秒只能支持300-400个QPS的吞吐量,高流量的并发查询只能通过分库来实现。改造之后,可以实现高达上万个QPS的吞吐量,而且查询速度可以保障在20毫秒左右。新的技术架构可以按需弹性动态扩展,并发量增加时,还可以通过动态增加X86服务器来应对,保持毫秒级的响应时间。
GemFire分布式内存数据平台的原理为:
通过云计算平台虚拟化技术,将若干X86服务器的内存集中起来,组成最高可达数十TB的内存资源池,将全部数据加载到内存中,进行内存计算。计算过程本身不需要读写磁盘,只是定期将数据同步或异步方式写到磁盘。GemFire在分布式集群中保存了多份数据,任何一台机器故障,其它机器上还有备份数据,不用担心数据丢失,而且有磁盘数据作为备份。GemFire支持把内存数据持久化到各种传统的关系数据库、Hadoop库和其它文件系统中。12306之前采用Unix小型机架构,采用GemFire技术改造成Linux/X86服务器集群架构。

12306ng(12306网站的开源项目)对此尚无点评。不过,昨天是春运火车票发售首日,据悉12306网站“瘫痪”1小时,且出现“串号”问题,显然,单纯分布式内存数据技术还不足以应对12306所面对的技术挑战。毕竟,即使算上SAP的HANA,和Pivotal的GemFire,都还很新。
 楼主| 发表于 2017-7-7 14:20:46 | 显示全部楼层
高性能、高流量Java Web站点打造的22条建议

从2005年-2013年,Ashwanth Fernando曾供职于Best Buy、Pearson VUE、Walgreens、Walmart eCommerce等多家知名公司,现在Apple从事高级工程师、平台工程师一职,拥有丰富的高流量Web应用程序打造及架构经验,近日Ashwanth撰文分享了他的高流量Web软件打造经验。

下为译文


受Joshua Bloch写的《Effective Java》启发,我想分享自己关于建立高流量Web软件的整体建议。这些术语中的一些可能不仅仅关于软件设计也关于工程组织、文化等相关领域。

免责声明


  • 只代表个人观点
  • 如发现与现实情况相违背的原则,请谨慎对待,或使用一般认识

1. 考虑使用不止一个数据中心

在商务领域,一直存在许多恐怖的道听途说,而这些恐慌都因为他们只使用了单一的数据中心。如果你想在自然灾害或者电力供应故障中幸免,那么请使用多于1个的数据中心,使用active-active模式来配置你所有的数据中心。虽然在开销上可能会有所增加,但是比只使用单active的配置要值得多——因为在passive和active副本上,总会发现有些数据片不一致。

2. 考虑使用稀疏数据中心部署

不管是通过PaaS,还是运营团队进行,当软件集群被部署到同一个数据中心的机架上时,确保这些机架使用不同的电力供应。你不可能保证机架供电的万无一失,一旦失败将会导致整个机架上服务器的丢失,这个时候你绝对不会希望整个数据中心都只连在一个电路上。

3. 考虑使用私有云来组织资源

IaaS开源解决方案Openstack等其他的软件至今尚未成熟,需要庞大的团队来运营,在运行期间会产生各种各样的问题,除非你有足够的预算,否则别考虑建立一个私有的云服务。然而,私有云可以提供众多优势。首先在部署方面就可以进行众多的定制化,这远比AWS或者是Rackspace货架上的选择要多。其次它允许你做许多的硬件定制化,就好比在硬件层次的Oracle就比准虚拟化环境快得多。

4. 考虑使用PaaS做解决方案

为软件释放投入巨量人力进行部署的日子已接近尽头,各个机构在敏捷及快速市场投放上绞尽脑汁,而PaaS无疑会加速这个部署过程。它允许特性尽可能快的发布,同时也能让开发者得到极大的满足。这是个非常好的开始,给予开发者部署集维护自己软件的工具,这将给工作积极性带来很大的提高。同时,越来越多的开发者甚至不愿意加入没有自动化软件部署系统的公司。更少的领导,更简化的环节,将给你带来无与伦比的效率。

5. 如果使用Oracle或者MySQL,只做基于主键的查询

只有在RAC中存在很少的Artifacts时,Oracle才能在流量高峰时获得最佳性能。尽可能避免使用Referential Integrity、Triggers、Materialized Views、Views、Stored Procedures和其他的Oracle Artifacts。Triggers可以在从数据访问层实现。Stored Procedures可以完全转移到应用层。数据库只用来存储数据,基于字段进行存储而不是主键,使用类似Lucene的索引器做表的索引,使用一个允许在结果集上做基于其他字段的查询,这将会返回这个记录的主键,而这个主关键字可以进一步被用来拿取记录。<ARTIFACTS时,ORACLE才能在流量高峰时获得最佳性能。尽可能避免使用REFERENTIAL p="" <="" procedures可以完全转移到应用层。数据库只用来存储数据,基于字段进行存储而不是主键,使用类似lucene的索引器做表的索引,使用一个允许在结果集上做基于其他字段的查询,这将会返回这个记录的主键,而这个主关键字可以进一步被用来拿取记录。="" artifacts。[tr]

6. 考虑使用Oracle或者MySQL分片

当schema达到临界点,Oracle的可伸缩性将被限制,这里建议你对schema做基于功能(比如订单,产品目录,促销活动,客户等)上的分片,同时也为高密度表做key shards。为key shards使用一致性哈希,这样当一个新的RAC被添加RAC集时,你不再需要遍历所有RAC中的键,以获悉哪些键需要被移动到键的分片中。

7. 如果你使用Oracle做RDBMS,考虑使用Data Guard及Golden Gate

使用这两种技术将大大简化甲骨文的运营周期,Data Guard允许一个近实时passive读副本(没有客户端会与之连接),而Golden Gate则允许一个近实时的active读写副本。

推荐的部署拓扑之一就是为同个数据中心的每个分片配置1个Data Guard;使用Golden Gate来备份其他数据中心的每一个分片。

注意:Golden Gate只是近实时

8. 为Oracle或者MySQL添加数据访问层

假设你有一个可以接受500个连接的Oracle RAC,而你有25个jBoss实例和这个甲骨文RAC对话,每个Jboss实例配置范围10到50的数据库连接池。

当jBoss集群开启时,连接到Oracle的数目为250(25乘10),一切运行良好。随着流量快到jBoss集群的峰值,想象一下将会发生什么。在某个点后,Oracle将开始拒绝连接。

因此建议通过一个Multiplexer层建立一个Multiplexe应用程序服务器连接。可以是一个简单的
[url=]netty[/url]应用,这个应用运行在一个每个netty节点仅能够与Oracle建立25个连接的集群上,但是对入站连接来者不拒。它会将所有的连接循环传递给Oracle,但是绝对不会超过25个,同时还使用Oracle JDBC驱动与Oracle通信。

9. 避免跨数据中心事务

当下,这已经是非常简单的事情,但是在任何地方都非常适用,包括Oracle。在两个数据不同数据中心,不要适用1个XA适配器去做跨数据中心事务,这将导致相当长时间的应用线程阻塞,直到两个阶段的提交完成,因此将带来你的应用程序服务、服务和所有同步上传流崩溃,最终会因为线程数量增加而导致整个应用程序崩溃,比如在类似Black Friday流量情况下。

10. 考虑分布式缓存框架

Memcached、Counbase是最常用的选择。但实际上,卸载非易失性数据到一个中心缓存集群上,确实没必要在每个JVM上做相同的拷贝。但是确实需要设置小数量的JVM堆作为分布式缓存的一个MRU缓存,这样的话,缓存集群本身将会受到非常少的网络调用。


  • 在JVM上大多数分布式缓存支持本地缓存的概念,它将储存最常用的对象。
  • JVM上,GC的pause time同样被最小化了,因为对象图中需要遍历的对象比以前更少了。
  • Warmup过程是必不可少的,这可以帮助将数据导入分布式缓存,这个过程应该在晚上或者是用户访问量低的时候。
 楼主| 发表于 2017-7-7 14:21:10 | 显示全部楼层

11. 考虑把web应用程序分解为服务

上帝保佑,如果你负责的web应用程序超过50万行代码,而且仍然只作单一的项目部署,那么是时候根据服务功能把它分解成专业的服务了,并分配到不同的子组织或团队去操作。将Web应用程序分解为服务有以下诸多优势:


  • Debug将变得简单
  • 扩展及让子系统运行的更好将变得简单
  • 很容易了解运行环境里发生了什么
  • 更快的添加新功能

12. 不要使用session stickiness

这绝是与魔鬼共舞,session stickiness会让极值负荷下无法扩展。你的客户端应该能够调用ANY应用程序服务器,并得到其查询值。其中一个方法是让服务无状态,也称为RestFUL服务。每个请求,客户端会收发标识状态的id,代表客户session的数据存储在数据库或跨多个请求的分布式缓存。

如果因为某个原因,取代RestFUL服务,你网站大部分是建立在HttpServlets和HttpSession属性上,使用以下方法可以实现独立session stickiness的网站:

一个servlet过滤器面对每项服务,取走每个请求的id,然后调用分布式缓存来填充会话属性,这将有助于处理请求。因此数据中心任何服务器都可以响应来自客户端的请求,因为session状态被保持在memcached。

不使用session stickiness还允许使用“rolling restart”方式重启你的应用程序服务器集群,从而实现100%的正常运行时间。

13. 终止反向代理商的SSL

在SSL信号交换及潜在TCP通信有效保持上,反向代理非常擅长。在反向代理有上设定一个显式的TCP维持计时器,nGinx及许多其他http服务器都允许这么做,这允许TCP连接多次重复使用。与TCP信号交换的成本是3个network call,这样许多请求就可以避免这个开销。

因此从反向代理到应用程序服务器,通常是RAW http;因此,同样也要维持TCP的上行连接。

14. 为GSLB类型的负载平衡器使用粘性负载平衡

跨数据中心的负载平衡,建议使用session stickiness。这是因为在跨数据中心复制上,数据库Oracle或Cassandra只能依赖最终一致性技术。因此,非粘性跨数据中心负载均衡器将使你的客户端再也无法访问网站。因此经常使用GSLB,多数情况下,你的CDN将获得基于位置的GSLB数据中心解决方案。

15. 减少主页上的CNAME查找

尽量减少主页上的CNAME查找。单单主页的CNAME查找,一些网站就有10个或更多。即使客户端DNS查找的答案可能来自他们的ISP递归缓存,我们仍然可以做的更好。www.amazon.com CNAME查找为零。

dig
www.amazon.com

;; QUESTION SECTION:

;www.amazon.com. IN A

;; ANSWER SECTION:

www.amazon.com.28 IN A 205.251.242.54

16. 拥抱一切“reactor”

在高流量软件系统中,reactor模式一次又一次的得以证明。一系列框架被创建用以实现reactor模式,reactor大致使用场景如下:


  • 作为一个反向代理:nGinx
  • 应用程序服务器: node.js
  • 并行处理的: Scala的actor model

除非你的业务逻辑是高度CPU绑定,否则就得考虑使用reactor模式或基于事件循环的软件。如果无法实现,可以考虑像RxJava框架那样的响应式编程模型。

17. 实现调用取消

从Siddharth Anand的一个会议上得到灵感,服务调用时的调用图。首先,通过数字的递减实现超时。接下来,服务调用图的每次调用,都会创建一个UUID,并在分布式缓存中为UUID设置一个标志:

UUID:true


  • 如果服务调用图中的任何服务超时,UUID的标志设置为false。
  • 现在为所有服务实现一个servlet过滤器,一直检查这个标志,只在这个标志是真时才继续处理。
  • 如果标志是是假,程序返回一个空的response。
  • 这在大业务量时,可以禁止不必要的调用。

18. 执行GC搜索协议

再次,灵感来自于同一个人——通过Netty让所有的服务也显示一个TCP端口。在调用一个服务之前,调用TCP端口然后暂停2 - 5 ms等待访问。如果调用超时,这意味着这个Java进程正字做一个“stop the world”的垃圾收集。客户立即切换到另一个服务实例,然后尝试同样的步骤。如果调用成功,然后调用实例上的实际服务。

注意:实现GC搜索协议需要的客户端ip地址配置(即客户端负载均衡)。

19. 尽可能让业务逻辑和I / O存取异步进行

在流量爆炸时,异步业务逻辑能让您的应用程序避免建立过多的线程。将事件队列推送给负载均衡集群,让它去做进程订阅的业务逻辑,而不是在http request/response周期线程做这些事。

20. 偏爱最终一致性数据库

尤其是当你在运行跨数据中心的应用程序。除非你的用例是事务处理的(比如订单)等等,否则偏爱使用最终一致性数据库比如Cassandra,并尽可能少的使用ACID类型数据库。

21. 使用CDN服务静态内容

使用CDN服务静态内容——javascript、图像、css 等。CDN能有效地将静态内容复制到近客户地方,因此许多针对这些静态内容的http请求最终穿越不会超过几百英里。 

22. 打包压缩javascript到一个文件中

减少javascript内联。

注意:不要在pre-prod环境中这么做,这里需要使用调试程序做javascript的debug。

您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|Archiver|boway Inc. ( 冀ICP备10011147号 )

GMT+8, 2024-12-27 05:57 , Processed in 0.096326 second(s), 16 queries .

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表