博威---云架构决胜云计算

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 2362|回复: 2

[笔记][转]《亲历惊心动魄48小时!》-要命的数据丢失

[复制链接]
发表于 2011-10-22 17:20:36 | 显示全部楼层 |阅读模式
[笔记][转]《亲历惊心动魄48小时!》-要命的数据丢失一个给自己的警示


引子 引用:
以前总在论坛上看见老大们写遇到什DOWN机的事情怎样怎样,多么急迫怎样怎样。但却一直没有感觉,这次真实的经历,让我终于对小型机工程师这一职业有了更深层的认识。。。

起因 引用:
某年某月某日某时。我的一个哥们准备将新上的盘阵做RAID,刚做完时钟同步。。。
只见客户方所有的技术人员全部冲进了机房,主管劈头就是一句:你们干什么了?紧接着,不待我们缓过神来,6、7个人就开始疯狂的查找各自负责的部分。“赶快,查找原因!”
在过后的情况调查的时候,我们终于知道,当时的盘阵上面存储着当天35亿的交易记录和10条要人命的信息!并且,由于系统改造,只有头一天的数据。然而,就在那个时刻,盘阵上的所有VG全部不见!。。。

查找原因 引用:
6、7个人分别查找各自的原因,数据库配置,光纤交换机,网络,主机上的应用,甚至电源、机柜都一一检查过。没有问题。于是,所有的目光都转向了我们:你们到底做了什么?“只是,只是在还没有使用的盘阵上做了时钟同步,怎么会和生产系统扯上关系?”随即,目光转向了连接KVM和盘阵的HUB。咦?上边还有两根线?这两根是。。。生产系统盘阵上的!而使用的默认IP.....我的天!这些操作是做在那里了啊?为什么没有出现IP冲突?
不管怎么样,事情就是这样了:我们将KVM连在了生产系统的HUB上,对新盘阵4800和老盘阵4300同时做了一个DEMO并进行了时钟同步,于是,所有的VG掉下去了,生产停止了。

支援 引用:
这个时候,2个小时过去了,所有的人开始打电话,寻求技术支持。在此后的4个小时中,分别有来自各方的支持陆续赶到,其中包括原设备维护厂商,新设备厂商、总代。以及7位IBM的工程师(陆续)。我们在感叹客户和经理的巨大能力的同时,也只能靠边站了,能出的不是手和嘴,而是眼睛和耳朵了。我的哥们至少20次的向各路神仙说明情况。但事情仍然陷入僵局。。。

方案 引用:
各路神仙陆续到来,使得除了我的哥们不停的说明情况之外,还有客户方不停的展示目前出现的状况,我们是被打入冷宫的,被安排在一个办公室里不能出来,更别说进机房。只是还好被允许接我们找来人和打800报修。所以有机会看了一眼,除了ROOTVG以外全都没了,就好像连在一个新盘柜上一样,我当时那个汗啊!
打800,提示音以后是长时间的废话,我一遍一遍的报上姓名地址,说明情况,无论你磨破嘴皮,只有一个结果:除了产品硬件故障不能派人解决。我狂晕!
先来的是我们找的代理商小机和存储方面的技术,分别来的3个人同一个看法,这些操作按理不会出现这样的状况,但是除了重起义下看看情况以外好像别无办法。
后来的总代技术明显要略胜一筹,从了解实情经过的方式和建议都是更加的谨慎,看得出来经验丰富。(另外,他在打电话给他的公司的时候加上意味深长的一句:记住这个教训吧)。但是结论仍然是:没有什么办法。
与此同时,公司通过其它渠道联系上派遣IBM工程师。
于是,大家苦等IBM工程师。

IBM工程师 引用:
在此之前总有耳闻,说现在的IBM工程师水平一般般。于是,在心理并没有对他们又多大的期待。心想用户就是迷信,干脆重起得了。事后4个小时,在所有人都看完以后IBM工程师到。先是2位,再来又是2位,然后是3位。分别来自不同的TEAM。有负责不同系统的,由负责小机的,由负责存储的,还有售前的。但是他们在一起却能很好的协商和达成一致,没有人口出狂言或者轻举妄动,最后,7个人没有给出任何的动作的建议,唯一的举措就是将现场情况抓图,整理,上传给2线。并说,希望有人在线,希望能有解决的办法。然后,走了。

紧急方案 引用:
与此同时,客户召开紧急会议,讨论后给我们也开了个会:冻结原存储4300,连夜在新的存储4800上RAID,建VG,将所有应用和数据转移,先让系统跑起来,数据再说。于是,电话和短信里就有了:“今晚通宵加班,我不回去了。“
节外生枝
这时回到那两台为了做它们而闯祸的4800面前,它们却吓得再不敢抬眼看我们,死活就是不合我们的manager连。。。。气得我是·##¥%……—*(——也没办法。

小插曲 引用:
说个小插曲:在阵列down的时候,我发了个帖子:http://bbs.loveunix.net/viewthre ... &extra=page%3D1
紧急求助!
小型机盘阵起不来,麻烦在线的兄弟想想原因。时间紧迫,不多写。

之后就被赶出来了。帖子确实写得很烂,因为我也不知道当时发生了什么,当然我也没想这样说能得到什么,只是抱有一线希望。但是。。。现在我能够理解那些和我写出同样烂的帖子的人当时的情况和心态了,希望他们能够得到他们想要的东西。。



绝处逢生 引用:
这时候所有人都傻了,客户算是有水平了,没有在这个时候追究责任。而是让我们去处理问题,如果这个问题都没处理好。那,那。。。。。
压力。
压力。。
压力啊,压力!
这个时候,我们的客户经理突然对我说:“你跑一趟,和XXX联系,这是电话,拉一台4300回来,再带6块300G的硬盘,就对他说是X总叫你来取的。”
我那个乐啊!赶紧屁颠屁颠的就打车过去了(那时都半夜了)。联系到人,也顾不得新洗的白衣服了,和司机、库管一起把机器到车上。车刚出门,经理的短信:硬盘拿了么?车还没到门口呢,老远就看见我们经理在等着了。。。。所有的人,期待。。
但是,拉来的4300却没有接上。。。。。我们要面对什么?。。。。。

又出节外 引用:
在场的人七手八脚的把这台救命稻草4300(又是4300)抬上楼。打开箱子一瞅,乐了。原来打算用6块300G做临时空间有点紧张,只能做RAID5,不能做hotspare,没想到上面整整齐齐的插着7块146G的硬盘,嘿,这下够了!
再插上6块300G,经理在这个时候不忘打趣:“慢点慢点,这可是咱们的最后一棵救命稻草,有了它就活,没它我就得从这上面跳下去了。嘿嘿。。”我们在19楼。上好架,通上电,开始练。第一个分区100G,ok!第二个分区,400G,咦?怎么出错了?再来一遍,第一个分区100G,ok!第二个分区,400G,还是不行!这时候,一直镇定的,老练的,不懂技术的经理一直直盯盯的瞅着屏幕,憋不住了问一句:“这是怎么回事?”操刀的哥们没有回答,让我把某一块盘拔出来,等一下再插上。。。。故障依旧;关掉再开盘柜。。。。故障依旧。。。。。。经理看不下去了,但是毕竟好涵养,压了压焦虑的心情,拉我到外面抽烟去了。烟雾中。。。给我讲了上次误操作将一所大学的学籍档案全部删除的事情。。。。。最后,掐灭了烟头:“走,回去看看!”

起死回生 引用:
回到机房,RAID已经做好了。问了问,原来是这样:这4300上原来的几块盘是做过RAID的,但是缺少了一块。于是盘阵总是认为后来插上的是原来的那块盘,但实际又不是,而且还不是一块,所以就出错了。将所有的盘都拔出去,再将盘阵重起,清除里面的信息,再关闭,把盘都插回去,就一切OK了。
哦,这样啊,心算是放肚子里了。
再接着就是普通的划区后的工作,忙到了天亮。
这边暂时的问题解决了,但是原来的阵列还躺在那里,里面的数据仍然没有拿出来,所有人的希望也就寄托在IBM的二线上,希望他们能够拿出最佳的解决方案来。

皆大欢喜 引用:
早上9:00。
IBM的工程师来了,并且带来了2线的方案。大意是将上面的RAID按照原来最初的重新做一遍。(具体操作他们不肯透露)。由IBM的工程师讲解方案,原维护厂商的人操刀。(IBM的工程师反复强调他们不会上手操作)
整个过程紧张阿,连插拔光纤的动作都做得极为谨慎。不过最后总算是把数据全部找回来了。当时那个兴奋啊。要是有蛋糕都能开个PARTY!然后是一些后续的工作,又忙了大半天才结束。
走出客户的大厦才意识到已经2天没有看到这轮太阳了。原来它是这样的美好!

尾声 引用:
昨天上午将借来的那台4300还了回去,仍然记得那天打车去取这台机器的紧张劲儿。心中不免还是有点那么担心:如果给的方案不好用呢?如果这台备机不好使呢?如果在后面长时间、高负荷、紧张的情况下操作失误呢?如果再有其他设备的损坏?如果。。。。不敢想象了。
如果,这件事能给所有的同行一点帮助,我就会很欣慰了。

引用:
头一次写文章,不知道那里是重点。可能有些地方没有写明白,可能叙述的简单或者繁琐,不明了或者太罗嗦,希望大家见谅。
这件事对我的触动和影响很大,以致我现在每每想起还有余悸。但是当时,我却愿意往好的地方去想。或许,所有人这样的想法是这件事情得到了圆满地解决吧。
最后,谢谢大家的关注!
 楼主| 发表于 2011-10-22 17:53:49 | 显示全部楼层
  1,超强的敬业精神。
  不管是为了个人的前途,公司的利益,还是客户的权益。
  都能感受的到老大们的敬业精神,特别是销售部经理,如果能和他们一起工作那是多么幸福的事。
  2,超重的技术压力。
  原来小型机和存储盘阵这么DIAO,貌似微微领略到计算机的威力,技术真的很无比重要。
  3,超认真的态度。
  以前一直讨厌复杂的事,慢慢的发现,这种观点是相当错误的。
  简单的事谁都会做,复杂的事才有施展的空间,什么复杂的事都是由一点点小事堆积来的。
  只要把复杂的事分解成一点点的事就OK了,难点就在如果分解。
  4,还要那么一点点运气
  运气真的很重要,每个人做每个事都是需要的,虽然它琢磨不定,但是它总围绕在事情的周围!
  上升到一定的层面,这个例子反应了以下几个安全特点:
  1,业务连续性保障
  2,紧急故障处理响应
  3,数据冗余备份
  另外,这么重要的数据和机房,居然让第三方的工程师在无人监管的情况下,做了这么低级的误操作,管理上也责无旁贷。
  最后谢谢阿布的意见
  欢迎其他人介入讨论
  觉得你们在动手之前没仔细检查(我们在实验室里总是小心又小心,不然轻则没结果,重做;重则有性命之虞。都有强迫症了。)
  遇事必须冷静。事情总有转圜的。
  耶稣死后第三天复活了。
  胆大心细就是本事。
  不容易呀
  细心一定重要啊
  惊心动魄啊。。。没搞过这。。。还真是不老懂。。,。
 楼主| 发表于 2011-10-22 18:14:23 | 显示全部楼层
您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|Archiver|boway Inc. ( 冀ICP备10011147号 )

GMT+8, 2024-3-29 12:53 , Processed in 0.101254 second(s), 16 queries .

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表