网络设施
2008-05-30 14:20    文章来源:网界网

F5工程师杨明非谈红基会网站抢修

作者:CNW.com.cn


【CNW.com.cn 专稿】16日14:00 在机场接到公司美国同事的电话,说没法在中国红十字基金会网站进行捐款。我马上跟张总(F5中国区总经理张毅强)讨论,张总觉得应该去做这件事情,于是立即给红基会的热线捐款电话留了电话,但一直没有回复,于是又打电话联系北软世纪的周总,周总联系到了红基会。红基会的初步反映是数据库压力太大,于是立即联系了Quest公司。

16日20:00~21:00 Quest人员先到红基会,我和周总随后赶到一起进行分析,发现当时网站数据库的CPU都占满了。根据故障诊断,制定了一个比较全面的解决方案:首先要解决服务器的问题,并且进行数据库调优;其次,由于这次网站的瘫痪还与用户的应用(ASP页面等)有关,还需要联系微软等公司协助解决;再就是硬件方面联系了英特尔。

16日22:00~23:00 开始联系其他厂商的设备,到23:00差不多就确定了全部的相关设备,大家约定第二天10点送到北京光环新网互联网数据中心。后来大家又讨论了一会儿方案,在凌晨的时候才各自回家。而凌晨2:00回到家的杨工又进行了一些分析系统的工作……

17日10:00 微软、F5、Quest、浪潮、曙光、TippingPoint、北软世纪等多家厂商的20位技术工程师齐聚北京光环新网互联网数据中心,并带来了各自的救灾设备,并进行硬件的安装、调试、数据库调优工作、网站平台的迁移等工作。

17日14:00 红基会网站完成系统升级,网上捐款系统恢复正常。这次抢修行动的全部时间大概18个小时,其中从确定方案到确定设备大概只用了一个小时就完成了。

F5公司资深工程师杨明非

F5公司资深工程师杨明非

F5设备的选择?

这次的涉及到的各家厂商的设备比较多,因此首先需要做一个负载均衡,同时考虑到红基会网站的流量大小未知,因此选择了一款主流的负载均衡设备BIG-IP LTM 3400,可承载1Gbps的吞吐流量;其次,由于红基会网站做过CDN支持,考虑到这方面可能存在的需求,又在LTM 3400上加了一个GTM广域网流量管理模块,支持灵活的CDN部署;最后,考虑到同事海外访问网站的问题,还加上了一台WebAccelerator 400设备。

为什么这么快?

F5与微软和Quest都是合作伙伴,比较熟悉;北软世纪是F5的金牌代理商,该公司同时也是TippingPoint的代理商。虽然这次参与的人我也认识大半,但我们很多人彼此之间也都是第一次见面。这种在紧急情况下的协调和通力配合值得称道,大家听说是红基会的网站垮了,没有任何人找任何理由推脱责任,凡是被叫到的厂商都是立即响应,二话不说。这里面反应速度最快的是服务器厂商,基本上一接电话就马上表态“可不可以立即送过来”!

如果类似的一个项目放在平时,绝对不可能做得这么快,在某些项目中,流程长的话大概要半年时间才能实现。4~5家厂商的20多个工程技术人员能够迅速集合在一起,又是这么快的速度里做出来,是有一种自发主动的因素在里面的。
项目特色?

简单一句话就是“该用到的都用了”,是按照一个标准的大型网站的架构去实现的。具体到设计上,通过IPS实现了网络安全,通过LTM实现了本地负载均衡,通过GTM实现了广域网流量分配,Web Accelerator实现了Web访问加速。后台还有服务器(并且数据库服务器与Web服务器分开)等设备。今后红基会如果遇到比这次更大的流量压力,通过扩充服务器就完全可以支撑下来。
此外,我正在准备再加上一个SSL VPN的远程管理设备上去,如果采用原来的远程管理方式容易把端口暴露在外面,采用SSL VPN的话更加方便和安全。

最后,F5作为一个网络优化和流量管理的厂商,涉及到的厂商和合作伙伴比较多,彼此之间联系比较方便。另外,处理网站流量和Web优化的问题也是F5擅长的强项。这也是F5在里面起到召集和统筹作用的原因。

责任编辑:闫冰

文章评论

评论加载中...请稍后

精彩专题