让网络成为应用的基础设施—哈佛大学网络运营揭秘
2006-4-14 15:28:17

哈佛大学的数据网络几乎可以看作是一个小型的城域网,保证它的平稳运行,需要高可用的基础设施、丰富的电信经验和得心应手的管理工具。

哈佛大学的数据网络可支持超过12.5万名用户,它的边界网关集群(Border Gateway Complex)可以路由约50万个IP地址,每天传送的数据量高达150TB200TB。如此巨大的网络应用,就像一个复杂的神经系统,如何才能保证其每一天的正常运行?Jay Tumas是该大学的运营中心主管,负责管理这个巨大网络的核心,他的经验解开了哈佛网络非同寻常的秘密。

哈佛大学的网络概况

哈佛核心网络(HCN - Harvard Core Network)可以为波士顿市区及周边的众多用户提供服务,而且这些用户也呈现出多样化的特性。Tumas说:“我们的技术应有尽有,其中包括双千兆以太网,可为整个哈佛大学网络中的数万台客户机提供服务,并且具备B类大型地址空间;通道化的T-3线路,为华盛顿特区的附属机构提供远程服务;另外还有T-1线路,专门为远程图书馆库提供服务。”哈佛大学信息系统的网络运营中心是新英格兰地区Internet2汇合点,也是北部交汇点(NoX)的主要维护机构。该汇合点将为超过100万个用户提供各类服务。

哈佛大学网络运营中心的工作范围涉及近1000座建筑物。而网络中所有的接入成员都能够提出自己的建议,以确定客户分界点、网络所有权和出资模型等问题。120多个接入成员可以管理自己的局域网和数据中心,也可以将网络维护和Windows升级等业务外包给中心。

高可用性基础设施

上世纪90年代的哈佛网络同样存在安全性和可靠性低的问题,其物理设施看起来就像是通心粉一样脆弱,企业不可能将自己的关键数据交给这样的网络。哈佛和其他一些研究及医疗机构很早就意识到了问题的严重性,这种基础设施的不可预测性将会产生巨大的隐患,因此,只有改变才是出路。

目前许多机构都使用各类工具对其物理设施进行归档,例如使用GIS系统确定地下线路中的光纤连接、以及生产网络中的光纤和电缆资源。这类工作周期长而且代价非常高昂,尤其是在对哈佛这样的大型生产性网络进行归档和库存管理时,所面对的挑战更是惊人。但是这些努力绝对是物有所值的,而且其价值是不可估量的,同时,这些工作也会使物理网络像路由协议那样具备更高的安全性。

最近,哈佛还在进行另外一项巨大的电信工程,将网络转变成使用者的“基础设施”。

为此,哈佛大学决定在初期的创新、新建和校园扩展项目中考虑建设一些新的项目。哈佛和其他一些机构目前正在建设的数据网络将能够容纳多种基于IP的流量。无论是安全摄像机、冷水阀启动机还是停车场读卡机,都将可以与IP网络协同工作。通过提供强健的高可用性基础设施,这些网络将不仅仅能够支持研究和学术部门的数据通信需求,而且还可以充当服务平台,满足与其他设施融合过程中的控制及通信需求。这才是提供投资回报的最佳方式,其意义远比简单的、高可用性物理基础设施要重要得多。

电信经验的移植

Tumas曾经服务于新英格兰电话公司,在工作中积累了丰富的经验。在将这些经验应用到哈佛网络的过程中,他认为最重要的经验就是如何保持网络的强健性。而应用到哈佛网络中的经验主要包括以下几个概念:

测试实验室acerun: yes"> 电信公司采用Bellcore(即目前的Telcordia)来确保关键基础设施在推出后可以平稳运行。因此,需要建立一个实验室。在实验环境中测试未来配置才是确保架构或代码升级平稳过渡的最佳方式。在选择实验室设备的时候,最好不要拣便宜货。应当建设一个全面映射生产性环境的实验室,确保对所有的内容进行一一比较。为了实现这一目的,最好的方法就是在实验室中使用自己的网络备件。这样可以使备用设备和刀片服务器保持运行状态,用户也可以在此过程中发现这些设备是否正常,同时还可确保测量配置与生产环境中的配置完全一致。

随时随地建立文档  这一过程中包含各类资源、流程和程序。电信公司很早就意识到了文档的重要性,并为当时的供电设施建立了大量的手册,即所谓的贝尔系统最佳实践(Bell System Practices)。在一开始时,文档中应包含当前的架构描述、维护程序、硬件库存和访问程序等内容。我们大概在9年前就开始建立网络运营中心文档。虽然这种文档只有160页,但其中包含了大部分的运营流程、厂商联系方式和其他至关重要的信息,同时我们还不时地添加一些新的内容。至于文档的规模,您应当根据自己的员工数量来确定。

组织用户的物理设施  在过去的10年中,Tumas曾经两次迁移网络运营中心的数据中心。第一次用几辆皮卡就完成了搬迁工作。尽管如此,他们认为自己设施的结构仍然有改进的余地,也就是安装开销电缆槽、设计完善的数据机柜和电缆管理系统。在第二次搬迁的过程中设施的组织得到了进一步地改进,采用了多层、地板下的电缆槽,而且各类电缆的安装、约束和标记工作都做得非常严格,而且相当到位。中心甚至投资购买了2英寸见方的玻璃地板砖,让这些改进工作的成果能够明明白白地展现在人们眼前。

针对电力架构进行演习 有必要模拟真实世界的停电事故,对备用电源进行测试,其中包括建筑物基础设施内的紧急电源供应或UPS系统机房。可以断开市电,让紧急电源承担生产负载。但必须事先确定紧急电源能为网络设备提供多长的供电时间,而且需要注意的是,如果使用了刀片服务器,不间断电源(UPS)的供电时间很可能大幅缩短。

及时向用户通报信息  还需要与内部和外部的客户达成协议,确定在网络中断等紧急情况下的信息通报程序,另外还包括网络维护或网络在某个特定时段的不稳定状况等信息都应当及时通报给客户。还应当对各类事件进行归档,这样,当任何人需要将本地发生的故障与网络状况或核心网络中断故障等建立关联时,便可利用这些档案进行全面的分析。

 量身定制管理工具

为了更有效和更简便地管理哈佛庞大的网络系统,中心开发了自有的专用管理工具。

SNMPoll是主要的网络监视和报警系统。它是一种非常简单的Perl程序,利用可感知拓扑结构的SNMP轮询来获得相关信息。该程序每分钟可监测并管理450种网络设备和1500个接口。如果发现异常,有关的工程师会接到一封报警电子邮件。这份报警电子邮件中包含一个加密的Web链接,使工程师能够迅速请求与该事件有关的详细信息。报警信息中还包含一个指向Mobile NOC(网络运营中心)应用的活动链接。它事实上就是NOC PortalTreo版本,专门用于加快信息查询和实现远程故障查找。SNMPoll需要依靠另外一个程序才能发现核心网络的拓扑结构,这种程序就是SNMProwl。另外,还有多种外壳脚本和应用都使用SNMProwl的数据来完成其他的任务,如自动建立个人DNS区,对所有核心路由器和交换机接口进行简便的管理。另外一个Perl程序称为d3m0n,可以监视其他的SNMP对象,获取一些特殊的信息。它们包括UPS、环境状况、关键路由、数据中心内容交换机、电源、风扇和机箱内温度、接口错误,以及改善服务所需要的其他一切内容。

PacketFence是一种基于网络的开放源代码解决方案,主要用于解决开放学术网络中可能出现的各种问题。它可以提供被动或嵌入式运营、网络注册、蠕虫/Bot探测/隔离能力、用户指导下的移植和前瞻性漏洞扫瞄。这种解决方案的起源可以追溯到另外一种称为Mousetrap的实用工具。Mousetrap可通过DHCP范围操纵来捕捉用户。在2003年夏季之前,这些脚本的工作情况一直非常好。但是,随着BlasterNachi蠕虫的出现,以及它们在全世界学术网络中的肆虐,许多网络受感染率达到了近80%。因此,中心认为必须采取其他的措施来解决这类问题。PacketFence应运而生。经过一年的持续开发,它的源代码已于最近公开,而且已经进入许多大型学术网络的生产性环境。PacketFence可以对客户系统的地址解析协议缓存进行操纵,从而实现捕获的目的。

关键报警仪表盘式安全事件管理器(Critical Alerts DashBoard Security Event Manager)可以为本地网络的安全管理员提供更强的全局查看能力,可提供核心网络入侵探测系统、边界异常探测系统和集中系统日志、基础设施的存档和实时安全数据。管理员可以得到一份有关子域地址空间的图表展示,而且该展示信息还会随着安全环境的“温度”变化而发生动态改变。就像电信公司一样,红色表示差,而绿色表示好。另外,该展示信息中还会提供一份最近的警报列表,并通过这种互动的图表显示网络中的总体警报量。

“我们的网络运营中心门户主要用于优化客户服务的提供过程,并且增强所有其他管理和统计工具的信息共享能力,” Tumas说。客户可以使用自己的登录信息来访问该门户。根据其身份的不同,用户只能看到自己有权访问的工具和信息,并利用这些工具及信息管理自己组织内的网络。用户可以使用的内容非常丰富,从当前的网络设备安装标准到访问控制列表,几乎无所不包。(美国《Network world》供本报专稿)

 
哈佛大学网络运营经验
经验
价值
提示
测试实验室
 
确保关键基础设备在推出后可以平稳运行
实验室中使用自己的网络备件
随时随地建文档
 
确保基础设备信息的完整和有据可查
文档的规模应当根据员工数量确立
组织用户的物理设施
 
让网络改进和成果一目了然
清查库存并对其进行标记,使网络清晰可见
针对电力架构进行演习
 
确保电力安全供应不间断
 
如果使用刀片服务器,UPS的供电时间会大幅缩短
及时向用户通报信息
 
便于将网络状况与用户建立关联
对各类事件进行归档,确定在紧急情况下的信息通报程序

(网页编辑:程永来
推荐阅读
·Web2.0 网站安全优化培训 
·“核”问题解读—双核服务... 
·租赁与增值视讯业务的两栖运营 
·“馒头血案”与IPTV 
·软件不能开源到这样的地步 
·抢占CMDB制高点 
·IT“3.15”想说就开口-倾... 
·日本2010年电信相关产业市... 
·走出“真假”双核旋涡 
·RFID市场身份证当家 
  英特尔功耗散热白皮书
  英特尔处理器性能指标
相关文章
校园网的今天和明天
锐捷高校用户大会聚焦下一代安全可信校园网
自己动手建万兆网—湖南工程学院新区校园网络建设分析
顶联科技高校校园网解决方案
顶联科技中小学校园网解决方案