您的位置: 网界网 > 新闻 > 正文

Linda Dunbar:跨越裂谷—下一代数据中心的标准进展与发展战略

2011年09月23日 | 作者:CNW.com.cn | 来源:网界网

摘要:IETF ARMD工作组联合主席、华为企业数通产品线高级系统架构师 Linda Dunbar发表了题为《跨越裂谷——下一代数据中心的标准进展与发展战略》的主题演讲。并表示:我们现在面临的问题是如何改进网络以及创新网络,让数据中心的服...

标签
以太网
网络世界
网络世界大会
以太网世界大会
网络世界大会2011

【CNW.com.cn专稿】

IETF ARMD工作组联合主席、华为企业数通产品线高级系统架构师 Linda Dunbar

查看更多内容,请登陆以太 网大会直播专题>>>>>>

现场演讲:

各位早上好!

今天我跟大家讲讲关于下一代的数据中心,数据中心本身来说是一个非常巨大的领域,而且它们有其中一些设施需要耗电,网络本身在数据中心里面是非常小的一部分。有很多研究已经表明,网络部分只占了整体数据中心的15%左右。但是从今天的网络来说,它限制了很多服务。数据中心的服务有敏捷性和快速的特性,还有节能等等,这就是为什么有很多工作都是在网络上面。但我们现在面临的问题是:怎么能够改进网络,怎么能够创新网络,让数据中心的服务更加便利和灵活?

就网络技术来说,它本身已经经历了很多年的发展,我们也知道很多人已经讲到过去网络要基于TDM,在90年代的时候互联网变的越来越普遍了,就是因为网络已经变的非常先进,而且访问非常容易,这就是为什么今天我们都有自己的东西可以访问任何服务,正是因为有网络的可用性,能够上载我们的服务,放到云端去。在座的所有人你们都可以把家里面的照片或者是电影放到网上去,在未来你可以上载很多不同的应用,这带来了所谓云架构的数据中心,它能够托管我们的云服务,这对于网络来讲已经发展起来了。

正是因为有这么多的服务需要来给它放到数据中心里面,这些设施已经变的非常巨大,正因为对数据中心带来了很多挑战。比如说如何构建一个巨大的设施,这里面有耗电的问题,在美国一个数据中心可以消耗掉一个城市的用电,耗电非常大惊人。还有布缆和布线,你可以设想一下所有的服务器和计算,以及其他的网络设备在数据中心里面怎么连接,怎么通过布线把它们连接在一起。有很多数据中心放在比较寒冷的地方或者离电力设施比较近的地方,所以数据中心已经构建了很多年,我们知道像Google和雅虎他们都有自己的数据中心。最初一些挑战都是物理上的挑战,如何把这么多的计算机和这么多服务器这些设施放到这里面去,我如何再构建更大的设施,以及如何涵盖服务器在里面,他们都是按照机架来布局的,每个机架上面都有交换机和计算机,有很多情况下计算机消费这么多电力,就是你有足够的物理空间在数据中心,你也不能放这么多的计算机,因为耗电太高了。机架里面可以放四十台计算机和四十台服务器,它们把最大的能量都耗掉了,有这样的技术出现以后计算机也变的越来越先进,而且要求的耗电也越来越少,而且我们通过虚拟化的技术,并不是计算机只需要一个机架或者是刀片服务器,每一个服务器本身可以虚拟化,曾经能够托管一个应用,现在可以托管上百个应用,它意味着什么呢?它意味着我们的网络曾经是只连接四十种应用,从一个地点到另外一个地点。今天也许可以连接到上千个或者是两千的应用程序,而且每一个应用程序都是由一个地址来代表的,一个节点代表的,网络突然间面临这么大的挑战,过去连接一千个节点,今天每一个节点本身又代表另外一千个应用承载。所以我们做这样一个数学计算,比如说一千乘以一千是大量的数字,这样的地址进行路由的选择和传输,现在挑战又从物理转到了逻辑上。当然还有一些运营上的问题,如果管理所有的节点和应用程序,比如说上载是很大的挑战,我们看数据中心基本上像越来越大的气球一样,你解决一个问题另外一个问题又冒出来了,所以就像泡泡一样,对于我们来讲数据存在挑战、以及对于我们数据中心的网络也是同样多的挑战。

今天跟大家探讨一下我们能够做什么,怎么样能够跨越鸿沟,我们如何来做一些创新让网络技术进行演进,使得它有能力在数据中心里面实现互联互通。在数据中心里面我们看到最大的不同,在所有的特性里面就是跟传统的电信级的网络是不一样的。所以它的主机的和应用密度都很高,而且有很多客户器在里面,它需要上载服务放到数据中心里面,这里面像Google的数据中心和雅虎的数据中心,在那里它的数据中心是一种统一的应用,是他们自己提供的。对于托管的服务是针对不同的客户,他们可能有成千上万的客户器,其中每个客户器他们需要不同的区域来上载他们的应用,所以这是一个巨大的挑战。

下一个就是所谓的虚拟化,随着计算机技术向前发展,计算机都变成虚拟化了。所以主机已经并不再是对它进行计算机物理的联系或者是服务器的物理连接,你可以把应用从服务器迁移到另外一个服务器,所有这些东西都变成移动的了。如何来应对这一点呢?这样一些虚拟机器的迁移,在数据中心网络[注]里面,我们已经看到并不再是环状结构的,不像电信运营商,有很多机架,他们是相互之间互联的,所以变成非常大的扁平的网络,并不是环状网络。另外重要的一点就是无拥塞的,在数据中心里面70%的流量都是由东到西的,30%是由南到北的,这意味着流量在一个终端用户要求提出服务申请的时候,你可能碰到WEB服务器,WEB服务器在跟后台数据库服务器连接,数据库跟数据库之间是互联都是幕后的,就像东西方的流量一样,它要面对外部的东西,所以这是非常重要的一点,就是能够提供无拥塞的传输或者是无拥塞的互联,这都是在数据中心之间相互需要沟通的。

另外一点就是融合,刚才Patricia Thaler已经讲到融合的问题,在数据中心里面也是一样的,非常大的挑战就是我们的布缆,其实我们并不太多考虑布缆的问题,一个机架有四十个端口,所以就有四十个电缆。对于数据中心来说,你有光纤的通道,有时候会出现这样一个拥塞存储的访问,它是来自很多不同的接口。所以如果你能够允许不同的布缆方式来连接每一个计算机,也就意味着你把布缆的数量可能是翻番三倍或者是四倍、五倍、六倍,所以在布缆上有很大的压力,怎么能够让网络融合,让我们的光纤通道和其他类型的流量能够来共用同样一根电缆或者是光缆,这意味着光纤通道流量必须要走以太网

下一个是我们的自动化或者是管理,我们如何把一个机架迁移到另外一个机架,有些外部使用者不想IP地址发生任何变化,所以你在进行迁移的时候,你不想出现地址的变化,我们把流程都自动化,每一个应用他们都有某些安全的要求,他们有策略在里面,这个应用它是放在这一个机架上,你必须要得到一些流量,到底应用哪些策略规定,你突然把应用移动到这个机架上,这些交换机在相互之间怎么相互对话呢?不用我们人工重新的配置,你们如何把策略从一个地方迁移到另外一个地方呢?所有这些在数据中心里面都是有特殊的要求和特性。

我们有很多行业的标准机构都开始来探讨这样一些技术,因为我们知道每个人数据中心运营商或者是运营公司,他们都希望有一种标准化的途径。刚才Patricia Thaler已经讲了我以前参加过的国际标准机构,每一个新的特性IETF都有相关的工作项目在里面,我们还有TRILL802.1aq,我们还有Qbp比较大的扁平的网络,我们还有建议书,如何使得我们的网络交换机能够来转发这样一些流量,我们都知道交换机它是有限的内存,即使现在内存非常便宜,但是对于交换机来说要上载这样一些转发的表格,哪个链接发生故障或者融合是很慢的,有一个很大的表格在里面,即使内存很便宜,他要占用很多CPU处理的能力,在交换机和路由器上加载这样的表格,针对无拥塞来说我们如何分配这些流量叫做平均均衡的分配,可以使得我们所有的链路能够被充分的利用起来,能够传输这样的数据。从融合的角度来说,我们有很多标准,对于自动化来说,我们如何让网络自动的发现一些应用地点的变更,对于管理来说我们如何自动的传输安全策略,这是跟这些应用都相关的,从一个地方到另外一个地方。

这里有一些项目和标准在云相关的标准上,在这里很多描述了以太网,就是把不同的流量融合到一个网络里面去,最重要的一点就是要保证有些流量不会受到影响,特别是像光纤通道,这是跟我们IP流量是不一样的,IP的流量TCP传输的协议可以让传输数据包速度慢一点或者是丢包再重新传输一次,光纤没有这样的机制在里面。因此我们给它定义不同的方法来避免丢包的现象,特别是我们有这样一个拥塞的控制,我们还有基于流量优先级的控制,我们还有传输的选择,就是说可以让以太网不丢包。我们还有树的架构协议,因为有些问题在里面,我们首先要摆脱它。我们类似有这样一个二层的协议,当然越来越多的服务都是放到一个服务器上,它的接口变的越来越大了,已经并不再是一个G的接口了,统计数字表明从2010年开始多数新的服务器,我们所部署的都朝实际的接口发展,所以当一个服务器达到10G,你的网络交换机也必须要上升。如果你有四十个10G进来,你要提供无拥塞的传输,你必须要提供100个40G的上行线路。

在ETF我们还有一个新的研究工作组,这就是为了应对一旦有大量的主机数量在数据中心里面所有的主机都是自由的从机架到机架之间迁移,我们如何找到具体的地点,当一个主机开始在机架一到机架十进行迁移,我们上面一个网关的路由器如何能很快的发现具体地址。我们都知道在以太网如果你不知道你的目标在什么地方,这就出现了网络泛红的情况了,你不想这样做要避免,ETF建立这样一个工作组来解决这些问题。

还有关于以太网的光纤通道问题,我们都建立这样的工作组来应对网络里面的数据问题。这里面还有很多新的工作,也会进入到这些领域,我们还有ITUT叫做焦点组,是关于云计算[注]的,他们来规定云计算的框架。还有MEF就是动态的以太网来解决云服务的问题,在ETF我们也开始新的工作叫跨层的,怎么优化网络。我们还有一个工作叫做SAMI,它应对怎么自动调整策略,从一个交换机到另外一个交换机。我们在研究一项新的工作叫做区,怎么能够把网络里面的入口尽可能的减少,我们有大量的主机在里面。

从这里开始我稍微讲一讲关于每一个标准,TRILL这个工作组已经进行了差不多六七年的时间,他们最基本的协议最后定稿了,这个最基本的理念在TRILL里面就是把二层互联,能够来传输虚拟的局域网。因为它是终结,如果你是数据中心的操作人员,提供一个终结路由器的使用,它可以维持很多二层的属性。

还有华为是工作组的联席主席,很多厂商也积极参与工作组的工作,华为也投入了大量的资源在里面,在基本的协议被最后定稿之后,还有一些新的工作在TRILL里面包括多租户的协议,当一个数据中心支持成千上万的客户端里面,我们怎么能够给它分离出来,TRILL在OEM上如何提供可靠的软数,就是在节点之间。

还有快速的故障切换,当一个链路出现故障怎么来恢复,而且如果数据中心是在两个不同的地点给它们进行互联,我们都知道网络也被用来做长途的传输,这边我们讲到一些新的工作,如何把TRILL放在这里面,这都是我们进行一些新的工作。

在IEEE802.1aq它类似于TRILL,我们使用这样一个跨越了竖状结构,如果你有两个链路,其中一个链路被堵塞了,所以这个从OA到B,也不能从B回来,如果数据包在网络里面循环,它有这样一个领域,每一次它通过一个节点,然后给它规定一个1,它变成0的时候包就丢了,以太网没有这样的属性,所以这样一个数据包可以在网络传来传去,所以可以看到这是很大的问题,这就是为什么叫做把重复的数据包阻止住,不能再发回到初始地点。还有一个最短路径,你可以启动所有端口,有16个链路,这些都可以被使用,当然你有16个链路在节点之间就有很大的机会实现循环,就是怎么避免发生反复传输的情况。

还有一个就是在多路径上,我们进有很多不同的路径,我们还能够增加新的领域,在以太网的针上每一次经过一个节点可以把它叫做1,即使它开发了一些非常先进的机制,能够来检测这样一些环路,有的人可能他们会出现一些软件的故障,你做的很好如果你的系统要重新启动怎么办,什么一些机制能够开发出来,所以可能行不通,人们会有这样一些担心。在超过一年的辩论之后,最后克服了这样一个障碍,有一个新的领域加入到以太网的针里面,即使通过软件的重新设置或者是通过软件的故障,这个数据包不会在网上永远来回传输。

下一个叫做802.1Qbg,这个项目启动主要是针对这样一个目的,就是虚拟机器怎么从一个地方迁移到另外一个地方,我们如何把这个策略传输过去,最初是因为当A跟B对话,B又转移到不同的服务器上,A和B在不同的服务上相互对话叫做策略控制问题,他们不能跨越这样一个防火墙怎么办,就是把所有防火墙的策略纳入到虚拟交换机里面,所以推出了这样一个新的特性就是VEPA强制交换机进入到防火墙的策略。

当虚拟机A从一个地方移动到另一个地方,你自动的告诉你最近的交换机你是谁,你是什么样的情况,你是什么资料,这样可以把它迁移到一个正确的地点。然后在数据中心叫做大二层,它实际上是在不同的地方进行开发的,在标准即使我们有SPB,但是它是基本的端口,还有很多地方需要进一步的完善和开发,我们还有SPB/AQ,还有一些私有的实施,这里面有很多不同的相互竞争的标准和解决方案,在选择其中某一个的时候总会有一些风险,这就是厂商比较困惑要选择哪种标准,也给他们带来了困惑。

最后一点就是ARMD叫做地址的解决针对大量主机数量和很多数据中心,今天在云的服务里面,我们很大的特点就是服务可以上和下,可以增加也可以减少。当他们使用很多服务器,所有人都可以通过运营,当没有服务的话你会带来未被使用的服务器,虚拟化的技术可以把所有这些闲置的虚拟机器放到一个比较少的服务器里面,这样的话你可以关掉剩余的机架,你可以节省很多能量,也可以节省很多耗电,这样的话你可以让应用自由的在机架之间相互迁移,这在网关上带来一个瓶颈,所有主机都使用网关作为默认的路由器,网关又碰到很多请求叫做多租户的数据中心里面情况变的更加严重,多租户的数据中心让这些自己加载和应用,有很多应用都有双机架,这带来了很多麻烦的问题和一些压力。对于网关路由器我们也做了研究,网关路由器的CPU用了70%来处理,路由器是转发的流量,所以这就是由ARMD做的工作,我们参加了148个标准机构,我们也主持了很多关键负责人的工作,在很多标准化机构里面,这些是在数据中心的负责人员。

这是我们的愿景,愿景就是来构建一个我们叫做多重服务的,可以让我们针对不同的服务层,还有一些桥接的结构,我们还有一些不同的融合服务来提供可扩展性和无拥塞性,还有开展的基础架构和多租户的服务,我就讲这些,谢谢大家。

参考资料

1.数据中心网络:(Data Center Network)是应用于数据中心内的网络,因为数据中心内的流量呈现出典型的交换数据集中、东西流量增多等特征,对数据中心网络提出了进一步的要求:大规模、高扩...详情>>

2.云计算:(Cloud Computing)描述了一种基于互联网的新的IT服务增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展而且经常是虚拟化的资源。云计算是继1980年代大型计算机到...详情>>

[责任编辑:孙可 sun_ke@cnw.com.cn]

我也说几句