您的当前位置:首页用于监测云计算环境下网络设备的状态的方法和装置[发明专利]

用于监测云计算环境下网络设备的状态的方法和装置[发明专利]

来源:小侦探旅游网
(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 CN 105656715 A (43)申请公布日 2016.06.08

(21)申请号 201511018980.9(22)申请日 2015.12.30

(71)申请人中国银联股份有限公司

地址200135 上海市浦东新区含笑路36号

银联大厦(72)发明人张高磊 刘国宝

(74)专利代理机构中国专利代理(香港)有限公

司 72001

代理人李湘 付曼(51)Int.Cl.

H04L 12/26(2006.01)H04L 12/24(2006.01)H04L 29/08(2006.01)

权利要求书1页 说明书5页 附图3页

(54)发明名称

用于监测云计算环境下网络设备的状态的方法和装置(57)摘要

本发明涉及云计算技术,特别涉及用于监测云计算环境下网络设备的状态的方法和装置。根据本发明的用于监测云计算环境下网络设备的状态的方法包含下列步骤:向所述交换机发送采集所述网络设备的状态的请求;根据从交换机接收的所述网络设备的状态信息,确定所述网络设备的状态是否出现异常,其中,所述状态信息包括所述交换机上将所述网络设备互联的成对端口组的报文收发状态,所述成对端口组的其中一个向另一个发送报文。 C N 1 0 5 6 5 6 7 1 5 ACN 105656715 A

权 利 要 求 书

1/1页

1.一种用于监测云计算环境下网络设备的状态的方法,其特征在于,所述网络设备被汇接至位于接入层的交换机,所述方法包含下列步骤:

向所述交换机发送采集所述网络设备的状态的请求;根据从交换机接收的所述网络设备的状态信息,确定所述网络设备的状态是否出现异常,

其中,所述状态信息包括所述交换机上将所述网络设备互联的成对端口组的报文收发状态,所述成对端口组的其中一个向另一个发送报文。

2.如权利要求1所述的方法,其中,所述报文收发状态包括所述成对端口组处发送和接收的报文的数量。

3.如权利要求2所述的方法,其中,根据预设时长的间隔内在成对端口组处接收和发送的报文的数量的偏移值来确定所述网络设备的状态是否出现异常。

4.如权利要求3所述的方法,其中,所述偏移值为预设时长的间隔内在成对端口组处接收和发送的报文的数量之比,如果连续n个时间间隔内所述偏移值小于或等于阈值,则确定所述网络设备的状态是否出现异常,这里n为预先设定的正整数。

5.如权利要求1所述的方法,其中,与所述交换机的通信基于简单网络管理协议(SNMP)。

6.如权利要求1所述的方法,其中,所述交换机基于链路层发现协议(LLDP)获取网络拓扑结构的信息,所述网络拓扑结构用于确定成对端口组,并且所述交换机基于生成树协议(STP)得到成对端口组的报文收发状态。

7.如权利要求6所述的方法,其中,所述报文为网桥协议数据单元(BPDU)报文。8.一种用于监测云计算环境下网络设备的状态的装置,其特征在于,包括:与位于接入层的交换机耦合的收集单元,所述网络设备被汇接至所述交换机,所述收集单元被配置为向所述交换机发送采集所述网络设备的状态的请求和从所述交换机接收所述网络设备的状态信息;

与所述收集单元耦合的处理单元,其被配置为根据所述网络设备的状态信息确定所述网络设备的状态是否出现异常,

其中,所述状态信息包括所述交换机上将所述网络设备互联的成对端口组的报文收发状态,所述成对端口组的其中一个向另一个发送报文。

9.如权利要求8所述的装置,其中,所述报文收发状态包括所述成对端口组处接收和发送的报文的数量。

10.如权利要求9所述的装置,其中,所述处理单元根据预设时长的间隔内在成对端口组处接收和发送的报文的数量的偏移值来确定所述网络设备的状态是否出现异常。

11.如权利要求10所述的装置,其中,所述偏移值为预设时长的间隔内在成对端口组处接收和发送的报文的数量之比,如果连续n个时间间隔内所述偏移值小于或等于阈值,则确定所述网络设备的状态是否出现异常,这里n为预先设定的正整数。

12.如权利要求9所述的装置,其中,所述采集单元与所述交换机的通信基于简单网络管理协议(SNMP)。

13.如权利要求8所述的装置,其中,进一步包括与处理单元耦合的告警单元,其被配置为在所述处理单元确定所述网络设备的状态出现异常时生成告警消息。

2

CN 105656715 A

说 明 书

1/5页

用于监测云计算环境下网络设备的状态的方法和装置

技术领域

[0001]本发明涉及云计算技术,特别涉及用于监测云计算环境下网络设备的状态的方法和装置。

背景技术

[0002]云计算是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机和其他设备。云计算描述了一种基于互联网的新的IT服务增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展而且经常是虚拟化的资源,它意味着计算能力也可作为一种商品通过互联网进行流通。[0003]云计算技术的运用改变了数据中心的网络架构。传统网络采用接入层、汇聚层和核心层的三层互联架构,但是由于云计算的网络设备需要考虑虚拟机的迁移域,因此采用接入层+核心层的两层互连架构,并且网关设置在核心层交换机中以增加迁移域的范围,层间则通过端口聚合互联以增加云计算网络的弹性。[0004]聚合端口主要用于交换机之间的连接。当两个交换机之间有多条冗余链路时,根据生成树协议(STP),其中的几条链路将被关闭而仅保留一条链路,由此避免层间环路的形成。但是路径冗余的放弃将带来STP链路切换很慢(50秒左右)的后果。当使用以太网通道时,交换机将把一组物理端口联合在一起形成一个逻辑通道,此时交换机将这样的逻辑通道视为一个端口。

[0005]网络设备的状态主要指板卡、端口的使用状态,其异常一般表现为板卡或者端口僵死。目前,监测网络设备板卡状态包括基于ping机制的方法、基于硬件狗机制的方法和基于分布式网络控制的方法。[0006]在Ping机制方法中,主控盘使用操作系统提供的ping命令对所有线卡的内网IP地址施行ping操作,然后检测Ping命令的回馈结果,如果丢包率为100%,就认为该线卡出现异常。

[0007]硬件狗机制方法需要FPGA支持硬件狗功能,软件根据硬件狗要求,在规定时间内对硬件规定的某个寄存器位施行写入操作,如果线卡CPU死机,则在规定的时间内不存在上述写入操作,硬件狗将超时从而重启该线卡。[0008]在基于分布式网络控制机制的方法中,主控盘生成并发送第一UDP心跳报文至线卡,响应于第一UDP心跳报文,线卡根据自身的资源使用率信息来生成第二 UDP心跳报文并向主控盘发送生成的第二UDP报文。当主控盘判断线卡的资源使用率超过预设阈值时,判定线卡出现异常。

[0009]但是上述三种方法都存在缺陷。具体而言,在基于ping机制的方法和基于分布式网络控制机制的方法中,利用ICMP或UDP报文来探测,源地址和目的地地址不变,交换机始终通过聚合端口中的某一个端口固定转发,因此无法检测到聚合端口中其他端口的状态。基于硬件狗机制的方法需要硬件支持,此外,采用硬件狗机制将无法同时监测分布式系统内网通信异常的情况。

3

CN 105656715 A[0010]

说 明 书

2/5页

由上可见,需要一种能够克服上述缺点的用于监测云计算环境下网络设备的状态

的方法和装置。

发明内容

[0011]本发明提供用于监测云计算环境下网络设备的状态的方法和装置,其具有实施方便、响应速度快和故障定位能力强等优点。[0012]根据本发明的一个方面,提供了一种用于监测云计算环境下网络设备的状态的方法,所述网络设备被汇接至位于接入层的交换机,所述方法包含下列步骤:

向所述交换机发送采集所述网络设备的状态的请求;根据从交换机接收的所述网络设备的状态信息,确定所述网络设备的状态是否出现异常,

其中,所述状态信息包括所述交换机上将所述网络设备互联的成对端口组的报文收发状态,所述成对端口组的其中一个向另一个发送报文。[0013]优选地,在上述方法中,所述报文收发状态包括所述成对端口组处发送和接收的报文的数量。

[0014]优选地,在上述方法中,根据预设时长的间隔内在成对端口组处接收和发送的报文的数量的偏移值来确定所述网络设备的状态是否出现异常。[0015]优选地,在上述方法中,所述偏移值为预设时长的间隔内在成对端口组处接收和发送的报文的数量之比,如果连续n个时间间隔内所述偏移值小于或等于阈值,则确定所述网络设备的状态是否出现异常,这里n为预先设定的正整数。[0016]优选地,(SNMP)。在上述方法中,与所述交换机的通信基于简单网络管理协议[0017]优选地,在上述方法中,所述交换机基于链路层发现协议(LLDP)获取网络拓扑结构的信息,所述网络拓扑结构用于确定成对端口组,并且所述交换机基于生成树协议(STP)得到成对端口组的报文收发状态。[0018]优选地,在上述方法中,所述报文为网桥协议数据单元(BPDU)报文。[0019]根据本发明的另一个方面,提供了一种用于监测云计算环境下网络设备的状态的装置,包括:

与位于接入层的交换机耦合的收集单元,所述网络设备被汇接至所述交换机,所述收集单元被配置为向所述交换机发送采集所述网络设备的状态的请求和从所述交换机接收所述网络设备的状态信息;

与所述收集单元耦合的处理单元,其被配置为根据所述网络设备的状态信息确定所述网络设备的状态是否出现异常,

其中,所述状态信息包括所述交换机上将所述网络设备互联的成对端口组的报文收发状态,所述成对端口组的其中一个向另一个发送报文。[0020]优选地,在上述装置中,进一步包括与处理单元耦合的告警单元,其被配置为在所述处理单元确定所述网络设备的状态出现异常时生成告警消息。

附图说明

[0021]本发明的上述和/或其它方面和优点将通过以下结合附图的各个方面的描述变得

4

CN 105656715 A

说 明 书

3/5页

更加清晰和更容易理解,附图中相同或相似的单元采用相同的标号表示,附图包括:

图1为按照本发明一个实施例的用于监测云计算环境下网络设备的状态的装置的框图。

[0022]图2为图1中所示交换机的逻辑功能框图。

[0023]图3为按照本发明另一个实施例的用于监测云计算环境下网络设备的状态的方法的流程图。

[0024]图4为可应用于图3所示实施例的确定网络设备是否出现异常的方法的流程图。[0025]图5为用于表征网络设备出现异常的偏移值-时间的示意图。

具体实施方式

[0026]下面参照其中图示了本发明示意性实施例的附图更为全面地说明本发明。但本发明可以按不同形式来实现,而不应解读为仅限于本文给出的各实施例。给出的上述各实施例旨在使本文的披露全面完整,以将本发明的保护范围更为全面地传达给本领域技术人员。

[0027]诸如“包含”和“包括”之类的用语表示除了具有在说明书和权利要求书中有直接和明确表述的单元和步骤以外,本发明的技术方案也不排除具有未被直接或明确表述的其它单元和步骤的情形。

[0028]在云计算环境下,交换机通常将一组物理端口联合在一起形成一个聚合端口,不同类型的数据分组根据其源或者目的MAC地址、IP地址被分配到聚合端口的各个端口。由于在网络监控中同一类型的数据分组将从同一端口转发,因此故障难以被发现。按照本发明的实施例,通过收集网络设备互联端口处报文收发的状态(例如收发报文的数量)并且根据互联端口报文收发状态的偏移值来判断网络设备是否出现异常。[0029]优选地,收发的报文为网桥协议数据单元(BPDU)报文。BPDU报文是生成树协议(STP)下的一种问候数据分组,其以可配置的间隔发送,用于在网络的网桥间进行信息交换。当一个网桥开始变为活动时,其每个端口都以设定的间隔(例如2秒)发送一个BPDU报文,对于接收到BPDU报文的本地端口,如果接收到的BPDU报文的优先级高于其正要发送的BPDU报文,则该本地端口将优先发送接收到BPDU报文,此后,如果在预设的时间间隔内未接收到高优先级的BPDU报文,则本地端口再发送被延迟的BPDU报文。[0030]以下借助附图描述本发明的具体实施例。

[0031]图1为按照本发明一个实施例的用于监测云计算环境下网络设备的状态的装置的框图。

[0032]图1所示的用于监测云计算环境下网络设备的状态的装置10包括收集单元110和处理单元120。可选地,装置10还包含告警单元130。[0033]如图1所示,收集单元110与接入层交换机20耦合,其被配置为向接入层交换机发

(未画出)的状态的请求,其中这些网络设备被汇接至位于接入层的交换机送采集网络设备

20。优选地,收集单元110与交换机 20的通信基于简单网络管理协议(SNMP)。[0034]由一组网络管理的标准组成,包含一个应用层协议、数据库模型和一组资源对象,其目标是管理互联网上众多厂家生产的软硬件平台,因此受互联网标准网络管理框架的影响很大。

5

CN 105656715 A[0035]

说 明 书

4/5页

图2为图1中所示交换机的逻辑功能框图。如图2所示,交换机20包含下列逻辑功能

模块:SNMP接收端210、STP模块220和链路层发现协议(LLDP)模块230。[0036]接收端210负责与采集单元110通信,其配置为从采集单元110接收采集网络设备的状态的请求,并且向采集单元110发送网络设备的状态信息。在本实施例中,状态信息包括云计算环境的网络拓扑结构和交换机的端口处的报文收发状态。[0037]协议具有在交换机的互联端口之间周期性发送报文(例如hello报文、BPDU报文等)的功能。对于互联的成对端口组,其中一个端口(又称为发送端口)周期性地发送报文(例如BPDU报文),而另一个端口(又称为接收端口)则接收被发送的报文。在本实施例中,与SNMP接收端210耦合的STP模块220被配置为记录成对端口组处报文收发的状态(例如发送端口发送报文的数量和接收端口接收到的报文的数量)并且将记录的状态提供给SNMP接收端210。

[0038]协议是一种邻近发现协议,其为以太网网络设备(如交换机、路由器和无线局域网接入点)定义了一种标准的方法,使这些以太网网络设备可以向网络中的其他节点公告自身的存在并保存各个邻近设备的发现信息(以下又称为LLDP信息),这些信息包括对端设备名、对端设备硬件地址、对端设备互联接口、本设备互联接口信息等。在本实施例中,与SNMP接收端210耦合的LLDP模块230被配置为记录LLDP信息并且将记录的LLDP信息提供给SNMP接收端210。LLDP信息可在LLDP模块230、SNMP接收端210或装置10的处理单元120处被用来确定或“绘制”云计算网络拓扑结构,以根据网络拓扑结构确定交换机上将网络设备互联的成对端口组。

[0039]如图1所示,采集单元120与收集单元110耦合,其被配置为根据采集单元110从交换机接收的网络设备的状态信息确定网络设备的状态是否出现异常。[0040]参见图1,告警单元130与处理单元120耦合,其被配置为处理单元确定网络设备的状态出现异常时生成告警消息。

[0041]图3为按照本发明另一个实施例的用于监测云计算环境下网络设备的状态的方法的流程图。示例性地,这里假设本实施例的方法由图1所示的装置10实现。但是本领域技术人员应该理解的是,本实施例的方法的实施并不局限于特定结构的装置。[0042]如图3所示,在步骤S310,收集单元110向交换机20的SNMP接收端210发送采集网络设备的状态的请求。如上所述,状态信息包括交换机上将网络设备互联的成对端口组的报文收发状态。

[0043]随后在步骤S320,响应于采集网络设备的状态的请求,SNMP接收端210向手机单元110发送由STP模块210记录的成对端口组处报文收发的状态(例如发送端口发送报文的数量和接收端口接收到的报文的数量)和由LLDP模块220记录的LLDP信息。[0044]图3所示的流程随后进入步骤S330,处理单元120根据采集单元110从SNMP接收端210接收的网络设备的状态信息,确定网络设备的状态是否出现异常。[0045]优选地,在步骤S330中,采用图4所示的方式确定网络设备的状态是否出现异常。[0046]如图4所示,在步骤S410,对于一组成对的端口,处理单元120确定预设时长的间隔内在成对端口组处发送和接收的报文的数量的偏移值,为此可计算接收端口处接收的报文数量与发送端口处发送的报文数量之比,该比值是一个范围为[0,1]的数值。在网络设备处于正常状态下,接收端口接收到的报文数量等于发送端口发送的报文数量应该一致,即,该

6

CN 105656715 A

说 明 书

5/5页

比值等于1。

[0047]随后在步骤S420,处理单元120判断在最近的连续n个(这里n为预先设定的正整数,其例如取值为3)时间间隔内,步骤S410计算得到的偏移值是否都小于或等于阈值(例如取值为0),如果满足条件,则进入步骤S430,否则,则转至步骤S440。[0048]在步骤S430,处理单元120通知告警单元130与该成对端口组相关联的网络设备出现异常。

[0049]步骤S430之后进入步骤S440,处理单元120判断是否遍历所有成对的端口,如果全部遍历,则结束图4的流程,否则返回步骤S410,对其他的成对端口组重复上述异常检测的步骤。

[0050]图5为用于表征网络设备出现异常的偏移值-时间的示意图。在图5中,纵轴和横轴

假设在图5所示的示例中有10组成对的端口被监测,成对端口组1~分别表示偏移值和时间。

4和6~10在10:01到10:15的时间段内偏移值始终为1,因此与这些端口组相关联的网络设备被确定为处于正常状态,但是对于成对端口组5,其在10:07~10:11的时间段内,偏移值降低为0,即,连续4个时长为1秒的间隔偏移值都小于或等于阈值,因此与该成对端口组相关联的网络设备被确定为发生异常。[0051]与现有技术相比,本发明具有下列优点:

1. 本发明利用公有协议的数据分组来监测网络设备的状态,其对设备、硬件并无特别的依赖,因此具有较强的适应性。

[0052]本发明基于端到端的BPDU报文收发数量的偏移值来判定端口是否僵死,这种方式具有故障定位能力强、准确性高和响应速度快等优点。[0053]虽然已经示出并说明了各个示例性实施例,但本领域普通技术人员应当理解的是,可以对这些示例性实施例在形式和细节方面做出各种改变而不背离由所附权利要求书限定的本发明构思的精神和范围。

7

CN 105656715 A

说 明 书 附 图

1/3页

图1

图2

8

CN 105656715 A

说 明 书 附 图

2/3页

图3

图4

9

CN 105656715 A

说 明 书 附 图

3/3页

图5

10

因篇幅问题不能全部显示,请点此查看更多更全内容