联系我们

Contact
厦门唯友峰机电设备有限公司
电话:0592-2205670
传真:0592-2202290
营销部:18965130041  (王先生)
地址:厦门市软件园三期诚毅北大街51号302单元
邮箱:xmwyfjd@163.com

当前位置:首页> 新闻资讯

如何快速排除数据中心网络故障

* 来源: * 作者: * 发表时间: 2020-01-22 1:17:16 * 浏览: 25
当数据中心的网络规模变得很大时,有必要增加网络设备并实现多层级联。当数据中心的网络规模变得很大时,有必要增加网络设备并实现多层级联。当今的数据中心通常具有树形结构,将几个具有大转发能力的设备放置在核心中,然后是多层设备(因为端口不足,可能需要多层),数十甚至数百个网络设备级别。链接在一起后,一旦发生故障,如何快速找到有故障的设备常常困扰着许多网络运维人员。数据中心中的网络设备是冗余的。只要在网络出现故障时发现故障设备,就可以恢复业务,然后可以缓慢地调查故障原因。但是,从数百个设备中发现了特定的故障。绝非易事。网络故障通常会从应用程序端获取故障反馈,然后开始进行故障排除。此时,应用程序人员通常仅描述应用程序访问失败现象。他不会告诉您哪些特定地址不可用,有时甚至不正确的信息。这极大地延迟了问题位置的长度。大多数问题的位置都花费在故障排除过程中。如何快速对数据中心网络进行故障排除?本文将给出答案。如果需要从应用程序侧的反馈现象来分析网络故障,那就为时已晚,并且容易被某些应用程序人员误入错误的地方。某些应用程序人员的反馈现象只能由他本人看到,并且该现象很可能是局部现象。它不能反映整个网络的故障。因此,您需要做好网络监控并通过监控发现问题,以便快速找到故障设备,隔离设备或排除故障。早期的网络监视主要是监视设备的一些日志和端口流量。通常,此信息还不够,无法及时发现问题。许多网络设备制造商说,他们的设备日志非常完整,但是在实际使用中仍然存在一些极端情况,或者当发生故障时,软件BUG不会导致没有日志输出。此时,有必要找到流量。这时,需要网络人员找到应用人员以了解故障现象,在站点上查找丢失或不可达的IP地址,然后进行网络环流,循环该故障流量所经过的设备,并找出故障原因。设备。由于是树型网络,每一层都有很多设备,因此流量非常大,并非所有设备都能支持流量所有特性的统计,不支持的设备会使统计信息不准确,增加了难度。发现故障设备,网络运维一直以来都是这样。显然,以前的网络故障排除方法是有效的,但效率太低,故障定位时间很长,并且业务影响很大。当前的网络监视针对数据流,并且监视网络中的特定数据流,因此,如果数据流被中断,则可以立即识别故障位置。在这里,几种新兴的网络监视方法(也称为网络可视化技术)是用于快速故障排除的最有效方法。首先是INT(带内网络遥测)技术。 INT通过在数据级别收集和报告网络状态来监视网络状态。当数据包进入网络设备时,将在设备上设置采样方法以对服务流包进行采样和镜像。 INT根据数据包封装INT头,并将需要收集的交换机信息填充到INT数据段中。消息经过的所有网络设备都将以这种方式进行处理,直到连接到最后一个服务器的网络设备清除INT头为止。消息传递的每个设备都会将收集的INT消息发送到远程监视服务器,以通过gRPC消息进行分析和呈现。 INT消息带有mes的延迟贤者转发,设备拥塞等等。呈现给监视服务器。一旦数据包丢失或无法访问,监视服务器将立即感知到它,并在几秒钟内确定问题区域和故障设备。其次是ERSPAN(EncapsulatedRemoteSwitchPortAnalyzer,这是一种通过第3层IP传输的远程网络流量监视技术)。 ERSPAN数据包基于GRE封装,并通过以太网转发到任何IP路由可达的位置。 ERSPAN是通过GRE(通用路由封装)发送到目标服务器以进行分析的源端口数据包的副本,并且收集服务器的物理位置不受限制。这样,我们可以通过ERSPAN将整个网络中的关键流量转发到监视服务器。一目了然,流量将流向网络的哪一部分。第三个是sFlow和Netstream,它们都是数据采样技术。 Netstream采集更完整,但是需要专用硬件来完成。在网络中部署sFlow和Netstream之后,可以通过gRPC将监视数据发送到服务器。监视服务器计算和组织结果,并以图形方式显示结果。一旦网络的任何部分出现问题,都可以立即将其显示在监视服务器上。 sFlow和Netstream收集数据包头的主要特征,而不是消息的全部内容。这与INT和ERSPAN完全不同。除非应用程序消息的特征相对特殊,否则对于大多数网络故障排除来说这都不是问题。 Netstream无法捕获它,只能使用INT和ERSPAN。在网络中,不必在意是否部署了所有三种监视解决方案,因此在发生故障时,可以使用从多个角度收集的数据来分析问题。尽可能通过管理网络将这些数据集合发送到监视服务器也很重要,否则,如果数据网络出现故障,则受监视的数据可能无法正常到达监视服务器。在大多数情况下,数据网络故障很少会影响管理网络,并且仍然可以正常访问所有设备。如果发生故障,则无法通过管理网络访问许多设备,并且基本上可以确定该设备为故障点。使用这些网络监视方法,不难发现故障发生的时间,并且可以完全自动化。发现故障后,监视服务器会自动发出隔离命令以隔离故障设备并自动恢复。这样,您可以找到网络故障的位置,及时隔离故障设备,并在应用程序报告故障之前恢复服务。这样可以大大缩短故障分析时间,对业务影响很小,甚至业务部分也根本无法检测到故障。诸如INT和ERSPAN之类的网络监视技术的实际应用效果尚不清楚。这些技术最近经常被提及,并且尚未在实践中进行测试。 SFLOW和Netstream技术已经相对成熟,但是在网络故障排除中并没有真正使用很多技术,因此有必要在这一领域进行更多的推广。依靠这些监控技术可以快速对网络故障进行故障排除,这对数据中心的运维管理具有重要意义,可以大大提高运维效率。