备注:对于告警策略,织云的理念的是对象精简化,为什么会这样说?在实际的生产环境汇中,一个运维同学负责几十个业务是常态,如果这几十个业务对应的不同的告警策略有上百个,在实际的运维过程中其实是不可量化的管理的。 所以告警策略要同时包含不同的告警类型与具备可继承性。
告警 定义:告警对象的告警指标满足告警产生条件后产生的对象 示例:[腾讯织云] [ping告警] [15:38:10] [Ping 192.192.192.192 不可达] 限于篇幅这里先介绍以上最基础的概念,后续随着讨论的逐步深入,会在介绍告警分级、告警收敛、告警恢复、告警事件、告警订阅、告警合并等概念,下面主要讨论下网络设备监控、网络流量分析与服务器监控这几个业务运维同学们强关注的运维对象。 网络流量 对于网络出口与网络专线的有效监控与分析,即能有效的协助业务运维同学有效的定位业务异常、评估业务服务质量等,也能有效的度量业务整体运营成本,毕竟现在带宽的使用成本在整体运营成本中也是占比越来越大。相信运维同学多少都会遇到下面的场景 例如这条专线当前利用率多少? 在已经使用的流量中,某个ip使用了多少流量? 这些所产生的流量是基于什么协议与方向? 专线与网络出口的丢包率与时延是怎么样的? 每条专线中主要是哪些务在用?哪个是“”地主客户“”? 等等较高频的使用场景。对于网络流量的监控与分析来说主要依靠的FLOW。 那么什么是FLOW呢? Flow是一种数据交换方式,其工作原理是:Flow利用标准的交换模式处理数据流的第一个IP包数据,生成Flow 缓存,随后同样的数据基于缓存信息在同一个数据流中进行传输,不再匹配相关的访问控制等策略,Flow缓存同时包含了随后数据流的统计信息。 一个Flow流定义为在一个源IP地址和目的IP地址间传输的单向数据包流,且所有数据包具有共同的传输层源、目的端口号。 相对于会话(“Session”)而言,“Flow”具备更细致的标识特征,在传统的TCP/IP五元组的基础上增加了一些新的域值,至少包括以下几个字段: | 源IP地址 | 目的IP地址 | 源端口 | 目的端口 | IP层协议类型 | ToS服务类型(dscp) | 输入物理端口(ifindex) | 以上七个字段可以唯一地确定任意一个数据包属于哪个特定的Flow,换而言之任何一个字段出现了差异都意味着一个新Flow的发生 对于FLOW的分析展示同样也是要基于多维度的,ip(目的与源)、port(目的与源)、业务、网络架构、城市、IDC等等众多的维度,具体所需的维度依赖于自己的业务场景。 FLOW是厂商的私有协议,业界也有多种的Flow格式。例如CISCO、华为、juniper等等的主流厂商的flow也是均有一定差异性与优劣的,所以这部分的后台能力是需要有异构性的,织云基于腾云复杂的网络运维经验,目前是支持CISCO、华为、juniper 的不同FLOW。
网络设备 对于网络设备的监控,也一般从设备性能、质量、状态等维度入手。对于每台网络设备来说运维同学一般会关注如下场景: 网络设备的运行状态Syslog(设备运行日志)的监控与告警 设备堆叠状态下的(例如交换机堆叠)的监控与告警 网络设备上每个物理端口的、流量、包量、错包与端口状态的监控与告警。 网络设备上逻辑端口(物理端口组合)的性能与状态 …………… 等等高频场景。 (责任编辑:admin) |