【实践】有效告警提升75%!电信巨头爱上乐维多Server+多Proxy架构

2020-12-18 12:52

作者:乐维

摘要:

采用分布式架构:多server + 多 proxy 架构,服务器优化、增加表分区、采集方式优化

一、 项目名称

中国电信X省级IDC业务网管系统项目

二、 客户介绍

中国电信集团有限公司(英文名称China Telecom”、简称“中国电信”)成立于20009月,是中国特大型国有通信企业、上海世博会全球合作伙伴,连续多年入选"世界500强企业",主要经营固定电话、移动通信、卫星通信、互联网接入及应用等综合信息服务。

截至201912月,拥有固定电话用户1.10亿户,移动电话用户3.35亿户,宽带用户 1.5亿户;集团公司总资产7109.64亿元,员工总数40余万人。

201966日,工信部正式向中国电信发放5G商用牌照。2020513日,作为第一批倡议方,与国家发展改革委等部门发起“数字化转型伙伴行动”倡议。

三、 项目背景

面对日趋快速增长的大数据、智能化、云业务平台等应用系统,电信集团随着各项业务系统的未来趋势发展,对网络规模需求也越来越大,网络环境安全维度需求上升,不同业务架构设计日趋复杂,电信集团在全国各地园区的资源池IT 设施也越来越多;同时为保障旗下所有的业务日常正常运营,对信息系统及网络系统的健状性越发依赖,业务系统的稳定性、可靠性要求也越来越高。因此,迫切需要建设一套统一且高效灵活的IT基础综合统一监控平台,在提高各类信息系统日常运维的运作同时,也能达到实时化、可视化效果,量化运行质量,提高IT基础系统的可持续运行效率,可随着设备的增加灵活拓展,准确的智能化告警推送平台,保障业务能稳定的7*24不间断运行。

项目的核心技术要求主要是监控对象的覆盖率、告警的准确率、监控指标的完整性以及监控信息的可扩展性

 

四、 面临问题

1、 设备数量庞大、设备型号多、园区机房多、工作量大

2、 采集采集延时问题

3、 采集数据标准化

4、 分布式架构如何保证告警触发器一致性、方便维护

5、 链路关系如何进行自动发现以及呈现

五、 解决方案

1、 采用分布式架构:多server + proxy 架构,服务器优化、增加表分区、采集方式优化

2、 使用kafka实时同步数据到大数平台

3、 模板开发找原厂家提供支持解决疑难问题、采集程序规划好方便扩展

4、 建立一套模板开发标准,键值命名符合规范

5、 配合并提供告警配置经验,上层系统统一配置告警触发器

六、 实施过程

 

² 本项目先从带外设备,即网络设备、硬件服务器、安全设备、存储设备开始,搭建统一的监控系统平台,逐渐扩展到操作系统、数据库、虚拟化等其他带内主机的监控,实现电信集团的IT基础架构以及业务系统的统一管理与监测

² 初期,主要提高监控对象的覆盖率

² 中期主要提高告警的准确率,监控项采集调优,触发器调优等方面

² 后期主要是完善监控的完整性以及使采集回来的数据进行一系列的整合,统一展示等

² 监控覆盖率超出集团要求的95%,达到了97%

 

总体架构

² 全国各园区的底层采用统一的分布式架构,监控所用到的采集模板、采集脚本支持其他的园区进行复用,节省开发模板消耗的人力物力;

² 各园区底层采用统一的数据库,使用关系型数据库,保证监控系统能够持续且稳定运行,降低维护人员上手维护难度;

² 采集数据采用kafka消息队列订阅消费方式,将各园区的监控数据进行汇总,提交到统一管理监测平台,起到连接监测平台与各园区监控系统关联的作用;

² 采用统一的展示、监测、集中管理平台,使集团能够实时的掌握各园区设备运行情况。

 

监控对象

1、 网络设备

品牌:华为、华三、思科、中兴、F5、博科、易安信、迈络思、迪普、IBMA10、锐捷等

采集方式:SNMP 

重要指标:CPU使用率、内存使用率、板卡状态、电源状态、风扇状态、端口状态、光衰、端口流量、Trap告警

 

2、 安全设备

品牌:华为、华三、知道创宇、天融信、深信服、山石、绿盟科技、启明星辰、飞塔、迪普、安恒等

采集方式:SNMP 

重要指标:会话情况、CPU使用率、内存使用率、板卡状态、电源状态、风扇状态、端口状态、统计恶意攻击次数,Trap告警

 

3、 服务器设备

品牌:中兴、曙光、浪潮、惠普、华为、烽火科技、戴尔、IBM、联想、华三等

采集方式:SNMP SSH、爬虫等连接方式查询数据

重要指标:CPU状态、内存状态、磁盘信息、固态硬盘使用寿命、风扇状态、电源状态、电池状态、PCIE卡状态、缓存模块状态、逻辑盘状态、网卡状态,Trap告警

 

4、 存储设备

品牌:日立、惠普、华为、富士通、戴尔、NetAppIBM、中兴、浪潮等

采集方式:SNMP SSHSMI-S等连接查询数据

重要指标:RAID状态、LUN状态、磁盘框状态、电源状态、风扇状态、CPU状态、端口状态、内存状态、存储池状态、电池状态、节点状态、控制器状态、Trap告警

 

5、 操作系统

品牌:RedhatCentoswindowsAix

采集方式:ansible

重要指标:CPU使用率、内存使用率、磁盘使用率、磁盘IO、系统日志、关键业务进程等

 

6、 数据库

品牌:Oracle

采集方式: ODBC 

重要指标:缓存命中率、会话情况、慢查询、表空间、锁情况、连接数、共享池、数据库用户、ASM

 

制度规划

1、及时定时向领导汇报当前进度,有困难及时提出。集团设备数量庞大、设备型号多、园区机房多、工作量大,我们每个月会针对当前的纳管情况以及客户的需求,制定下个月的模板研发计划,并在每周、每月进行汇报,使得客户能够清晰得了解整体的以及每个月的纳管情况,能够对我们的工作进行更加有针对性的,更有力的支持。

 

2、制定完备的方案针对可能出现的数据采集延时的情况,制定分析流程与工具,从监控端、中间网络以及被监控端这三个角度去分析,节省排查问题的时间,定位延时的根因。

 

3、模板的键值标准化,在使用kafka消息队列将数据汇总到统一管理监测平台之后,进行页面数据展示时,针对可能会出现无法精准匹配到需要展示的内容的问题。对此,我们对模板键值进行了深度改造,统一规划键值的命名方式以及指定每个键值对应的用途,从根本上解决了这个问题。

 

4、模板触发器统一性方案,触发器调整各地市都需要到调整一遍保持同步,工作繁锁并容易出错。因此,我们将触发器的配置转移到统一管理监测平台上,由专人管理以及维护,减少了这种不必要的重复性工作,减轻维护人员的负担,

 

5、链路解决方案自动发现与呈现,我们通过采集wwpn号、lldp协议、mac地址转发的方式,顺利实现了服务器——服务器、网络设备——网络设备、服务器——网络设备——存储,这几者之间的关系发现。

 

七、 方案价值

在未采用我方监控系统时,客户采用多套监控系统,主要包括zabbix监控告警、太阳风监控告警、ITSM短信告警、vmware及华为、华三CAS虚拟化平台远程巡检发现告警、存储管理平台远程巡检发现告警,但还是存在部分告警未被发现的情况。在部署我方监控系统的初期时,有效而准确的告警占比达到了21%

而在项目建成的后期,我方监控系统有效告警占比达到了96%

由此可见,本次项目监控系统方案对于客户的收益如下:

1、 设备发生严重告警时,能够及时通知维护人员,使得维护人员无需时刻担心有告警但无法监测到的情况;

2、 维护人员将设备都录入监控系统,能够数据化、图形化展示各个园区的设备资源使用情况,方便进行统计;

3、 极大节省了人力物力开支成本,无需使用多套运维系统,人工巡检的频次也可以降低;

4、 提前预警,在设备因异常的故障变得不可用之前,能够进行提前预知高警通知,让维护人员能够提前联系厂家进行技术维护,使得在减少技术人员的维护工作同时,也能让维护人员把更多的精力投在关键业务上

 

八、 客户收益

² 充分、实时掌握集团各级单位IT资源的详细信息;

² 实现资源集中展现,统一权限管控的同时可实现分级管理;

² 统一各级单位管理平台,整体提升深化IT资源监控能力和管理水平;

² 促进各级管理流程的规范化和一致性;

² 编制集团统一监控系统建设和使用规范;

² 实现集团网络设备的准入控制功能。

² 实现集团数据中台可视化资源展示。