案例解读 | 福建某银行运维一体化平台建设实践
6395乐维监控助力银行运维数字化发展
View detailsSearch the whole station
中国电信X省级IDC业务网管系统项目
中国电信集团有限公司(英文名称“China Telecom”、简称“中国电信”)成立于2000年9月,是中国特大型国有通信企业、上海世博会全球合作伙伴,连续多年入选”世界500强企业”,主要经营固定电话、移动通信、卫星通信、互联网接入及应用等综合信息服务。
截至2019年12月,拥有固定电话用户1.10亿户,移动电话用户3.35亿户,宽带用户 1.5亿户;集团公司总资产7109.64亿元,员工总数40余万人。
2019年6月6日,工信部正式向中国电信发放5G商用牌照。2020年5月13日,作为第一批倡议方,与国家发展改革委等部门发起“数字化转型伙伴行动”倡议。
面对日趋快速增长的大数据、智能化、云业务平台等应用系统,电信集团随着各项业务系统的未来趋势发展,对网络规模需求也越来越大,网络环境安全维度需求上升,不同业务架构设计日趋复杂,电信集团在全国各地园区的资源池IT 设施也越来越多;同时为保障旗下所有的业务日常正常运营,对信息系统及网络系统的健状性越发依赖,业务系统的稳定性、可靠性要求也越来越高。因此,迫切需要建设一套统一且高效灵活的IT基础综合统一监控平台,在提高各类信息系统日常运维的运作同时,也能达到实时化、可视化效果,量化运行质量,提高IT基础系统的可持续运行效率,可随着设备的增加灵活拓展,准确的智能化告警推送平台,保障业务能稳定的7*24不间断运行。
项目的核心技术要求主要是监控对象的覆盖率、告警的准确率、监控指标的完整性以及监控信息的可扩展性
1、 设备数量庞大、设备型号多、园区机房多、工作量大
2、 采集采集延时问题
3、 采集数据标准化
4、 分布式架构如何保证告警触发器一致性、方便维护
5、 链路关系如何进行自动发现以及呈现
1、 采用分布式架构:多server + 多 proxy 架构,服务器优化、增加表分区、采集方式优化
2、 使用kafka实时同步数据到大数平台
3、 模板开发找原厂家提供支持解决疑难问题、采集程序规划好方便扩展
4、 建立一套模板开发标准,键值命名符合规范
5、 配合并提供告警配置经验,上层系统统一配置告警触发器
1、 网络设备
品牌:华为、华三、思科、中兴、F5、博科、易安信、迈络思、迪普、IBM、A10、锐捷等
采集方式:SNMP
重要指标:CPU使用率、内存使用率、板卡状态、电源状态、风扇状态、端口状态、光衰、端口流量、Trap告警
2、 安全设备
品牌:华为、华三、知道创宇、天融信、深信服、山石、绿盟科技、启明星辰、飞塔、迪普、安恒等
采集方式:SNMP
重要指标:会话情况、CPU使用率、内存使用率、板卡状态、电源状态、风扇状态、端口状态、统计恶意攻击次数,Trap告警
3、 服务器设备
品牌:中兴、曙光、浪潮、惠普、华为、烽火科技、戴尔、IBM、联想、华三等
采集方式:SNMP 、SSH、爬虫等连接方式查询数据
重要指标:CPU状态、内存状态、磁盘信息、固态硬盘使用寿命、风扇状态、电源状态、电池状态、PCIE卡状态、缓存模块状态、逻辑盘状态、网卡状态,Trap告警
4、 存储设备
品牌:日立、惠普、华为、富士通、戴尔、NetApp、IBM、中兴、浪潮等
采集方式:SNMP 、SSH、SMI-S等连接查询数据
重要指标:RAID状态、LUN状态、磁盘框状态、电源状态、风扇状态、CPU状态、端口状态、内存状态、存储池状态、电池状态、节点状态、控制器状态、Trap告警
5、 操作系统
品牌:Redhat、Centos、windows、Aix等
采集方式:ansible
重要指标:CPU使用率、内存使用率、磁盘使用率、磁盘IO、系统日志、关键业务进程等
6、 数据库
品牌:Oracle
采集方式: ODBC
重要指标:缓存命中率、会话情况、慢查询、表空间、锁情况、连接数、共享池、数据库用户、ASM卷
1、及时定时向领导汇报当前进度,有困难及时提出。集团设备数量庞大、设备型号多、园区机房多、工作量大,我们每个月会针对当前的纳管情况以及客户的需求,制定下个月的模板研发计划,并在每周、每月进行汇报,使得客户能够清晰得了解整体的以及每个月的纳管情况,能够对我们的工作进行更加有针对性的,更有力的支持。
2、制定完备的方案针对可能出现的数据采集延时的情况,制定分析流程与工具,从监控端、中间网络以及被监控端这三个角度去分析,节省排查问题的时间,定位延时的根因。
3、模板的键值标准化,在使用kafka消息队列将数据汇总到统一管理监测平台之后,进行页面数据展示时,针对可能会出现无法精准匹配到需要展示的内容的问题。对此,我们对模板键值进行了深度改造,统一规划键值的命名方式以及指定每个键值对应的用途,从根本上解决了这个问题。
4、模板触发器统一性方案,触发器调整各地市都需要到调整一遍保持同步,工作繁锁并容易出错。因此,我们将触发器的配置转移到统一管理监测平台上,由专人管理以及维护,减少了这种不必要的重复性工作,减轻维护人员的负担,
5、链路解决方案自动发现与呈现,我们通过采集wwpn号、lldp协议、mac地址转发的方式,顺利实现了服务器——服务器、网络设备——网络设备、服务器——网络设备——存储,这几者之间的关系发现。
在未采用我方监控系统时,客户采用多套监控系统,主要包括zabbix监控告警、太阳风监控告警、ITSM短信告警、vmware及华为、华三CAS虚拟化平台远程巡检发现告警、存储管理平台远程巡检发现告警,但还是存在部分告警未被发现的情况。在部署我方监控系统的初期时,有效而准确的告警占比达到了21%。
而在项目建成的后期,我方监控系统有效告警占比达到了96%。
由此可见,本次项目监控系统方案对于客户的收益如下:
1、 设备发生严重告警时,能够及时通知维护人员,使得维护人员无需时刻担心有告警但无法监测到的情况;
2、 维护人员将设备都录入监控系统,能够数据化、图形化展示各个园区的设备资源使用情况,方便进行统计;
3、 极大节省了人力物力开支成本,无需使用多套运维系统,人工巡检的频次也可以降低;
4、 提前预警,在设备因异常的故障变得不可用之前,能够进行提前预知高警通知,让维护人员能够提前联系厂家进行技术维护,使得在减少技术人员的维护工作同时,也能让维护人员把更多的精力投在关键业务上
IT监控是监控IT软硬件运行状况的一套系统,它可以监控服务器、存储、网络设备、操作系统、数据库等等;它不同于我们常见的视频监控,后者多用于监控人、公共...
View details