【实践】乐维助力国家电网省级公司建设世界一流数字化运维企业

2021-01-20 02:52

作者:乐维

摘要:

通过乐维产品及服务,实现对所有软硬件设备进行监控,综合展现运维管理统计信息和数据,以一个综合展现的平台展现所有关键管理数据,实现用户有效及时得到故障信息,提供快速故障定位,故障分析,容量预测,最终实现

一、项目名称

国家电网XX省级电力有限公司-自动化运维服务项目



二、项目背景

该公司以“世界一数字化企业”为目标,全面推进云和数据中台深化建设及应用,构建架构完善、灵活开放、敏捷响应、随需迭代、运营高效的一体化云平台,实现公司IT资源和数据资源的全局共享、高效应用。

公司内网云和外网云平台已完成建设,内网云平台可提供2400台云服务器、270套云数据库、1072TB对象存储,每天可处理12万次大数据分析任务。外网云平台可提供600台云服务器和190台云数据库,支撑了公司数据中台、业务中台和上百套业务系统云上稳定运行。为保障云平台、数据中台、业务中台和业务系统的正常运行,加强云平台的调度控制能力,需要提高云平台的基础监控能力。

随着云平台承载的业务系统数量日益增长,平台性能方面的压力也与日俱增,从平台运维角度来说,公司需要一个功能完善的监控体系,来及时获悉平台的各项性能指标,保障平台的稳定可用。目前,阿里云提供的平台侧监控功能分散在天基、铜雀、TAC、ASO等平台,各平台间监控内容存在重复,缺少功能完整的统一入口。业务侧监控无成型产品,无法实现故障的及时定位,故障修复周期较长。



三、基础架构监控

采用分布式实施,分别集中监控线上(阿里云) IT基础架构和线下IT基础架构,将不同类别的基础架构统一在一个平台上实现监控功能。分别对主机、网络、存储、数据库、中间件、硬件和虚拟化等实现一站式监控,针对各IT基础架构的指标逐一分析、管理,保障业务高效稳定的运行。



四、数据库容量增长

针对所有线上oracle数据库,定时把表空间、ASM、IO、数据库配置等参数,定时写入到一个新的数据库,通过对新数据库的监控,对比各业务系统数据库的变化,统计筛选性能使用过高的数据库,并给出优化建议。


五、容量趋势预测

从运维人员出发,在节假日,由于容量资源使用问题,运维人员还要进行资源扩容。对操作系统磁盘空间使用百分比inodes空间使用百分比,数据库表空间剩余百分比,ASM使用百分比。据前期数据的化,预测后期变化,推断后一个月么时间段会达到阈值。



六、台账管理

对所有线上、线下操作系统账号进行管理,可直接在界面查看各操作系统已创建的账号、最新修改时间、账号的有效期等。



七、业务系统管理

针对客户环境业务系统较多的情况,通过界面方式对业务系统进行管理,可直观查看业务系统类型、负责人、包含服务器等信息。

 当出现故障时,值班台可通过界面查询系统维护相关人员,通知其处理故障问题。



八、摄像头设备监控指标详情

SNMP指标ICMP
报警输入通道个数
报警输出通道数
音频输入数量
清晰频道数量
视频输入通道数量
视频输出数量
设备类型
动态网络地址掩码
动态网络地址
制造商代号
MAC地址
动态网络地址网关
设备制造商
音频能力
CPU使用百分比
静态网络地址网关
支持网络访问类型
静态网络地址
静态网络地址掩码
RTSP回溯支持
时间同步地址
网络管理主机地址
支持本地存储
内存大小总
系统时间
视频网络传输类型
视频编码类型
设备版本
软件版本
内存使用率
磁盘使用率
磁盘大小
SDK指标名称
类型名
产品线
型号
序列号
设备时间
主控版本
编码版本
WEB版本
报警输入个数
报警输出个数
232串口个数
485串口个数
网络口个数
硬盘控制器个数
硬盘个数
通道数量
VGA口数量
USB口数量
辅口数量
语音口数量
是否支持远程开机
ID管理
最大IP通道数量
零通道个数
是否支持智能搜索
是否支持备份
是否支持压缩参数能力获取
是否支持多网卡
是否支持远程SADP
是否支持Raid卡功能
是否支持IPSAN搜索
是否支持rtp over rtsp
是否支持snmp v30
是否区分回放和下载
是否支持布防优先级
是否支持布防时间段扩展
是否支持多磁盘数(超过33个)
是否支持rtsp over http
启用红外灯
启用telnet
启用ABF
启用指示灯
启用自动除雾
启用补光灯
启用除冰功能
可见光机芯电源开关
热成像机芯电源开关
云台电源开关
低功耗策略
IP地址管理
网关
掩码
MAC地址
MTU值
DNS
http访问端口
服务端口
启用DHCP
设备工作状态
设备本地显示器
启用SNMP
snmptrap地址
trap端口
启用NTP
NTP服务器
NTP校时时间间隔
NTP端口


 

九、客户收益

通过乐维产品及服务,实现对所有软硬件设备进行监控,综合展现运维管理统计信息和数据,以一个综合展现的平台展现所有关键管理数据,实现用户有效及时得到故障信息,提供快速故障定位,故障分析,容量预测,最终实现运维管理要求。

监控系统给用户的运维带来的价值表现为:

1、减少了繁多的重复工作量,减轻运维人员压力,降低人员投入成本30%;

2、实现容量趋势预测,避免非工作日返回公司对各系统进行扩容的问题,系统宕机风险降低70%;

3、通过界面管理业务系统相关信息,纳管对象一目了然,避免所属业务系统服务器监管遗漏,做到监控全覆盖,故障可定位,处理流程可追溯。


加入我们享受技术乐趣