Search the whole station

案例解读 | 浙江某农商行一站式运维监控平台建设实践

项目背景
01客户简介

案例客户是浙江某地级市的农村商业银行。

02痛点分析

随着信息化建设的不断推进,案例客户数据中心的规模随之扩大,带来的运营管理难度也在不断加大,原有的运维体系不能满足当前需求,主要表现为:

1. IT设备规模大且分散、管理困难,缺少可视化管理系统和可靠的管理手段;

2. IT环境异构、业务系统繁多,无法快速适应复杂环境下设备的监管;

3. 故障定位困难,业务系统出现故障波动时,根因排查分析缓慢;

4. 业务负载逐年增加,无法确定业务系统功能完整可用性;业务形态更加多种多样,部署环境愈加复杂;为了适应发展的需求,业务调整日趋频繁,现有的监控体系无法跟业务节点的扩张速度;

5. 技术的快速演进,对运维团队提出了更高的要求。

解决方案

为了提高运营管理效率,保障业务系统稳定性,该客户引进了乐维智能监控平台。乐维智能监控平台是集监、管、控、服于一体的一站式运维监控平台,提供从全栈监控、集中告警到资产发现、数字化业务、故障诊断、可视化、决策辅助等成熟功能,具有如下亮点:

01全栈监控

项目建成后,乐维智能监控平台实现了对该行所有软硬件IT资源的监控纳管,包括操作系统、服务器、数据库、中间件、网络设备、存储、探测、链路、虚拟化、云平台等,包括先前难以监控的信创资源,达到“一个平台包打天下”的效果,运维人员日常工作只需关注一个监控系统就可以了。

同时,该监控平台具有非常高效的性能,能够对大规模的监控节点实现秒级查询。这就意味着平台能够快速处理大量数据,即使在高负载情况下也能保持其性能,即时响应监控数据的变化,提供最新的系统状态信息,提高响应速度。

02集中告警

基于统一监控的集中告警管理,提供可视化集中告警界面,支持配置不同告警级别的声音通知,便于工程师快速聚焦故障信息处理。

具体来说,包括实时告警、告警通知(支持告警升级与告警抑制)、告警分析、告警自愈等核心功能。

实时告警:以时间线条方式展示最新告警,柱状图呈现告警变化趋势,支持声音提醒、告警弹窗。

告警通知:提供自定义通知规则,支持短信、邮箱、微信、钉钉、机器人、脚本等推送方式,支持告警升级与告警抑制。

告警分析:支持关联拓扑,快速定位故障影响的业务范围;联动CMDB,获取故障设备负责人、联系电话、所属机房、机柜信息、维护厂商等信息。

故障自愈:根据预设的规则,针对一些常见故障,自动触发相应的脚本,恢复设备告警。(如:系统磁盘空间不足告警,自动触发“磁盘日志文件清除脚本”,恢复空间使用)

03资产发现

资产发现能力能够实现一键发现资产并将其进行监控纳管。具体来说,该行配备了大量的交换机、路由器、防火墙,甚至是Linux等资产,依托资产发现能力,监控平台可以自动扫描设备类型,一键添加监控。它能有效减少手动配置工作,提高监控系统的纳管速度和准确性,降低管理成本。

04数字化业务

数字化业务是这款运维监控平台区别于市面上大多数同类产品的最具特色的功能,其核心是自动发现与生成的业务拓扑。业务拓扑能够将支撑业务系统的资源及其关系以可视的拓扑图形式映射出来,结合告警展示,运维人员一眼就可以定位故障位置及其影响范围,节省宝贵的排障时间。

围绕业务拓扑,数字化业务还包括业务一览、业务资源 、业务进程、版本追踪、业务容量、业务大屏、指标分析、业务健康度等重点功能。

业务一览主要用于展示业务整体概况,包括业务总数、状态分析、业务排行、健康度分布等,同时可以配置和优先展示重点业务系统信息;

业务资源以列表形式详尽展示业务拓扑中已监控的节点信息,内容较拓扑图详细;

业务进程用于监控监控业务应用进程,可查看进程名称、进程描述、进程路径以及关联端口等详细信息;

版本追踪可追踪业务拓扑的变更过程,支持变更通知提醒;

业务容量可查看整体的CPU、内存以及文件系统使用率,有助于预测和规划资源需求,降低了因资源不足,而导致的性能问题和风险;

业务大屏即业务上墙,可直观展示所有业务健康情况,包括业务关系、业务告警、业务健康度等信息;

指标分析支持同一时间多指标联动分析,可自定义配置关注的分析指标;

业务健康度则通过智能算法与模型对业务系统健康状态进行打分,健康度越高意味着系统越健康。

05网络拓扑

以拓扑图的形式展现网络设备、服务器、存储之间的链接关系,能够联动告警信息,帮助运维人员及时了解网络问题,提高网络运行的效率和稳定性。网络拓扑是支持自动发现并生成网络拓扑图的。

06知识库

支持知识检索与故障知识自动关联,便于运维人员查找故障解决方案。

07投屏视图

提供自定义投屏功能,用户可选取丰富的视图组件,配置所需的管理视图。

08报表系统

提供各类型统计报表,如实时报表、TOPN报表、日报周报、主机性能报表等,为运维决策提供支撑;运维人员也可根据需要自定义配置报表。

客户收益

项目建成交付后,一站式运维监控平台为客户带来如下收益:

提高运维效率。基于全栈监控实现对该行所有的IT资源的统一监控纳管,结合集中告警,让运维管理不留死角,运维人员得以即时发现故障异常并快速响应,有效提高运维效率;

保障业务长期稳定。以业务为核心的统一运维监控实现对该行关键业务流进行动态监测,确保业务运行可用性及稳定性,可以有效地发现高风险事件,进而降低系统业务风险,避免经济损失;

降低管理成本。乐维智能运维监控平台的投入使用使该行系统的资源利用率、可靠性、稳定性、性能、配置管理的简易性和快捷性等都得到了相当大的改善,很大程度节省了其软硬件基础设施和人力资源投入。

乐维社区已经开放乐维监控免费版和乐维MCM(监控+CMDB)免费版,欢迎下载使用

The prev: The next:

Related recommendations

Expand more!