2021-01-25 03:09
摘要:
面临突发状况,为运维人员提供及时、可靠的告警通知,准确定位事件爆发点,使80%故障处理速度压缩在半小时以内,有效降低了运维人员的工作复杂度,缩减日常维护成本30%以上。
前言
项目名称
XX国际证券(上海)有限公司基础监控项目
客户简介
XX国际证券(上海)有限公司是中国证监会首批获准设立的外资控股证券公司。公司注册资金200000万元,经营范围主要包括:证券经纪、证券投资咨询、证券自营、证券资产管理等。
项目背景
随着该公司业务的日益增长,底层IT基础设施也在不断扩张,各种硬件、信息系统故障亦随之而来。现有监控系统功能较为简单,且无有效的告警通知手段,导致故障发生时,人员响应速度较慢,无法及时定位问题所在。日常监控只能靠运维人员不停地盯着屏幕进行监视,无疑增强了IT人员的管理难度。
为解决业务支撑系统全方位的保障,一套功能完善的监控体系,已成为公司发展中的必要因素。
客户痛点
IT资产管理混乱、梳理难度大、信息缺失严重。
公司机房多、网络区域划分复杂、设备难以集中管理。
业务专线链路繁多,频繁传输大文件,稳定性难以保障。
公司重要门户缺少人员维护,每日手动进行拨测。
故障发现不及时,往往由业务人员提前发现问题。
解决方案
资产梳理:依据严谨的命名规则、遵守科学合理的分组规范,对资产进行纳管;
大屏视图:展示完整网络拓扑架构、IDC间重要链路的时时状态;
门户监测:模拟登录、多步骤监测门户服务状态,可视化展示WEB访问速度、响应时间的变化趋势;
告警中心:结合该公司已有短信、邮件系统,开启双通道告警推送模式,支持短信、邮件消息自定义推送,支持告警分析、告警历史查询等功能。
项目目标
建立XX国际证券的基础运维管理体系;
结合XX国际证券运维现状、推进基础转型建设工作;
推进XX国际证券业务监控指标体系搭建方法论的实践落地;
初步制定XX国际证券基础监控能力体系;
建立统一的基础监控中心;
建立统一的基础告警中心;
建立统一的基础业务故障管理平台;
实施方案
系统架构
架构图
该项目首次采用了基于PostgreSQL流复制+Pgpool-II HA作为监控底层数据库的分布式部署方案。通过Corosync和Pacemaker使用Pcs实现Zabbix、Web、Proxy节点的高可用集群架构;灾难状态下双节点实现自动切换,极大保障了基础监控体系自身的可靠性。
资源需求
监控系统由主采集、Web门户、数据库、代理采集四个角色组成,其中主采集、Web门户、数据库都是双节点;代理采集分为两组,每组各有两个节点。
角色 | 配置 | IP地址 | 节点数量 |
主采集 | 8C 16G 200G | 三个IP地址 | 2 |
WEB门户 | 4C 8G 200G | 三个IP地址 | 2 |
数据库 | 8C 16G 2.2T | 三个IP地址 | 2 |
代理采集一组 | 8C 8G 200G | 三个IP地址 | 2 |
代理采集二组 | 8C 8G 200G | 三个IP地址 | 2 |
服务器分布
主采集、Web门户、数据库、代理采集一组分布在机房A-XX区域,监控覆盖范围包括:机房A-XX区、机房C-XX区,覆盖率100%;
代理采集二组分布在机房B-XX区,监控覆盖范围包括:机房A-XXX区、机房B-XX区、XX区、机房C-XX区,覆盖率100%。
角色 | 数量 | 位置分布 | 监控覆盖范围 |
主采集服务器 WEB门户 数据库 代理采集服务器 | 8台 | 机房A-XX区 | 机房A-XX区 机房C-XX区 |
代理采集服务器 | 2台 | 机房B-XX区 | 机房A-XX区 机房B-XX区、XX区 机房C-XX区 |
监控对象
类型 | 品牌 |
网络设备 | 思科、华三、山石、飞塔、Palo Alto、F5、深信服 |
安全设备 | 深信服、绿盟、山石、飞塔 |
服务器 | 惠普、戴尔、联想、华三 |
存储 | 戴尔、昆腾 |
操作系统 | Windows、CentOS、Redhat |
虚拟化 | VMware |
数据库 | Oracle、MySQL、SQLServer |
中间件 | Tomcat、Nginx |
方案价值
该方案深度剖析了客户在基础信息管理维护方面的痛点,针对客户着重提出的问题进行解决,摒弃了运维人员以往“盯屏”式的工作模式。建立起一套由监控中心、告警中心、资产管理中心为一体的智能监控体系。实现了信息化基础设施全覆盖监控,降低了人工维护成本,亦成为公司业务稳定运行的强有力支撑。
网络投屏
网络投屏清晰展示了机房A、B、C、D之间的互联关系,以及各机房内的子网区域组成,通过设备、线路颜色可以很直观看出网络成员的运行状态,如下:
专线链路
链路监控可直观看出重要业务专线的实时带宽利用率,在利用率达到专线自身的百分比阈值后即会出发告警;亦可进一步查看某条专线的延迟、抖动情况,如下:
门户网站
与客户沟通得知,早期该公司门户偶尔会出现无法访问的情况,影响较大,公司领导基本每天早上上班前都会手动挨个进行访问检查;目前处于监控状态,Web会实时拨测,也可以详细查看门户网页的响应速度,有效避免了往日重复的人为检测,如下:
短信通知
该公司采用了短信告警通知方式,系统故障时,运维人员能够第一时间获取到事件通知,打破以往业务人员提前发现信息系统故障的窘境,如下:
客户收益
通过详细的设计与规划,建立起一套性能优越、功能强大,监控覆盖范围广且灵活的运维监控管理体系,极大保障了业务系统的稳定运行;
面临突发状况,为运维人员提供及时、可靠的告警通知,准确定位事件爆发点,使80%故障处理速度压缩在半小时以内,有效降低了运维人员的工作复杂度,缩减日常维护成本30%以上。
加入我们,享受技术乐趣