Search the whole station

案例解读 | 某大型国际证券企业智能运维平台建设实践

客户简介

案例客户是亚洲地区一家大型国际证券企业,其注册资金200000万,经营范围主要包括:证券经纪、证券投资咨询、证券自营、证券资产管理等。

痛点分析

证券行业是一个数据密集型、科技密集型行业。案例客户作为一家大型证券公司,其IT系统包括多个子系统,涉及交易、结算、风控等多个方面,系统架构复杂,大量的IT资源需要进行管理和维护,特别是核心交易系统需要处理大量的交易数据和高并发的交易请求,对系统的性能和稳定性提出了较高的要求。

随着该客户业务的日益增长,其底层IT基础设施规模也在不断扩张,各种硬件设施、信息系统故障逐渐增多。与之相对应的是,现有监控系统功能较为简单,且没有有效的告警通知手段,故障发生时,人员响应速度较慢,无法及时定位问题所在;日常监控只能靠运维人员不停地盯着屏幕进行监视,无疑增加了运维人员的管理难度。

具体来说,该客户在IT运维过程面对的问题如下:

  • IT资产管理混乱,梳理难度大,信息缺失严重;
  • 公司机房多,网络区域划分复杂,设备难以集中管理;
  • 业务专线链路繁多,频繁传输大文件,稳定性难以保障;
  • 公司重要门户缺少人员维护,每日手动进行拨测;
  • 故障发现不及时,从故障产生到前台业务人员发现并反馈问题,再到运维人员接收到故障信息存在较大的时间差,响应滞后。

为解决上述问题,该客户将搭建一套功能完善的监控体系提上日程,希望通过对原有运维体系的改造升级满足对整个业务系统的全方位保障。

乐维方案

基于证券企业IT系统结构特点,结合客户运维痛点与实际需求,乐维为该证券客户打造了涵盖全局监控、资产梳理、大屏视图、专线链路、管理门户、告警中心等于一体的智能运维解决方案,提供一站式运维管理服务,以有效解决该客户在运维实践中的痛点与难点。

系统架构

出于高可用与安全方面的考量,该项目采用了基于PostgreSQL流复制+Pgpool-II HA作为监控底层数据库的分布式部署方案,以有效应对海量交易数据与高并发问题,并通过Corosync和Pacemaker使用Pcs实现zabbix、Web、Proxy节点的高可用集群架构,同时灾难状态下双节点实现自动切换,极大保障了基础监控体系自身的可靠性。

重点功能场景

(1) 全局监控:资源全监控,状态全可感。实现对客户所有资源,包括网络设备、安全设备、服务器、存储、操作系统、虚拟化、数据库、中间件的全监控;

(2) 资产梳理:依据严谨的命名规则、遵守科学合理的分组规范,对资产进行纳管;

(3) 大屏视图:提供网络拓扑、业务大屏等,如网络拓扑图可以展示完整网络拓扑架构、IDC间重要链路的实时状态;

(4) 专线链路:实时感知业务专线带宽利用情况,自动触发阈值告警,同时查看专线的延迟、抖动情况;

(5) 门户监测:模拟登录、多步骤监测门户服务状态,可视化展示WEB访问速度、响应时间的变化趋势;

(6) 告警中心:结合该公司已有短信平台,开启短信告警推送模式,支持短信、邮件消息自定义、告警分析、告警历史。

全局监控:

乐维监控从全局视角出发,提供统一监控与统一展示,运维管理人员一眼就可以看到系统全局的健康状态,通过切换标签快速触达故障资源信息。同时基于统一监控生成统一告警,告警信息可通过桌面端(系统本身、PC端邮件等)与移动端(短信、手机邮件等)推送。

资产梳理:

客户面临着大量资产需要进行高效管理的问题,其难点在于资产类别、品牌各异,缺乏统一的命名范式。乐维方案依据严谨的命名规则、遵守科学合理的分组规范,对资产进行纳管。

大屏视图:

展示完整网络拓扑架构、IDC间重要链路的实时状态,解决故障发现不及时与定位难的问题。如图,网络投屏清晰展示了机房之间的互联关系,以及各机房内的子网区域组成,通过设备、线路颜色可以很直观看出网络成员的运行状态。

专线链路:

链路监控可直观看出重要业务专线的实时带宽利用率,在利用率达到专线自身的百分比阈值后即会出发告警;亦可进一步查看某条专线的延迟、抖动情况,如下:

门户网站:

与客户沟通得知,早期该公司门户偶尔会出现无法访问的情况,影响较大,公司领导基本每天早上上班前都会手动挨个进行访问检查;目前处于监控状态,WEB会时时拨测,也可以详细查看门户网页的响应速度,有效避免了往日重复的人为检测,如下:

短信通知:

该公司采用了短信告警通知方式,系统故障时,运维人员能够第一时间获取到事件通知,打破了以往业务人员提前发现信息系统故障的窘境,如下:

实施概况

资源要求

监控系统由主采集、WEB门户、数据库、代理采集四个角色组成,其中主采集、WEB门户、数据库都是双节点;代理采集分为两组,每组各有两个节点。

服务器分布:

主采集、WEB门户、数据库、代理采集一组分布在机房A-1区域,监控覆盖范围包括:机房A-1区、机房C-1区,覆盖率100%;代理采集二组分布在机房B-1区,监控覆盖范围包括:机房A-1区、机房B-1区、2区、机房C-1区,覆盖率100%。

监控对象

客户收益

该方案深度剖析了客户在基础信息管理维护方面的痛点,通过详细的设计与规划,建立起一套性能优越、功能强大,监控覆盖范围广且灵活的运维监控管理体系。

  • 实现了信息化基础设施全覆盖监控,资源状态全感知,成为客户业务稳定运行的强有力支撑;
  • 摒弃以往“盯屏”式的工作模式,突发故障时,为运维人员提供及时、可靠的告警通知,准确定位事件爆发点;
  • 有效降低了运维人员的工作复杂度,缩减了信息系统的日常维护成本,极大保障了业务系统的稳定性。
The prev: The next:

Related recommendations

Expand more!