上海某国际证券公司的ITIM建设纪实

2021-01-25 03:09

作者:乐维

摘要:

面临突发状况,为运维人员提供及时、可靠的告警通知,准确定位事件爆发点,使80%故障处理速度压缩在半小时以内,有效降低了运维人员的工作复杂度,缩减日常维护成本30%以上。

>>>>

前言

根据《证券期货业信息安全事件报告与调查处理办法》(证监会公告[2012]46号,简称《46号公告》),将信息安全事件分为特别重大事件、重大事件、较大事件、一般事件四类。
根据证监会网站发布的《证券公司分类监管规定(2017修订)》,证券公司风险管理能力评价指标与标准。主要包括资本充足、公司治理与合规管理、全面风险管理、信息系统安全、客户权益保护、信息披露等6类。
其中信息系统安全主要包括 IT 治理完善,信息系统管理机制独立有效;
信息系统功能齐备,有效满足客户委托、交易、清算、开户、查询等需求,客户电子资料等信息安全;
信息系统安全稳定运行,能够避免频繁信息安全事故或重大事故;
信息系统应急预案有效,能够及时应对信息安全事故等四类。
一次较大信息安全事件对证券公司就是一场灾难,影响公司的分类级别,进而影响投资者保护基金的缴纳金额,还可能影响新业务资质的申请,银行贷款授信、券商债券业务、投保基金上交额、新业务申请、股票质押等现有业务展业、并且面临更严格的合规检查。

基于以上的风险和考虑,上海某国际证券公司选择与乐维合作,希望我们帮助其设计完整的智能运维架构,本项目是整个项目的基础监控部分。

>>>>

项目名称

XX国际证券(上海)有限公司基础监控项目


>>>>

客户简介

XX国际证券(上海)有限公司是中国证监会首批获准设立的外资控股证券公司。公司注册资金200000万元,经营范围主要包括:证券经纪、证券投资咨询、证券自营、证券资产管理等。


>>>>

项目背景

随着该公司业务的日益增长,底层IT基础设施也在不断扩张,各种硬件、信息系统故障亦随之而来。现有监控系统功能较为简单,且无有效的告警通知手段,导致故障发生时,人员响应速度较慢,无法及时定位问题所在。日常监控只能靠运维人员不停地盯着屏幕进行监视,无疑增强了IT人员的管理难度。

为解决业务支撑系统全方位的保障,一套功能完善的监控体系,已成为公司发展中的必要因素。



>>>>

客户痛点

IT资产管理混乱、梳理难度大、信息缺失严重。

公司机房多、网络区域划分复杂、设备难以集中管理。

业务专线链路繁多,频繁传输大文件,稳定性难以保障。

公司重要门户缺少人员维护,每日手动进行拨测。

故障发现不及时,往往由业务人员提前发现问题。



>>>>

解决方案

资产梳理:依据严谨的命名规则、遵守科学合理的分组规范,对资产进行纳管;

大屏视图:展示完整网络拓扑架构、IDC间重要链路的时时状态;

门户监测:模拟登录、多步骤监测门户服务状态,可视化展示WEB访问速度、响应时间的变化趋势;

告警中心:结合该公司已有短信、邮件系统,开启双通道告警推送模式,支持短信、邮件消息自定义推送,支持告警分析、告警历史查询等功能。



>>>>

项目目标

建立XX国际证券的基础运维管理体系;

结合XX国际证券运维现状、推进基础转型建设工作;

推进XX国际证券业务监控指标体系搭建方法论的实践落地;

初步制定XX国际证券基础监控能力体系;

建立统一的基础监控中心;

建立统一的基础告警中心;

建立统一的基础业务故障管理平台;



>>>>

实施方案

系统架构

架构图


该项目首次采用了基于PostgreSQL流复制+Pgpool-II HA作为监控底层数据库的分布式部署方案。通过Corosync和Pacemaker使用Pcs实现Zabbix、Web、Proxy节点的高可用集群架构;灾难状态下双节点实现自动切换,极大保障了基础监控体系自身的可靠性。


>>>>

资源需求

监控系统由主采集、Web门户、数据库、代理采集四个角色组成,其中主采集、Web门户、数据库都是双节点;代理采集分为两组,每组各有两个节点。

角色

配置

IP地址

节点数量

主采集

8C 16G 200G

三个IP地址

2

WEB门户

4C 8G 200G

三个IP地址

2

数据库

8C 16G 2.2T

三个IP地址

2

代理采集一组

8C 8G 200G

三个IP地址

2

代理采集二组

8C 8G 200G

三个IP地址

2



>>>>

服务器分布

主采集、Web门户、数据库、代理采集一组分布在机房A-XX区域,监控覆盖范围包括:机房A-XX区、机房C-XX区,覆盖率100%;

代理采集二组分布在机房B-XX区,监控覆盖范围包括:机房A-XXX区、机房B-XX区、XX区、机房C-XX区,覆盖率100%。

角色

数量

位置分布

监控覆盖范围

主采集服务器

WEB门户

数据库

代理采集服务器

8台

机房A-XX区

机房A-XX区

机房C-XX区

代理采集服务器

2台

机房B-XX区

机房A-XX区

机房B-XX区、XX区

机房C-XX区



>>>>

监控对象

类型

品牌

网络设备

思科、华三、山石、飞塔、Palo Alto、F5、深信服

安全设备

深信服、绿盟、山石、飞塔

服务器

惠普、戴尔、联想、华三

存储

戴尔、昆腾

操作系统

Windows、CentOS、Redhat

虚拟化

VMware

数据库

Oracle、MySQL、SQLServer

中间件

Tomcat、Nginx



>>>>

方案价值

该方案深度剖析了客户在基础信息管理维护方面的痛点,针对客户着重提出的问题进行解决,摒弃了运维人员以往“盯屏”式的工作模式。建立起一套由监控中心、告警中心、资产管理中心为一体的智能监控体系。实现了信息化基础设施全覆盖监控,降低了人工维护成本,亦成为公司业务稳定运行的强有力支撑。


>>>>

网络投屏

网络投屏清晰展示了机房A、B、C、D之间的互联关系,以及各机房内的子网区域组成,通过设备、线路颜色可以很直观看出网络成员的运行状态,如下:


>>>>

专线链路

链路监控可直观看出重要业务专线的实时带宽利用率,在利用率达到专线自身的百分比阈值后即会出发告警;亦可进一步查看某条专线的延迟、抖动情况,如下: 


>>>>

门户网站

与客户沟通得知,早期该公司门户偶尔会出现无法访问的情况,影响较大,公司领导基本每天早上上班前都会手动挨个进行访问检查;目前处于监控状态,Web会实时拨测,也可以详细查看门户网页的响应速度,有效避免了往日重复的人为检测,如下:



>>>>

短信通知

该公司采用了短信告警通知方式,系统故障时,运维人员能够第一时间获取到事件通知,打破以往业务人员提前发现信息系统故障的窘境,如下:



>>>>

客户收益

通过详细的设计与规划,建立起一套性能优越、功能强大,监控覆盖范围广且灵活的运维监控管理体系,极大保障了业务系统的稳定运行;

面临突发状况,为运维人员提供及时、可靠的告警通知,准确定位事件爆发点,使80%故障处理速度压缩在半小时以内,有效降低了运维人员的工作复杂度,缩减日常维护成本30%以上。


加入我们,享受技术乐趣