深圳市宝安某医院统一监控平台项目

2020-11-12 09:57

作者:乐维

摘要:

为了解决医院庞大的网络设备数量造成的网络运维管理困难。基于Zabbix为基础和企业微信的网络监控系统,通过它实时获取交换机、服务器等被监控对象的相关数据,掌握网络、信息系统运行情况,及时发现并解决问题,保证医

1. 项目名称

深圳市宝安某医院统一监控平台项目

2. 客户介绍

该医院成立于1957年,是集医疗、科研、教学、预防、保健、康复、社区健康服务于一体的国家三级大型公立综合医院,是深圳大学和广东省高等医学院校教学医院,广东医科大学硕士研究生培养基地和全科医学专业规培协同基地。

3. 项目背景

随着“互联网+”时代的到来,医院信息化建设进入关键时期。网络设备、服务器、业务系统、数据库等软硬件设备的纷繁复杂以及用户对IT业务的高可用性需求使得网络运维工作任务更加艰巨。成立至今,已经建成囊括两个院区的大型综合信息系统,包括各类子系统数十个,工作站几千台。但是,医院网络运维仍然是由医生、护士在使用过程中发现故障,然后通知信息部门,经过运维人员故障验证后再开始采取相应措施解决故障。这种被动、孤立的运维方式,使得运维人员疲于处理各种故障、效率低下,即使加班加点地调试、部署、维护,也经常会因设备故障而导致业务中断,严重影响医院的正常运转"。

为了对本院网管的各种资源进行综合管理,更好地监控网络设备、服务器、业务系统的实时状态,计划搭建统一监控平台,达到提高维护管理效率、降低资源管理的复杂程度,实现故障的快速发现、快速定位;避免、减轻故障对业务、办公造成的损失。

4. 解决方案

为了解决医院庞大的网络设备数量造成的网络运维管理困难。基于Zabbix为基础和企业微信的网络监控系统,通过它实时获取交换机、服务器等被监控对象的相关数据,掌握网络、信息系统运行情况,及时发现并解决问题,保证医院网络的高可用性。

5. 实施过程

本项目从硬件、主机、网络设备、数据库、中间件、应用、业务系统、存储、虚拟化的一站式运维管理平台来实现IT 基础资源的统一集中管理。

5.1. 总体架构

在实际监控架构中,乐维监控根据网络环境、监控规模等 分了三种架构: server-client 、master-node-client、server-proxy-client三种 。

server-client架构

 zabbix的最简单的架构,监控机和被监控机之间不经过任何代理 ,直接由zabbix server和zabbix agentd之间进行数据交互。适用于网络比较简单,设备比较少的监控环境 。

server-proxy-client架构

其中proxy是server、client之间沟通的一个桥梁,proxy本身没有前端,而且其本身并不存放数据,只是将agentd发来的数据暂时存放,而后再提交给server 。该架构经常是和master-node-client架构做比较的架构 ,一般适用于跨机房、跨网络的中型网络架构的监控。

master-node-client架构

架构是zabbix最复杂的监控架构,适用于跨网络、跨机房、设备较多的大型环境 。每个node同时也是一个server端,node下面可以接proxy,也可以直接接client 。node有自已的配置文件和数据库,其要做的是将配置信息和监控数据向master同步,master的故障或损坏对node其下架构的完整性。

 

基于master-node-client架构,按照不同域间可追加多个代理,基本系统要求如下:

 

角色

操作系统

磁盘大小

CPU

内存

IP地址

主机个数

备注

采集服务器

CentOS7

50G

8核

8G

一个IP 地址

1

守护进程

数据库服务器

CentOS7

500G

8

16G

三个IP 地址

2

主备

web服务器

CentOS7

50G

4核

4G

一个IP 地址

1

 

采集代理服务器

CentOS7

100G

8核

8G

一个IP 地址

N

根据主机和网段增加

 

1. 数据库区域中MySQL1作为主库,MySQL2作为从库

2. 采集区域直接对接数据库区域的主库MySQL1

3. WEB区域对于增删改都直接对接数据库区域的主库 MySQL1,读对接数据库区域的从库MySQL2

4. 数据库区域的主备架构对比主主架构来说优点是技术维护要求较低,不容易出现数据紊乱问题,缺点是当出现主库异常的时候不会主动启用备库,需要手动切换或者等待主库正常才可以正常采集

5. 采集区域可以对接多台Proxy代理分担压力或分布式监控 

5.2. 告警对接

微信作为最大用户群体的即时通讯软件,方便快捷,其可用性和持续性已经获得用户认可。微信企业号提供了丰富的第三方接口,其官网也提供了详细的API文档。监控系统通过调用微信的免费接口,不仅可以实现告警零成本,而且可以及时高效地将告警信息推送给运维人员,以便及时处理。

登录企业微信管理界面,在“通讯录”中创建运维管理组,添加成员,在“企业应用”中自建应用。记录成员账号,组织部门ID,应用AgentID,CorpID和Secret,监控系统调用API接口时需要用到这些信息。在服务器端,修改微信报警的脚本配置文件中corpid, secret和AgentID值。然后在WEB端,配置报警媒介和触发微信报警的动作。

配置完成后,当有设备出现故障和恢复的时候, 监控系统自动将告警信息发送至企业微信客户端。

5.3. 对象统一纳控,集中管理

1. 主机监控: Centos、Windows

重要指标:针对所有的IOPS

2.网络设备监控:Cisco、H3C、华为、Juniper

重要指标:针对所有的端口状态、主板状态、CPU使用率、内存使用率、温度等

3.虚拟化监控:VCentor

监控Clusters、Datacenters、Datastores、Hypervisors、VMvCenter平台告警对接

Clusters、Datacenters、Datastores、Hypervisors、VM资源相互关联状态模块与监控平台集成

消息与队列处理,对接

4.服务器监控:DELL、华为、曙光

需采用IPMISNMP、爬虫等连接查询数据

重要指标:告警对接、硬盘状态

5.存储监控: Netapp、HDS

需采用专门的存储工具、SMI-SSNMPSSH等连接查询数据

重要指标:告警对接、硬盘状态、IOPS

6. 方案价值

通过搭建乐维监控系统,结合微信企业号,实现告警信息的实时推送,提升了医院网络运维的管理效率,保证医院网络的高可用性和持续性。系统纳管了监控服务器150多个、监控交换机200余个。很好地满足了中心医院对网络环境中的网络设备、网络链路的实时监控需求。降低了维护人员工作量,提高了工作效率。

7. 客户收益

使用开源监控项目Zabbix二次开发的乐维监控系统结合微信推送,实现对网络运行状况的有效监测。通过配置不同的触发策略,根据设备重要程度推送不同级别的告警信息。通过该系统取缔了人工的、手工的监控方式,有力的支撑了医院信息化建设。

 

加入我们,享受技术乐趣