某部委数据中心IT运维系统解决方案 第1章 IT系统运维现状分析 经过多年的建设,各省(市)厅(局)信息中心的信息化建设已经处在一个比较高的水平。其网络规模庞大,网络应用系统紧密结合工作流程,具有特别的重要性和特殊性;其环境复杂,多系统、多数据库和多应用平台,多厂商网络及系统设备,多业务应用等复杂的管理环境。“三分建设、七分管理”,其运行维护质量与工作水平将直接关系到该部委所建的信息资源库以及各个应用系统能否发挥效益和业务专网能否安全、高效运行。 按照ITIL 的服务理念和服务水平的成熟程度要求,某部委数据中心在信息技术的管理标准、服务流程和服务质量上还有待改善,目前的IT 服务管理水准与实现信息技术资源共享、信息技术专业服务的要求相比较,有一定差距。主要表现在: 缺乏统一的集中监控与管理平台。IT 系统日常运行管理条块分割,网络、应用、安全、IT 基础环境等基本上是各管一摊,缺乏一个统一的、主动的集中运行监控平台,既浪费了人力资源,也难以做到快速发现故障。 缺乏统一的规范的有效的IT 服务管理流程以及与其配套的管理制度,支持IT 系统的运行维护。对于日常故障和服务请求的处理,重大故障的处理,以及系统变更等运行维护工作,很难监督处理过程,改善处理效果,提高处理效率。 IT 部门对整个IT 基础设施和服务的配置信息(包括硬件,软件,文档,合同,过程,人员等)缺乏全面有效的管理,跟踪和控制,不能为日常运行维护提供准确的信息。对事件和问题的管理比较被动,缺乏服务的前瞻性,不能形成从监控系统发现事件和问题到IT 服务管理平台处理事件和问题的闭环工作流。 第2章 系统建设思路 随着数据中心信息系统规模的不断扩大,业务应用的持续增加,IT 基础架构已经变得越来越复杂。仅仅依靠某个工具或个人,已经不能胜任如此巨大的工作量并满足业务紧迫性的要求。因此,必须有一套完整的IT 运维管理解决方案帮助数据中心完成系统的运营和维护。 通过IT 运维管理项目建设,将做到信息系统故障早发现、早解决,确保计算机系统、网络和应用的连续、可靠、安全运行,降低发生故障的可能性,提高数据中心的系统运行管理水平和服务保障能力,为相关业务工作提供高效、贴身服务。 2.1 全方位的运维管理 广通Broadview IT 运维平台解决方案是“IT 管理思想+系统工具”的组合,它不仅是管理软件产品本身,而且还包括管理流程(Process)、管理规范 (Policy)、业务(Business), 并将管理流程、管理规范、业务贯彻到软件产品中去的实施方法。 因此,广通公司为数据中心提供的IT 运维管理解决方案不仅提供软件产品工具,还包括管理流程与规范、业务及实施方法在内的全方位建设。 通过IT 运维管理项目建设,将做到信息网络故障早发现、早解决,确保计算机系统、网络和应用的连续、可靠、安全运行,降低发生故障的可能性,提高数据中心的系统运行管理水平和服务保障能力,为该部委相关业务工作提供高效、贴身服务。 2.2 满足多角度的管理需求 ITIL 运维管理可以看成由服务支持和服务提供两部分工作组成。服务支持是对基础IT 设施的综合管理并帮助维护人员完成日常运营工作,工作重点偏重数据中心IT 运维系统解决方案于IT 技术。服务提供是将管理数据转化为决策信息和业务层面的支持,工作重点偏重于从业务视角来看待问题。 Broadview IT 运维管理解决方案面向不同层次的工作人员,可以满足多角度的管理需求。 2.2.1 面向基础设施的管理 (1)全面管理系统资源 提供对网络、主机、操作系统、存储设备、数据库、中间件及应用软件等IT资源的全面管理;包括纵向资源的配置与拓扑管理。 (2)性能管理与优化 面对网络、服务器、数据库、中间件系统等性能进行监控,建立性能处理的基线。定期提供性能报表和趋势表,可以根据趋势分析,提出性能优化的建议,如修改系统参数、系统扩容等。 (3)故障管理 提供一个集中管理故障和事件的中心,能够收集各种管理功能产生的故障事件(例如:网络事件、主机事件、存储备份事件、安全事件等)。完成故障事件收集、过滤、关联和处理等工作,以实现对故障的快速处理。 2.2.2 面向维护管理者 (1)运维服务管理 运维服务管理基于人与流程的结合,提供方便,灵活工作流程的管理功能,使工作人员维护管理工作的自动化和信息化,其中包括帮助台、事件、问题、变更、配置管理以及值班管理等根据客户量身定制的业务管理功能; (2)资源监控 通过实时动态视图显示管理系统的实际数据,一目了然地看到当前IT 系统的运行状态及趋势。可以综合监控IT 系统中各种资源的实时状态和性能信息等所有运行情况,帮助管理人员快速发现问题,分析和确定问题所在; (3)知识库 使工程师在处理系统故障的时候,能够参考相关故障处理的方法,让有较低技术水平的工程师也能够进行系统维护,从而降低IT 运维管理对个人的依赖。 2.2.3 面向领导决策者 (1)综合报表 对 IT 系统运行状况信息进行汇总,并以图表的方式为管理人员提供直观的分析结果,帮助领导更全面的了解网络、主机、数据库、应用系统的运行状况和运行趋势,为领导决策提供支持信息。 (2)绩效评估 通过运维平台的工单处理数据,领导可以对系统维护人员的工作绩效有一个直观的了解。从而通过预定的关键绩效指标对工作人员进行绩效评估。 2.3 系统建设内容 搭建IT 运维管理体系包括四个层次的工作: 一是实现数据中心IT 系统的故障信息采集和统一处理。即对网络、服务器、数据库、中间件、磁盘阵列、应用系统及机房环境进行有效的管理和监控,将网络管理、IT 运维管理、安全管理、IT 基础环境管理等功能整合在一起,实现统一的监控数据采集、一体化的报警数据处理、统一的故障流程处理。 二是管理流程整合和统一管理。统一网络管理、IT 运维管理、安全管理、IT基础环境管理相关的各个业务流,如值班管理、工单管理、资产管理、知识库管数据中心IT 运维系统解决方案理等,形成数据中心运行维护的规范化流程。 三是统一的信息展示和运行考核。根据资源监控系统采集的各类数据,提供网络、业务应用的信息展示功能,并与运行管理的绩效考核相结合。 四是实现地市IT 运维管理平台向省(市)厅(局)IT 运维管理平台系统的数据上报,省(市)厅(局)可以全盘掌握各地市的运行情况,并生成各种统计分析报表。 第3章 系统架构 3.1 逻辑架构 IT 运维管理平台是一个完整的网络与系统管理、安全管理、IT 基础环境管理、运维流程管理解决方案,可以最大限度的保护网络中的投资,并充分考虑到将来管理需求扩展。其中每一个层次之间的描述如下: 图1. Broadview IT 运维系统逻辑架构 3.1.1 管理对象层 管理对象层能够管理数据中心信息平台,涵盖了机房环境、网络设备、主机系统、业务应用软件、网络安全设备等。同时系统可以管理由网络设备和线路构成的多种链路。 3.1.2 组件管理层 组件管理层通过各类探针(Probe)获得各类被管对象的数据。采集方式支持多种网络协议和采集方式,对于不符合标准网络协议的设备,系统提供二次开发的数据采集接口。 采集协议与方式主要包括: SNMP、SNMP TRAP、Agent、WMI、SYSLOG、Telnet、Socket 等。 采集的数据类型主要包括: 网络设备、主机系统、系统软件(中间件和数据库)、业务应用软件等。 3.1.3 数据汇聚层 来自不同被管对象的,通过各种采集手段获取的告警、性能、配置数据在数据汇聚层按照预定的规则和流程进行处理。 3.1.4 功能展现层 展现层主要是将其下层模块所提供的功能的整合,为用户提供一个图形操作界面、浏览器访问等用户操作和使用功能。 在其下层模块所提供的功能基础之上,我们提供服务器、事件管理、问题管理、变更管理、日常作业管理、配置管理等ITIL 服务提供管理流程功能。 3.2 产品架构 Broadview IT 运维服务方案面对用户日益复杂的IT 环境,整合以往对网络、服务器与业务应用、安全设备、客户端PC 和机房基础环境等的分割管理,实现了对IT 系统的集中、统一、全面的监控与管理;系统通过融入ITIL 等运维管理理念,达到了技术、功能、服务三方面的完全整合,实现了IT 服务支持过程的标准化、流程化、规范化,极大地提高了故障应急处理能力,提升了信息部门的管理效率和服务水平。 图2. Broadview 产品架构 Broadview 运维服务方案由网络管理NCC、业务应用管理BCC、安全管理SCC、桌面管理DCC 及集中运行管理COSS 五大部分组成。 1.网络监控(NCC) (1)自动、准确、及时地发现各类异构复杂网络的拓扑结构 (2)可持续地监视、报告网络的运行情况 (3)提供网络运行状态和性能的多角度分析与统计 (4)拦截非法接入,保障网络系统安全 (5)监控异常流量及ARP 欺骗等病毒 2.应用监控BCC) (1)资源监测子系统 监控企业的服务器、中间件、数据库、业务应用、安全设备及基础支撑系统(如机房、空调、UPS 等)的运行状况;建立性能基线;发现系统异常并及时告警。 (2)运行展现子系统 围绕IT 业务和IT 资源,采用人性化多层导航呈现模式,由全局到局部、由粗线条到细颗粒度地逐层展现业务应用的运行状况。 3.安全监控(SCC) (1)对各类安全设备告警事件进行采集和跨类型、跨厂商的分析 (2)可将处理后的告警信息自动精确关联到安全知识库 (3)实时的、翔实的、准确的呈现告警事件及信息 4.桌面监控(DCC) (1)桌面资产统一管理 (2)桌面安全策略的强制执行 (3)终端用户行为审计 (4)补丁发布 (5)实现用户桌面系统的标准化 5.集中运行管理(COSS) (1)IT 资源监测结果综合展现 (2)提供各种报表和视图,呈现IT 资源的运行状况和运行趋势 (3)基于ITIL 的运维流程化管理 (4)知识库管理 |