目前市面上大多数网管软件在故障管理方面都存在两个方面的不足:一方面是基于阀值给出大量、让网管人员应接不暇的无用告警信息,而把真正有价值的信息淹没了;另一方面是在故障发生后才报警,虽然这对故障定位可能有所帮助,但损失已经造成。对网管人员来说,至关重要的是在故障发生前给出有价值的预警信息,防患于未然。CoreMonitor正是为满足这一核心目标而开发。
就像人在病倒之前总会显现某些病征一样,系统或设备(以下统称“设备”)在崩溃之前总会呈现某些异常信息。CoreMonitor就像对人进行体检一样,定时采集系统或设备的相关信息,建立设备健康档案,基于分析模型在设备发生故障前及时发出预警信息,提醒网管人员进行提前处置,防患于未然。
一、 产品用途
■ CoreMonitor的核心功能是对服务器、路由器、交换机、操作系统、数据库、中间件及应用系统按重要性及健康状况进行分类(核心、重要和普通以及正常和带故障运行)、分策略实施监控,建立设备健康档案,抓住主要矛盾,基于分析模型在设备发生故障前及时发出预警信息,提醒网管人员进行提前处置,防患于未然。
■ 设备发生故障时,确定故障成因,定位故障发生的主体和端口,并按预定方式通知网管人员进行故障处理。
■ 对网络运维进行规范化管理,提高工作效率。
■ 通过各种统计分析图表,让网管人员实时掌握网络运行态势。
二、 产品特点
■ 以故障预警为核心,防患于未然
故障一旦发生,损失即已造成。CoreMonitor最主要的特点是其优异的故障预警能力。CoreMonitor根据设备的健康状况,基于分析模型在故障发生前及时发出预警信息,提醒网管人员进行提前处置,防患于未然。
■ 分类、分策略监控,抓住主要矛盾,提高监控的有效性
将设备按重要性划分为核心、重要和普通三类;按健康状况划分为正常和带故障运行两类。CoreMonitor采用分类监控策略,越重要或越脆弱(带故障运行)的设备,监控的指标越多、监控的频率越高。既抓住了主要矛盾,提高了监控的有效性,又减少了监控系统本身对网络造成的负担。
■ 通过建立分析模型进行综合分析,提高了预警和故障定位的准确性
结合设备运行指标、动态阀值和系统日志建立分析模型进行预警和故障分析,而不是单纯依据监控指标的阀值进行告警,提高了预警的准确性,减少了无用告警信息。
■ 当发现设备异常时,系统自动提升其监控等级,有的放矢
正常情况下,系统只按既定的时间间隔采集和分析设备的关键指标(定期“体检”)以减少监控系统对资源的消耗。当发现某个设备有异常(病征)时,系统自动提升其监控等级:提升监控频率、增加监控指标等,对该设备进行更频繁和更全面的体检和分析,做到有的放矢。
■ 自学习能力
CoreMonitor分析每次被“确诊”的预警信息,将其作为经验值对预警模型进行参数修正和模式调整,不断学习进化,提升预警能力。
■ 基于丰富的图表分析,协助用户多角度、多层次分析系统及网络的运行状况。
各种网元类型的日、周、月、季、年报表及详细报表、趋势图、控制图、饼图及故障树等。
■ 网络拓扑图构建方便灵活,采用数据双向绑定方式,实时监控设备运行状况。
基于Silverlight构建的网络拓扑图操控性更好、更稳定。通过双向数据绑定方式实时推送告警信息,拓扑图状态显示更及时,大大减小了对服务器的压力。
三、 监控对象
■ 监控指标
监控指标可动态调整,以下是典型的监控指标:
监控对象
|
监控指标
|
服务器
|
CPU使用率、内存使用率、ICMP响应时间、SNMP状态(断开时间)、网络占用率、磁盘剩余空间、磁盘利用率、LOG_EMERG(紧急情况)、LOG_ALERT(应该被立即改正的问题)、LOG_CRIT(重要情况)、LOG_ERR(错误)、进程信息、运行时间
|
交换机
|
CPU使用率、内存使用率、ICMP响应时间、SNMP状态(断开时间)、LOG_EMERG(紧急情况)、LOG_ALERT(应该被立即改正的问题)、LOG_CRIT(重要情况)、LOG_ERR(错误)、端口状态、端口流量、运行时间
|
路由器
|
CPU使用率、内存使用率、ICMP响应时间、SNMP状态(断开时间)、LOG_EMERG(紧急情况)、LOG_ALERT(应该被立即改正的问题)、LOG_CRIT(重要情况)、LOG_ERR(错误)、端口状态、端口流量、运行时间
|
软件系统
|
应用进程信息、应用连接数、应用接收速率、应用发送速率、应用被阻止请求数、数据库进程信息、数据库会话数、LOG_EMERG(紧急情况)、LOG_ALERT(应该被立即改正的问题)、LOG_CRIT(重要情况)、LOG_ERR(错误)
|
四、 产品核心功能
■ 基础数据采集
采集监控对象的系统日志、告警信息、性能参数以及其他监控指标。采集指标和采集频率可动态调整。
■ 预警管理
根据监控指标和预警模型进行故障预警,通知相关人员进行预防处理,防患于未然,提高关键设备、关键应用系统的可用性。预警管理包括预警信息管理、预警方式配置、预警工单配置、预警历史信息查询。
■ 故障管理
发生故障时,确定故障成因,定位故障发生的主体和端口,并按预定方式通知网管人员进行故障处理,包括:告警信息管理、告警方式配置、故障依赖管理、故障工单管理、故障历史信息查询。
■ 拓扑管理
绘制拓扑图,建立与设备资源的映射关系。功能模块包括拓扑图绘制、运行状况拓扑监控(在拓扑图上显示网络设备和链路的运行情况,对产生告警的设备进行提示,并提供Ping、Trace Route、 IPMA定位、SNMP连接测试及Telnet&ssh等工具获取设备信息)、共同体名配置、搜索算法网络参数设置、子网信息设置、过滤设备信息设置。
■ 运维管理
包括设备接入管理、资产管理、信息系统上线管理、信息系统下线管理、网络设备安装管理、运维工单管理。
■ 资源管理
维护服务器、交换机、路由器、链路、服务、应用等资源的基本信息;划分资源等级(关键/重要/普通);定制监控策略(监控指标及监控频率);资源是否接受监控;资源所在位置(地域)等。
■ 运维知识库
维护知识信息,包括知识分类、标题、关键字搜索、内容、附件、故障分类、点击率、发表人、发表时间等。
■ 报表管理
包括网络设备、服务器、应用、链路的日、周、月、季、年等类型报表、自定义报表和TOPN报表(将关键和重要的网络设备、服务器、应用、链路默认生成TOPN报表,如资源可用率分布饼图、资源健康度分布饼图、cpu利用率平均值和最大值对比柱状图、内存利用率平均值和最大值对比柱状图,运行情况表及当天健康度曲线图、性能分析表及cpu平均利用率和内存平均利用率曲线图等)。
■ 统计分析
按照资源类型、等级等条件对资源信息、可用率、健康度等进行统计分析,包括故障告警信息统计、预警信息统计、SysLog统计、流量统计、性能分析、资源对比性能分析、时段对比性能分析、流量分析。
■ 用户自主管理
包括个人中心、消息管理、邮件管理、手机短信管理、日志管理。
■ 系统管理
包括部门管理、角色管理、用户管理、邮件配置、手机短信配置、TrapServer配置、SyslogServer配置、数据字典、异常日志查看。
本公司可根据用户需求进行定制化开发,满足用户在运维管理方面的特殊需求。
|