基于日志采集的分布式网管系统设计与实现
作者单位:上海交通大学
学位级别:硕士
导师姓名:金耀辉;孙伟伟
授予年度:2009年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 08[工学] 081201[工学-计算机系统结构] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:syslog 日志采集 日志分析 正则表达式 模式 基于规则推理
摘 要:随着计算机网络的飞速发展,网络信息流量不断增大,系统日志的规模也不断扩大,给系统排障以及了解系统运行状态带来了困难。如何有效利用在运行过程中产生的大量日志信息来分析系统状态和提升系统预警能力,满足日志服务在性能、健壮性、可扩展性等方面的迫切要求,是一个具有普遍意义和实用意义的研究课题。 日志分析是跟踪计算机系统和网络运行的一个重要方式。仅利用日志的自动化分析功能,往往会得到错误的告警。如果用公认的标准和规则来规范日志则可最大限度的降低误报率。 本文以大规模网络监控为应用背景,研究日志管理软件的问题,在此基础上设计并实现了一个基于日志的网络管理系统。本文主要工作包括: 1、首先分析了网络监视系统实现的常用技术,基于包捕获的技术和基于网关设备日志分析的技术;接着详细分析了通用的网络设备日志——syslog格式日志与WELF格式日志;指出了现有网络产品在管理需求上存在的局限性。 2、介绍了需要日志管理的原因,以及引入日志管理系统的必要性,分析了日志管理系统的功能需求。 3、在此基础上详细介绍了本文的重点,基于日志分析的分布式的网络监视系统——LDMS(Log-based Distributed Network Management System)的设计和实现。LDMS整个系统由日志采集、日志分析、报表生成引擎、报表调度、对外接口和前台Web应用程序几个模块构成。利用正则表达式进行模式匹配提取原始日志有效信息,将人工智能技术中专家系统的引入到网络管理系统,通过基于规则推理,基于事件推理等算法自动生成报警规则。 4、LDMS以J2EE架构并采用Struts框架开发,可配置性、通用性、移植性高,用户通过Web浏览器可以方便的访问系统,此外,LDMS还提供接口实现同现有的网管系统的整合。 最后,本文从软件工程角度对系统的整个开发流程进行了分析和总结。 本文的网管系统已在实际中试运行近半年,它提高了网管人员对故障问题定位的速度,大大降低排障时间。