Web日志数据预处理及多维建模研究
作者单位:对外经济贸易大学
学位级别:硕士
导师姓名:曹淑艳
授予年度:2006年
学科分类:08[工学] 080402[工学-测试计量技术及仪器] 0804[工学-仪器科学与技术]
摘 要:针对目前网站日志数据分析日趋重要,但对日志数据分析多采用日志分析软件,造成很多网站对日志数据的分析还停留在流量统计的层次。为了进一步对日志数据进行有效分析,获得深层次的用户行为特征本文,本文对基于数据仓库的日志分析方法做出深入的研究。 本文从三个方面对基于数据仓库的日志分析方法进行研究:Web日志数据仓库的特征,Web日志数据的预处理和Web日志数据仓库多维建模。在Web日志数据仓库特征部分对日志数据格式、日志收集中存在的问题、企业数据仓库的区别进行了研究。根据数据仓库系统的组件结构将数据集中和数据展示作为本文的研究重点。数据集中部分最重要内容为日志数据预处理方法,在这部分充分讨论了数据预处理中存在的主要问题:代理缓存问题、数据清理问题。数据清理部分针对Frame页面过滤算法的改进为本文的一个创新点,通过改进有益于获取更完整的用户浏览路径。在数据清理部分还重点讨论了网站用户识别、页面识别、会话识别等几个重要部分。 数据展示主要问题为日志数据仓库的多维模型设计,提出在多维模型的设计中要兼顾网站流量统计分析和用户行为模式分析。为支持行为模式分析提出设计页面视图事实表。在页面事实表、页面视图事实表、会话事实表基础上提出有利用户分析的各种维度。为了提高数据仓库报表的查阅速度,针对会话事实表设计出会话聚集事实表。为保持企业数据仓库多维建模维度的一致性,文中提到数据仓库总线结构及数据仓库总线矩阵,本部分还介绍了Oracle Clickstream Intelligent软件,用来建立完整的电子商务点击流数据仓库系统。 针对日志数据仓库研究的发展趋势和发展方向做出展望,提出本文的不足之处主要表现在:利用数据挖掘方法进行用户使用特征的分析方面缺少深入分析,这将为下一步继续研究的重点。