咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >大规模磁盘故障预测方法研究 收藏
大规模磁盘故障预测方法研究

大规模磁盘故障预测方法研究

作     者:谢伟睿 

作者单位:华中科技大学 

学位级别:硕士

导师姓名:李春花

授予年度:2019年

学科分类:08[工学] 081201[工学-计算机系统结构] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:磁盘故障预测 S.M.A.R.T技术 磁盘巡检 决策树 

摘      要:大规模存储系统中磁盘故障预测至关重要,一旦磁盘损坏信息丢失,将会给企业带来无法挽回的损失。基于磁盘运行数据,使用机器学习方法进行磁盘故障预测,目前已可得到较好的预测效果。但由于S.M.A.R.T属性对故障表征能力的局限性,仅含单个时间点的信息导致预测效果不佳。在磁盘故障预测问题中,目前预测的召回率和误报率无法达到工业级应用水平。文章将时序信息引入磁盘预测模型,提出时序随机森林的磁盘故障预测方法,包括数据时序特征处理和时序模型的优化。时序特征处理部分,提出数据时序分配策略,将时序数据按照时间动态分配到训练集、验证集与测试集;提出时序特征处理算法,将S.M.A.R.T属性的变化值拓展到模型特征中。预测模型优化部分,提出随机森林决策树时序权重投票算法,基于样本数据的时序特征,对随机森林中的不同决策树初始化不同权重,使用均值和方差进行时序数据的拟合;提出负反馈更新模型,在随机森林中引入后验决策树;基于历史预测数据加入负反馈信息,提出决策树权重更新算法。基于上述研究,设计并开发了数据中心的磁盘故障预测原型系统,包括磁盘数据采集子系统、磁盘故障预测子系统、磁盘巡检子系统与中心监控子系统,现已部署在大规模数据中心。通过测试与分析,结果表明文章提出的时序预测模型优于传统机器学习模型。相比于传统模型,使用时序数据模型后,在同样的误报率下召回率提高11.13%;使用优化的时序模型后,在同样的召回率下误报率降低52.0%;两者一起使用时召回率与误报率皆有稳定提升。将预测结果应用于磁盘巡检后,加速巡检时间占比为5.0%时,平均故障探测时间降低了152.6%;磁盘的磁盘巡检负载增加4.8%时,平均故障探测时间降低了217.3%,可大幅度减少磁盘巡检开销,降低平均故障探测时间。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分