快速实时大规模互联网广告流量检测系统
Fast and Real-Time Internet Advertisement Traffic Recognition System Applied to Massive Network Dataset作者机构:北京邮电大学信息与通信工程学院北京100876
出 版 物:《北京邮电大学学报》 (Journal of Beijing University of Posts and Telecommunications)
年 卷 期:2016年第39卷第5期
页 面:61-66页
核心收录:
学科分类:080902[工学-电路与系统] 0809[工学-电子科学与技术(可授工学、理学学位)] 08[工学]
摘 要:提出一种适用于大规模互联网流量的实时广告流量检测系统,系统以目前最为流行的Adblock规则列表作为基本规则库,将Hash Table快速匹配算法和Aho-Corasick快速匹配算法相结合,对广告流量进行快速实时匹配.此外,为了适应大规模流式数据的需求,将匹配算法部署在并行流式工作框架Spark Streaming之上.模型系统分别在实验室和运营商真实网络环境下的超大规模数据集进行了测试,结果表明,检测系统具有较高的准确率和计算效率.