基于Structured Streaming的实时文本画像系统设计与实现
Real-time Text Profile System Based on Structured Streaming作者机构:上海大学通信与信息工程学院特种光纤与光接入网重点实验室上海200444
出 版 物:《工业控制计算机》 (Industrial Control Computer)
年 卷 期:2022年第35卷第11期
页 面:114-116,118页
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)]
基 金:国家重点研发计划(2021YFB2900800) 上海市科委项目(20511102400)、(20ZR1420900)
主 题:Structured Streaming 大数据 画像系统 TF-IDF
摘 要:针对大数据环境下画像系统的实时性和准确性问题,提出一种基于Structured Streaming的实时画像系统设计与实现。利用canal组件对用户行为日志系统实现增量订阅,kafka消息中间件完成实时数据流接入,应用Structured Streaming实时计算框架对用户的实时数据进行分析处理,刻画用户的实时兴趣。通过改进的TF-IDF算法改善文本画像系统的准确性与可靠性,并借助Structured Streaming与静态数据良好的交互性减轻实时计算压力,提高系统响应速度。