基于风格特征融合的文档分割方法
Document Segmentation Method Based on Style Feature Fusion作者机构:哈尔滨工程大学计算机科学与技术学院黑龙江哈尔滨150001 中电科大数据研究院有限公司贵州贵阳550081
出 版 物:《计算机应用与软件》 (Computer Applications and Software)
年 卷 期:2020年第37卷第10期
页 面:200-207页
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:教育部人文社会科学研究规划基金项目(19YJAZH053) 中央高校基本科研业务费专项资金项目(3072019CF0601)
摘 要:风格裂缝指的是多作者共同完成的文章中作者身份发生转变的位置。提出基于多特征风格的文档分割的剽窃检测方法。使用7种文本风格特征用于风格裂缝识别。通过特征提取的结果,利用无监督的机器学习算法,基于提取的特征进行分类。利用聚类算法对风格特征进行聚类,从而找到文章风格裂缝的位置。采用参数权重技术进行特征权重调节和多特征融合,对不同文章出现的特征冗余问题进行合理解决。分别使用滑动窗口与段落划分对不同类型的文本进行实验,得出基于段落的实验结果比基于滑动窗口的实验评估值高出10%左右的结论。