基于潜在语义分析的BBS文档Bayes鉴别器
Bayes Discriminator for BBS Documents Based on Latent Semantic Analysis作者机构:四川大学计算机科学系成都610064 山西大学计算机科学系太原030006
出 版 物:《计算机学报》 (Chinese Journal of Computers)
年 卷 期:2004年第27卷第4期
页 面:566-572页
核心收录:
学科分类:08[工学] 080402[工学-测试计量技术及仪器] 0804[工学-仪器科学与技术]
基 金:国家自然科学基金 ( 60 0 73 0 46) 高等学校博士学科点专项科研基金( 2 0 0 2 0 610 0 0 7)资助
主 题:数据挖掘 关联规则 Bayes分类 潜在语义分析 BBS 电子公告栏
摘 要:电子公告栏 (BBS)的滥用是一种以信息污染为特色的社会问题 ,对BBS文档进行鉴别已成为信息安全重要内容之一 .该文融合了数据挖掘技术、数理统计技术和自然语言理解技术 ,提出了基于潜在语义分析与Bayes分类的BBS文档鉴别方法 :利用自然语言处理技术从训练文档中抽取典型短语集 ;通过潜在语义分析进行典型短语同义归约 ,应用关联规则采掘技术提高典型短语间的独立性 ;用Bayes分类器对BBS文档进行鉴别 .该文还对影响系统的关键参数进行了大量的讨论和测试 ,实验表明该方法对于BBS文档的鉴别是可行而有效的 .