基于查询向量的英语话题跟踪研究
English Topic Tracking Research Based on Query Vector作者机构:哈尔滨工业大学计算机科学与技术学院哈尔滨150001
出 版 物:《计算机研究与发展》 (Journal of Computer Research and Development)
年 卷 期:2007年第44卷第8期
页 面:1412-1417页
核心收录:
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金重点项目(60435020) 国家"八六三"高技术研究发展计划基金项目(2004AA117010-08)
主 题:话题跟踪 词汇区分 多数投票策略 双重过滤 归一化检测开销
摘 要:通过分析英语新闻报道的特点,提出了一种基于词汇区分和位置特征相结合的特征项抽取算法.词汇区分是指将单词分为首字母是大写的单词和首字母不是大写的单词,位置特征利用新闻报道的倒金字塔式的结构特点决定单词的重要性.提出了一种基于多个特征项抽取算法融合的特征项权值计算方法,该方法认为被越多的特征项抽取算法选中的特征项越重要.提出了一种基于多数投票策略的双重过滤算法,对报道和话题是否相关进行两次过滤,大大降低了系统的误报率.实验表明提出的3种算法不但取得了很好的效果,而且具有很好的可扩展性.