基于FP序列树的法文词语提取方法研究
Extracting Terms Form French Corpora with FP Sequence Tree作者机构:福州大学经济与管理学院福州350108 广东金融学院互联网金融与信息工程学院广州510521 上海财经大学会计与财务研究院上海杨浦区200433
出 版 物:《电子科技大学学报》 (Journal of University of Electronic Science and Technology of China)
年 卷 期:2021年第50卷第1期
页 面:84-90页
核心收录:
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:FP序列树 法语文本挖掘 词语提取 成词度 文本压缩
摘 要:法语复杂的语法和词形变化规则导致N-gram等词语提取方法的效果无法保证,影响法语文本挖掘的准确性。该文提出一种高效的法文词语提取方法,从待分析的法语文本中自动获取包括单词和短语的词语集合,构建法语文本挖掘所需的词库。该方法把文本中的单词共现信息压缩为FP序列树结构,快速提取频繁词串并计算其成词度,得到法文词语集合。实验表明,该方法的准确率高达90%,且具有比现有法文词语提取方法更高的召回率,能有效支持法语文本挖掘应用。