军事领域中文术语抽取的研究
作者单位:大连理工大学
学位级别:硕士
导师姓名:李丽双
授予年度:2013年
学科分类:08[工学] 081203[工学-计算机应用技术] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:术语是有效描述领域知识的基本语言单元,通常由词或词组组成。在文本中自动获取特定领域术语的过程称之为术语抽取。它是信息处理领域的一项重要技术,在自然语言处理、文本挖掘、本体构建、词典编撰、机器翻译等领域都有着广泛而重要的应用。自动术语抽取对于了解掌握领域知识的变化发展起着重要作用。在众多的领域术语之中,军事术语是一种相对特殊的领域术语,实现军事术语的自动抽取不仅可以获取和扩充军事领域知识,更重要的是可以大量减少人工采集、处理数据信息的成本,能够使我们将主要精力放在深层次的情报分析工作中,因而军事领域术语抽取具有重要的国防和军事价值。 本文围绕军事领域的中文术语抽取任务展开讨论,结合实际工作对军事术语的组成结构及特点进行了详细的介绍。在分析比较几种常见的统计机器学模型的基础上,采用目前主流的条件随机场(Conditional Random Fields, CRF)模型对军事领域中文术语进行抽取,最终得到的精确率、召回率、F-值分别为72.83%,71.81%,72.05%。而后,为了降低该方法对于大规模语料库和标注人员的依赖性,尝试了基于无监督统计量的术语抽取方法,分析研究了信息熵、互信息、C-value三种统计量对于术语抽取结果的影响,通过实验得到的F-值最高为20.68%。最后,通过实验对比,总结了两种方法的优缺点,实验证明,基于CRF的术语抽取方法简单可行,实验结果良好。