咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >军事领域中文术语抽取的研究 收藏
军事领域中文术语抽取的研究

军事领域中文术语抽取的研究

作     者:田俊玮 

作者单位:大连理工大学 

学位级别:硕士

导师姓名:李丽双

授予年度:2013年

学科分类:08[工学] 081203[工学-计算机应用技术] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:领域术语 术语抽取 条件随机场 军事领域 特征模板 

摘      要:术语是有效描述领域知识的基本语言单元,通常由词或词组组成。在文本中自动获取特定领域术语的过程称之为术语抽取。它是信息处理领域的一项重要技术,在自然语言处理、文本挖掘、本体构建、词典编撰、机器翻译等领域都有着广泛而重要的应用。自动术语抽取对于了解掌握领域知识的变化发展起着重要作用。在众多的领域术语之中,军事术语是一种相对特殊的领域术语,实现军事术语的自动抽取不仅可以获取和扩充军事领域知识,更重要的是可以大量减少人工采集、处理数据信息的成本,能够使我们将主要精力放在深层次的情报分析工作中,因而军事领域术语抽取具有重要的国防和军事价值。 本文围绕军事领域的中文术语抽取任务展开讨论,结合实际工作对军事术语的组成结构及特点进行了详细的介绍。在分析比较几种常见的统计机器学模型的基础上,采用目前主流的条件随机场(Conditional Random Fields, CRF)模型对军事领域中文术语进行抽取,最终得到的精确率、召回率、F-值分别为72.83%,71.81%,72.05%。而后,为了降低该方法对于大规模语料库和标注人员的依赖性,尝试了基于无监督统计量的术语抽取方法,分析研究了信息熵、互信息、C-value三种统计量对于术语抽取结果的影响,通过实验得到的F-值最高为20.68%。最后,通过实验对比,总结了两种方法的优缺点,实验证明,基于CRF的术语抽取方法简单可行,实验结果良好。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分