基于统计的锚点词候选集的获取
Acquirement of Anchor Word Candidate Set Based on Statistical Approach作者机构:东北大学信息科学与工程学院沈阳110004
出 版 物:《计算机工程与应用》 (Computer Engineering and Applications)
年 卷 期:2003年第39卷第32期
页 面:55-57,80页
核心收录:
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金资助项目(编号:60083006) 国家973基础规划项目资助(编号:G19980305011)
摘 要:段对齐是在双语语料库中把各个段和它们的相应译文建立起对应关系,进而为以后的句子级对齐、短语级对齐和词汇级对齐提供资源。它在整个对齐研究中起到一个承上启下的作用。利用锚点词信息完成段对齐是一种常用且有效的方法。锚点词要求数量少准确率高,同时更为重要的是它要求具有可以说明两个段之间有对应关系的相对明显的特征,这就是说并不是文章中的每个词都可以做锚点词,锚点词也不是越多越好,这也决定了获取过程中不能借助字典等辅助信息,而必须使用其它方法。文章提出一种新的锚点词候选集的获取方法,通过统计和相似计算来得到锚点词的候选集信息。通过控制统计串的出现频数和相似度的大小就可得到令人满意的可用的结果。实验结果表明,当取高阈值且高相似度时,就可得到很高的准确率。因而该方法是一种获取锚点词的有效方法。