咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >文本标注的数据库表达及应用 收藏
文本标注的数据库表达及应用

文本标注的数据库表达及应用

作     者:宋阳 

作者单位:东北大学 

学位级别:硕士

导师姓名:黄卫祖

授予年度:2008年

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 

主      题:文本标注 信息抽取 知识库建设 英汉词典 

摘      要:词典普遍被作为一种含有大量语言学知识、常识知识的知识库。传统英语词典中一般包含词形、词性、词义、例句、习语、各种语法语用说明以及出处、领域等注解。从传统词典中提取出这些语言词汇知识并加以结构化存储,使词典中的知识利于计算机使用和处理,将有利于促进语言学、自然语言处理、机器翻译和知识工程等相关领域的研究,同时有利于语言教学。 现有的纸版词典是面向人类读者,而非计算机的。其基本存储格式为文本格式。虽然词典的排版遵循一定的规则,但由于是给人阅读的,其中也存在相当多的随意性。其中很多部分之间的界限并不明显,对于计算机自动解析具有相当的困难。 对词典文本信息的抽取取决于文本中文本信息实体的识别和标注。本文提出一种文本标注的数据库表达方法,将文本实体特征信息和标注结果表达在数据库中,从而使特征信息参数化。并提出文本信息标注的基本方法为依据文本信息实体的特征标记和标记序列组合特征以及实体间关系来识别和标注实体。这样使文本标注的通用性增强,有利于标注结构类似的其他词典文本。 首先,本文分析了文本标注领域的相关概念和概念之间的关系,给出了文本标注的通用数据库表达方法。 然后,本文以《牛津高阶英汉双解词典(第四版)》(简称OALD4)文本的标注与信息抽取为应用,详细阐述了基于文本标注的数据库表达方法的OALD4文本标注与信息提取系统的分析、设计与实现。 最后,对本文的工作进行了总结和展望。提出需要进一步研究的工作和改进的建议。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分