基于HMM的中国人英文简历信息抽取方法
作者单位:北京工业大学
学位级别:硕士
导师姓名:李玉鑑
授予年度:2016年
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:在日常生活中,简历的使用率非常高,互联网的迅速发展使得简历的投递方式从以往的纸质投递转变成网上投递。随着国际化程度的提升,在国内英文简历的使用场景也逐渐增多。简历信息抽取是一种具有重要应用价值的文本信息抽取技术,并且对简历数据库的自动优化和管理具有重要应用价值。与外国人书写的英文简历相比,中国人书写的英文简历有特殊的关键字段。本文的目的是从这样的简历中自动提取出关键字段,并通过关键字段抽取出英文简历中的信息。本文利用隐马尔可夫模型建立了一种针对中国人英文简历关键字段进行自动抽取的方法,其中包含三个隐含状态,即“关键字、“非关键字和“标点符号,用于对简历的每个单词进行标注。本文的主要研究内容包括:(1)研究并总结出中国人书写的英文简历特征,通过手动标记训练样本,建立了一个具有3000份中国人英文简历的数据库。(2)利用建立的数据库,对中国人英文简历隐马尔可夫模型进行参数计算和优化,建立了一个中国人英文简历隐马尔可夫模型。(3)研究一种基于隐马尔可夫模型的中国人英文简历关键字段抽取方法,即利用模型为简历自动标记隐含状态,通过关键字段对简历中的目标信息进行抽取。本文提出的方法在一个3000份的中国人英文简历数据库上取得了良好的实验结果,开放实验的正确率和召回率可分别达到85.99%和83.80%,封闭实验的正确率和召回率可分别达到85.11%和86.03%。实验结果验证了该方法的有效性和可行性。