开放式地理实体关系抽取的Bootstrapping方法
A Bootstrapping Based Approach for Open Geo-entity Relation Extraction作者机构:中国科学院地理科学与资源研究所资源与环境信息系统国家重点实验室北京100101 中国科学院大学北京100101 江苏省地理信息资源开发与利用协同创新中心江苏南京210023
出 版 物:《测绘学报》 (Acta Geodaetica et Cartographica Sinica)
年 卷 期:2016年第45卷第5期
页 面:616-622页
核心收录:
学科分类:07[理学] 070503[理学-地图学与地理信息系统] 0708[理学-地球物理学] 0705[理学-地理学] 0704[理学-天文学]
基 金:国家自然科学基金(41271408) 国家863计划(2013AA120305)~~
主 题:文本挖掘 地理实体 关系抽取 定量评价 bootstrapping
摘 要:从网络文本中抽取地理实体间空间关系和语义关系要求高时效性和强鲁棒性。本文提出一种开放式地理实体关系的自动抽取方法,通过bootstrapping技术统计词语的词性、位置和距离特征来计算语境中词语权值,据此确定描述地理实体关系的关键词,最终组织成结构化实例,并使用百度百科和Stanford CoreNLP开展了试验。研究结果表明,本文方法能自动挖掘自然语言的部分词法特征,无须领域专家知识和大规模标注语料,适用于未知关系类型的信息抽取任务;较之经典的Frequency、TFIDF和PPMI频率统计方法,精度和召回率分别提升约5%和23%。