基于深度学习模型的文化景观基因命名实体识别
作者机构:衡阳师范学院地理与旅游学院 传统村镇文化数字化保护与创意利用技术国家地方联合工程实验室
出 版 物:《地球信息科学学报》 (Journal of Geo-information Science)
年 卷 期:2025年
核心收录:
学科分类:12[管理学] 081603[工学-地图制图学与地理信息工程] 081802[工学-地球探测与信息技术] 07[理学] 08[工学] 070503[理学-地图学与地理信息系统] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 0818[工学-地质资源与地质工程] 0705[理学-地理学] 0816[工学-测绘科学与技术] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0833[工学-城乡规划学] 0812[工学-计算机科学与技术(可授工学、理学学位)] 083302[工学-城乡规划与设计]
基 金:国家自然科学基金项目(41771188) 湖南省自然资源厅后补助项目(HBS20240101)
主 题:传统聚落 文化景观基因 自然语言处理 命名实体识别 BERT预训练语言模型 Neo4j图数据库 知识图谱
摘 要:【目的】针对当前传统聚落研究缺乏结合自然语言处理的原理与方法从海量文本数据中提取文化景观基因信息的相关探索,本文提出景观基因命名实体(Traditional Settlement Landscape Genes Named Entity,TSLGNE)的概念,并以邵阳市48个传统村落为案例,采用BERT-BiLSTM-CRF深度学习模型开展TSLGNE的识别研究。【方法】首先,结合地理实体特征与文化景观基因理论及其分类体系,提出TSLGNE的概念、分类体系与知识表达方法。其次,基于TSLGNE的分类体系与扩展BIOES标注方法,对研究案例源文本数据进行语料标注,构建了相应的语料库。随后,基于BERT-BiLSTM-CRF深度学习模型识别并提取语料数据中的TSLGNE信息。最后,通过Neo4j图数据库对获取到的TSLGNE知识进行组织与储存,并基于此对区域传统聚落及其TSLGNE进行空间特征分析。【结果】本文模型能够有效识别文本数据中的建筑、环境、文化等12类景观基因实体信息,总体精确率、召回率、F1值相较对比模型均有提升。与BiLSTM-CRF、BERT-CRF模型相比,本模型的F1值分别提高11%与1%。特别地,本模型对于语料数据质量差且语义复杂的实体的识别效果有极大提升,如文化基因C3类实体识别的F1较对比模型分别提高了31%与5%。【结论】此方法能够有效地对区域复杂的传统聚落文化基因特征及其关系进行空间分析处理,对今后结合GIS和数据挖掘方法分析传统聚落的重要文化特征及传统聚落知识服务等具有较好的借鉴意义。