结合注意力机制和编码器—解码器架构的化学结构识别方法
Chemical structure recognition method based on attention mechanism and encoder-decoder architecture作者机构:吉首大学通信与电子工程学院吉首416000 南京理工大学江苏省社会安全图像与视频理解重点实验室南京210094 同济大学电子与信息工程学院上海201804
出 版 物:《中国图象图形学报》 (Journal of Image and Graphics)
年 卷 期:2024年第29卷第7期
页 面:1960-1969页
核心收录:
学科分类:08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程]
基 金:国家自然科学基金项目(61966014) 湖南省自然科学基金项目(2024JJ7413) 江苏省社会安全图像与视频理解重点实验室开放课题项目(202212) 吉首大学校级科研项目(JGY2023071,Jdy23042) 湖南省研究生科研创新项目(QL20230255,CX20221107)
主 题:化学结构识别 编码器—解码器 注意力机制 残差网络 SMILES(simplified molecular input line entry system)
摘 要:目的 化学结构识别是化学和计算机视觉领域的一个重要问题,传统光学化学结构识别技术在复杂化学结构识别任务中易发生信息丢失或误识别的现象,同时又因为化学物质的结构多样性常导致其无法解析,识别效果不佳。而基于深度学习的模型通常具有网络结构复杂度高、上下文信息易丢失和识别率低的问题。为此,提出一种结合注意力机制和编码器—解码器架构的化学结构识别方法。方法 首先,使用改进的ResNet50(residual network)作为特征提取器抓取表征信息;其次,使用BLSTM(bi-directional long-short term memory)作为行编码器为ResNet50提取的表征信息加强空间信息;最后,使用去填充模块和基于覆盖注意力机制的LSTM(long short-term memory)网络作为模型解码器,对化学结构图像进行解码,将编码结果解码为SMILES(simplified molecular input line entry system)序列。结果 在Indigo、ChemDraw、CLEF(Conference and Labs of the Evaluation Forum)、JPO(Japanese Patent Office)、UOB(University of Birmingham)、USPTO(United States Patent and Trademark Office)、Staker、ACS(American Chemistry Society)、CASIA-CSDB(Institute of Automation of Chinese Academy of Sciences—Chemical Structure Database)和Mini CASIA-CSDB数据集上,所提方法识别准确率分别为71.1%、70.21%、45.8%、30.3%、53.02%、58.21%、43.39%、46.3%、84.42%和85.78%,高于SwimOCSR、Image2Mol和ChemPix模型得分。结论 与其他模型相比,本文方法通过少量训练集能够获得较高的识别准确率。