基于深度学习与OCR识别技术的合同审核与标注方法
Contract Review and Labeling Method Based on Deep Learning and OCR Recognition Technology作者机构:福州软件职业技术学院智能产业学院福建福州350211
出 版 物:《福建技术师范学院学报》 (JOURNAL OF FUJIAN POLYTECHNIC NORMAL UNIVERSITY)
年 卷 期:2024年第42卷第5期
页 面:30-37页
学科分类:07[理学] 08[工学] 070104[理学-应用数学] 081201[工学-计算机系统结构] 0701[理学-数学] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:针对当前合同审核方法无法高精度识别合同内容,标注时间长的问题,提出了基于深度学习和OCR识别技术的合同审核与标注方法.基于OCR识别技术构建合同文本识别模型,利用OCR识别引擎将纸质文档中的文字转换成为黑白图像;然后对黑白合同文本图像进行二值化预处理,计算图像相似度;基于相似度梯度对图像进行标准差局部对比和赋值处理,以分割字符前景与页面背景,完成合同审核;构建基于深度学习的目标标注模型,确定各合同段落特征向量,将文字段落的特征向量分类转化为二次函数寻优问题,进行段落图像的特征分类优化;引入回归理论修正标注模型的损失函数,以缩小合同段落标注模型输出与预测结果之间的误差,完成合同标注.由实例分析结果可知,该方法能够通过对比定稿文件和用印文件获取详细的差异列表,且合同标注速度较快,合同文本的正确识别率较高.