ULEO:表示合成实验规程的实验操作统一语言
Data Analysis and Knowledge Discovery ULEO:Unified Language of Experiment Operations for Representation of Synthesis Protocols作者机构:中国科学院文献情报中心北京100190 中国科学院大学经济与管理学院信息资源管理系北京100190 中国科学院过程工程研究所北京100190
出 版 物:《数据分析与知识发现》 (Data Analysis and Knowledge Discovery)
年 卷 期:2024年第8卷第1期
页 面:30-39页
核心收录:
学科分类:1205[管理学-图书情报与档案管理] 12[管理学] 07[理学] 08[工学] 120502[管理学-情报学]
基 金:国家自然科学基金重点项目(项目编号:72234005)的研究成果之一
主 题:实验操作统一语言 智能科研 合成实验规程 实验操作 科学机器人
摘 要:【目的】面对智能科研与科学机器人对高质量实验规程数据的需求,解决合成实验规程中的实验操作词统一表示问题。【方法】综合利用数据和专家知识协同驱动的方式,从合成相关的论文与专利文本中识别并标准化实验操作词。实验操作词识别主要选用较为先进的开源大模型ChatGLM2-6B,实验操作词标准化则混合应用Wu-Palmer和余弦相似度,辅以专家经验知识判别分类的准确性。【结果】分别获取149个无机合成实验操作词和141个有机合成实验操作词,两者交集124个词。经判定在两类合成实验中分别出现的操作词中多数并不具备鲜明的类别特色,因此可取两类合成实验操作词的并集,共计166个,用于统一表示有机、无机及其杂化合成实验操作。【局限】仅使用基础的提示工程来激发大模型识别实验操作词,准确率有待提升;所用的数据主要源于当前免费公开的数据集,不够全面、丰富;仅关注合成、工程和基础步骤中涉及的操作词,未涉及动态、分析与命名反应中的操作词。【结论】本文构建一套表示合成实验操作的统一语言,用于表示有机、无机及其杂化合成反应中的实验操作,不同类型的合成实验操作词在表示上差异不大,在使用频次和倾向上确有不同,今后可据此优先选择研制科学机器人相应的实验操作功能。