多保真度数据学习算法的定量噪声评价
A Quantitative Noise Method to Evaluate Machine Learning Algorithm on Multi-Fidelity Data作者机构:北京信息科技大学北京市材料基因工程高精尖创新中心北京100101 北京信息科技大学计算机学院北京100101 暨南大学信息科学技术学院广州511442
出 版 物:《硅酸盐学报》 (Journal of The Chinese Ceramic Society)
年 卷 期:2023年第51卷第2期
页 面:405-410页
核心收录:
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金项目(22203008 22272009)
摘 要:多保真度数据是当前材料领域数据的主要存在形式。在数据生产端,不同量化方法在材料同种属性的计算上存在较大差距。对于数据消费端的机器学习算法,研究人员为最大化提取数据中知识设计了各种方法。采用定量噪声添加的方法,评价不同噪声强度、类型对不同多保真度数据学习方法的影响,通过迭代降噪验证数据修正方法的适用场景。结果表明:多保真度数据的利用方式至关重要,需对各子数据集中数据量及含噪情况进行综合考量。在使用不同噪声类型与强度构造出的多种数据集上,得益于数据间的协同效应,逐步删除低保真度数据的Onion训练方式明显优于按数据集所含噪声减小方向逐个进行的训练方式。在多保真度数据训练中,无论何种噪声强度及训练方式,线性噪声对模型的影响更小。对于采样噪声来说,在各环节更好地模拟了真实多保真度数据,建议被后续研究采用。此外,复杂噪声难以让少量真值数据发挥纠偏作用,更适合进行迭代降噪处理。