面向机器学习的数据库多表连接顺序选择综述
作者机构:宁夏大学信息工程学院
出 版 物:《计算机工程》 (Computer Engineering)
年 卷 期:2024年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)]
基 金:国家自然科学基金(62102201) 宁夏自然科学基金(2022AAC05010,2021BEB04054,2021AAC03034)
摘 要:多表连接顺序选择,即在进行查询优化时,为查询语句中涉及到的多个表选择出最优的连接顺序以提升查询性能。在复杂查询中,不同的表连接顺序能够显著影响查询执行效率。大数据时代下,面对庞大的数据集、多样的应用环境以及复杂的查询语句,传统多表连接顺序由于基于启发式规则,无法根据环境动态适应和自我学习,因此缺乏泛化能力,导致选择次优的多表连接顺序,甚至严重影响查询性能。随着机器学习的蓬勃发展,AI4DB技术逐渐引领查询优化领域,包括面向机器学习的多表连接顺序选择。机器学习技术能够解决传统连接顺序选择存在的问题,在自我学习以及场景适应方面具有较好表现。论文首先介绍连接顺序的传统选择算法,挖掘其存在的问题,然后总结当前流行的针对多表连接的机器学习模型,并分别介绍它们的核心技术方案,在效果、可用场景等方面对它们进行横向对比,目的是为本领域后续科研工作者提供有价值的参考。