计算机研究与发展2024,Vol.61Issue(2) :413-427.DOI:10.7544/issn1000-1239.202220649

基于机器学习的基数估计技术综述

Survey of Cardinality Estimation Techniques Based on Machine Learning

岳文静 屈稳稳 林宽 王晓玲
计算机研究与发展2024,Vol.61Issue(2) :413-427.DOI:10.7544/issn1000-1239.202220649

基于机器学习的基数估计技术综述

Survey of Cardinality Estimation Techniques Based on Machine Learning

岳文静 1屈稳稳 2林宽 3王晓玲2
扫码查看

作者信息

  • 1. 华东师范大学计算机科学与技术学院 上海 200062;华东师范大学上海智能教育研究院 上海 200062
  • 2. 华东师范大学计算机科学与技术学院 上海 200062
  • 3. 中国科学院空天信息创新研究院 北京 100190
  • 折叠

摘要

基数估计是数据库关系系统查询优化器的基础和核心.随着人工智能技术的发展,其在数据处理、提取数据之间的关系等方面显现出优越的性能.近年来,基于机器学习的基数估计技术取得了显著的进展,受到了学术界的广泛关注.首先总结了基于机器学习的技术估计技术的发展现状,其次给出了基数估计的相关概念及其特征编码技术.接着建立了基数估计技术的分类体系.在此基础上,进一步将基于机器学习的基数估计技术细分为查询驱动、数据驱动和混合模型这 3类基数估计技术.然后重点分析了每一类技术的建模流程、典型技术和模型特点,并对其在SQL和NoSQL中的应用进行了分析和总结.最后讨论了基于机器学习的基数估计技术面临的挑战和未来的研究方向.

Abstract

Cardinality estimation is the basis and core of query optimizer for the database management system(DBMS).With the development of artificial intelligence(AI)technology,AI technology has shown superior performance in data processing and extracting the relationship from the data.In recent years,the research of the cardinality estimation method based on machine learning has made significant progress and received wide attention from the academic community.Firstly,we introduce the technical background and development status of cardinality estimation methods based on machine learning.Secondly,we give the definition and the feature encoding technology of the related concepts of cardinality estimation.Then,we expound on the classification structure of cardinality estimation technology from two aspects:traditional cardinality estimation and cardinality estimation based on machine learning.Then,we further subdivide cardinality estimation based on machine learning into three types of cardinality estimation techniques:query-driven,data-driven,and hybrid models.Then,we focus on analyzing the modeling flow,typical methodologies,and characteristics of each type of model.In addition,we analyze and summarize the application of cardinality estimation in SQL and NoSQL.Finally,we discuss the challenges and future research directions on cardinality estimation methods based on machine learning.

关键词

数据库/基数估计/机器学习/查询优化/神经网络

Key words

database/cardinality estimation/machine learning/query optimization/neural network

引用本文复制引用

基金项目

国家重点研发计划项目(2021YFC3340700)

国家自然科学基金重点项目(62136002)

上海市科委重点项目(20DZ1100300)

国家自然科学基金项目(61972155)

出版年

2024
计算机研究与发展
中国科学院计算技术研究所 中国计算机学会

计算机研究与发展

CSTPCDCSCD北大核心
影响因子:2.649
ISSN:1000-1239
参考文献量1
段落导航相关论文