国家学术搜索
登录
注册
中文
EN
首页
|
基于Spark SQL的数据查询与索引优化系统研究
基于Spark SQL的数据查询与索引优化系统研究
引用
认领
扫码查看
点击上方二维码区域,可以放大扫码查看
原文链接
NETL
NSTL
万方数据
中文摘要:
随着大数据及云计算技术、移动场景应用数据量的迅猛发展,对于动态场景下的时态大数据查询与处理分析,成为不同企事业单位高吞吐量、低延迟数据管理关注的重要方向.基于Apache Spark分布式计算框架,搭建起涵盖Spark SQL解析器、Catalyst查询优化器、Data Frame查询接口、Hive数据仓库、RDD(resilient distributed datasets)数据库等组件的大数据查询分析系统,针对海量的半结构化、非结构化时态数据,基于Spark SQL内核的Parser组件拓展时态查询的范围,使其支持特定索引创建、删除与内存读入管理的关键字,将本地分区建立的时态索引打包为IndexRDD数据集,利用局部时态索引模型展开含有K个时态对象的数据查询,快速扫描、查询与定位相应的数据项位置,进而提升时态数据查询的容错性、执行性能.
收起全部
展开查看外文信息
作者:
陈春茹
展开 >
作者单位:
山西金融职业学院 山西太原 030008
关键词:
Spark
SQL组件
数据查询与索引优化
系统
出版年:
2024
DOI:
10.3969/j.issn.1672-9528.2024.07.036
信息技术与信息化
山东电子学会
信息技术与信息化
影响因子:
0.29
ISSN:
1672-9528
年,卷(期):
2024.
(7)
参考文献量
14