spark的分区概念和hdfs、hive的分区概念是一样的吗?

发布时间:2020-06-11 11:00:00
阅读量:57
作者:猎维人工智能培训
DM大数据面试题

spark是计算引擎,它的分区partiton是针对RDD,和mapreduce的分区概念一致,分区目的提高并行计算速度。

hdfs是存储,它的分区是文件基于block存储,实现多副本分布式。

hive是hadoop的数据仓库工具,它的分区类似数据库的分库分表,解决数据提取速度。比如hive外表可以按天进行分区,每个分区指向一个hdfs路径。

更多资讯