多读书多实践,勤思考善领悟

Hive分区表和分桶表

Hive分区表和分桶表

一、分区表1.1 概念Hive中的表对应为HDFS上的指定目录,在查询数据时候,默认会对全表进行扫描,这样时间和性能的消耗都非常大。 分区为HDFS上表目录的子目录,数据按照分区存储在子目录中。如果查询的where字句的中包含分区条件...

Hive简介及核心概念

Hive简介及核心概念

一、简介Hive是一个构建在Hadoop之上的数据仓库,它可以将结构化的数据文件映射成表,并提供类SQL查询功能,用于查询的SQL语句会被转化为MapReduce作业,然后提交到Hadoop上运行。 特点: 简单、容易上手(提供了类...

hadoop HDFS常用Shell命令

hadoop HDFS常用Shell命令

HDFS文件操作       HDFS是一种文件系统,专为MapReduce这类框架下的大规模分布式数据处理而设计,你可以把一个大数据集(比如说100TB)在HDFS中存储为单个文件,而大多数其...