HDFS文件操作       HDFS是一种文件系统,专为MapReduce这类框架下的大规模分布式数据处理而设计,你可以把一个大数据集(比如说100TB)在HDFS中存储为单个文件,而大多数其...
一、hadoop yarn 简介Apache YARN (Yet Another Resource Negotiator) 是hadoop 2.0 引入的集群资源管理系统。用户可以将各种服务框架部署在YARN上,由YARN进行统一地...
一、MapReduce概述Hadoop MapReduce是一个分布式计算框架,用于编写批处理应用程序。编写好的程序可以提交到Hadoop集群上用于并行处理大规模的数据集。 MapReduce作业通过将输入的数据集拆分为独立的块,这些...
一、介绍HDFS (Hadoop Distributed File System)是Hadoop下的分布式文件系统,具有高容错、高吞吐量等特性,可以部署在低成本的硬件上。 二、HDFS 设计原理 2.1 HDFS 架构HDFS ...
大数据学习路线一、大数据处理流程 上图是一个简化的大数据处理流程图,大数据处理的主要流程包括数据收集、数据存储、数据处理、数据应用等主要环节。下面我们逐一对各个环节所需要的技术栈进行讲解: 1.1 数据收集大数据处理的第一步是数...
大数据常用软件安装指南为方便大家查阅,软件的安装方式单独整理如下: 一、基础软件安装 Linux环境下JDK安装 Linux环境下Python安装 虚拟机静态IP及多IP配置 二、Hadoop Hadoop单机环境搭建 Hadoop...
一、Zookeeper集群搭建为保证集群高可用,Zookeeper集群的节点数最好是奇数,最少有三个节点,所以这里搭建一个三个节点的集群。 1.1 下载 & 解压下载对应版本Zookeeper,这里我下载的版本3.4.14。官...
一、单机环境搭建1.1 下载下载对应版本Zookeeper,这里我下载的版本3.4.14。官方下载地址:https://archive.apache.org/dist/zookeeper/ 1# wget https://archiv...
一、安装Hive1.1 下载并解压下载所需版本的Hive,这里我下载版本为cdh5.15.2。下载地址:http://archive.cloudera.com/cdh5/cdh/5/ 12# 下载后进行解压 tar -zxvf hiv...