多读书多实践,勤思考善领悟

大数据hadoop学习教程

本文于1673天之前发表,文中内容可能已经过时。

云计算

  1. 云计算概念
  2. 云计算技术

大数据

  1. 大数据学习路线
  2. hadoop生态圈介绍
  3. 大数据技术栈思维导图
  4. Hadoop部署技术选型
  5. 大数据常用软件安装指南

一、Hadoop

  1. 分布式文件存储系统——HDFS
  2. 分布式计算框架——MapReduce
  3. 集群资源管理器——YARN
  4. Hadoop单机伪集群环境搭建
  5. Hadoop集群环境搭建
  6. Hadoop基于Zookeeper高可用集群环境搭建
  7. HDFS常用Shell命令
  8. HDFS Java API的使用

二、Hive

  1. Hive简介及核心概念
  2. Linux环境下Hive的安装部署
  3. Hive CLI和Beeline命令行的基本使用
  4. Hive 常用DDL操作
  5. Hive 分区表和分桶表
  6. Hive 视图和索引
  7. Hive常用DML操作
  8. Hive 数据查询详解
  9. Hive的数据导入导出
  10. Hive综合案例实战
  11. Hive的开发
  12. Hive的安全
  13. Hive优化

三、Spark

Spark Core :

  1. Spark简介
  2. Spark开发环境搭建
  3. 基于Zookeeper搭建Spark高可用集群
  4. 弹性式数据集RDD
  5. RDD常用算子详解
  6. Spark运行模式与作业提交
  7. Spark累加器与广播变量

Spark SQL :

  1. DateFrame 和 DataSet
  2. Structured API的基本使用
  3. Spark SQL外部数据源
  4. Spark SQL常用聚合函数
  5. Spark SQL JOIN 操作

Spark Streaming :

  1. Spark Streaming 简介
  2. Spark Streaming 基本操作
  3. Spark Streaming 整合 Flume
  4. Spark Streaming 整合 Kafka

四、Storm

  1. Storm和流处理简介
  2. Storm核心概念详解
  3. Storm单机环境搭建
  4. Storm集群环境搭建
  5. Storm编程模型详解
  6. Storm项目三种打包方式对比分析
  7. Storm集成Redis详解
  8. Storm集成HDFS/HBase
  9. Storm集成Kafka
  1. Flink基础概念
  2. Flink开发环境搭建、集群环境搭建和应用部署
  3. Flink完整配置
  4. DataStream API编程
  5. DataStream API使用
  6. 批处理示例(java和Scala)
  7. Flink客户端操作的五种模式
  8. Flink命令行界面
  9. Scala REPL
  10. Time & Window
  11. Flink状态管理和容错机制介绍
  12. Flink Table API编程
  13. Flink SQL编程
    TODO

六、HBase

  1. Hbase 简介
  2. HBase系统架构及数据结构
  3. HBase基本环境搭建
  4. HBase集群环境搭建
  5. HBase常用Shell命令
  6. HBase Java API
  7. HBASE的Python开发
  8. Hbase 过滤器详解
  9. HBase 协处理器详解
  10. HBase 容灾与备份
  11. HBase的SQL中间层——Phoenix
  12. Spring/Spring Boot 整合 Mybatis + Phoenix
  13. HBase监控语诊断
  14. HBASE的数据迁移
  15. HBASE基于Bulk load的数据迁移
  16. HBASE使用管理工具

七、Kafka

  1. Kafka 简介
  2. 基于Zookeeper搭建Kafka高可用集群
  3. Kafka 生产者详解
  4. Kafka 消费者详解
  5. 深入理解Kafka副本机制

八、Zookeeper

  1. Zookeeper 简介及核心概念
  2. Zookeeper单机环境和集群环境搭建
  3. Zookeeper常用Shell命令
  4. Zookeeper Java 客户端——Apache Curator
  5. Zookeeper ACL权限控制

九、Flume

  1. Flume简介及基本使用
  2. Linux环境下Flume的安装部署
  3. Flume整合Kafka

十、Sqoop

  1. Sqoop简介与安装
  2. Sqoop的基本使用

十一、Azkaban

  1. Azkaban简介
  2. Azkaban3.x 编译及部署
  3. Azkaban Flow 1.0 的使用
  4. Azkaban Flow 2.0 的使用

十二、Scala

  1. Scala简介及开发环境配置
  2. 基本数据类型和运算符
  3. 流程控制语句
  4. 数组——Array
  5. 集合类型综述
  6. 常用集合类型之——List & Set
  7. 常用集合类型之——Map & Tuple
  8. 类和对象
  9. 继承和特质
  10. 函数 & 闭包 & 柯里化
  11. 模式匹配
  12. 类型参数
  13. 隐式转换和隐式参数

十三、公共内容

  1. 数据采集与爬虫
  2. 大数据应用常用打包方式
  3. git使用手册

十四、hadoop版本

1. CDH版本

1.1 Hadoop的CDH发行版本介绍

1.2 CentOS下离线安装

1.3 ubuntu下离线安装

1.4 Hue安装与配置

2. Ambari

2.1 Ambari介绍及安装

3. TDH版本

3.1 Hadoop的TDH发行版本介绍

3.2 TDH安装

3.3 Inceptor-SQL使用

3.4 使用JDBC、ODBC工具连接Inceptor

3.5 使用Sqoop

3.6 SQL兼容性测试

3.7 SQL语法知识

十五、运维

  1. Linux常用命令大全
  2. HDFS常用命令
  3. Hadoop运维技能要求

十六、资源分享

  1. 资料分享与开发工具推荐
  2. Hadoop相关资源
  3. github上hadoop相关资源收集