多读书多实践,勤思考善领悟

Flink SQL编程

Flink SQL编程

SQL是数据处理中使用最广泛的语言。它允许用户简明扼要地声明他们的业务逻辑。大数据批计算使用SQL很常见,但是支持SQL的实时计算并不多。Apache Flink是一款同时支持批和流计算的引擎,Flink SQL的实现完全遵循ANSI...

Hbase的SQL中间层——Phoenix

Hbase的SQL中间层——Phoenix

一、Phoenix简介Phoenix是HBase的开源SQL中间层,它允许你使用标准JDBC的方式来操作HBase上的数据。在Phoenix之前,如果你要访问HBase,只能调用它的Java API,但相比于使用一行SQL就能实现数据...

Spark SQL JOIN

Spark SQL JOIN

一、 数据准备本文主要介绍Spark SQL的多表连接,需要预先准备测试数据。分别创建员工和部门的Datafame,并注册为临时视图,代码如下: 1234567val spark = SparkSession.builder().ap...

Spark聚合函数Aggregations

Spark聚合函数Aggregations

一、简单聚合1.1 数据准备12345678// 需要导入spark sql内置的函数包import org.apache.spark.sql.functions._val spark = SparkSession.builder()...

Spark SQL外部数据源

Spark SQL外部数据源

一、简介1.1 多数据源支持Spark支持以下六个核心数据源,同时Spark社区还提供了多达上百种数据源的读取方式,能够满足绝大部分使用场景。 CSV JSON Parquet ORC JDBC/ODBC connections P...

Spark DataFrame和Dataset简介

Spark DataFrame和Dataset简介

一、Spark SQL简介Spark SQL是Spark中的一个子模块,主要用于操作结构化数据。它具有以下特点: 能够将SQL查询与Spark程序无缝混合,允许您使用SQL或DataFrame API对结构化数据进行查询; 支持多种...