多读书多实践,勤思考善领悟

Storm和流处理简介

Storm和流处理简介

一、Storm1.1 简介Storm 是一个开源的分布式实时计算框架,可以以简单、可靠的方式进行大数据流的处理。通常用于实时分析,在线机器学习、持续计算、分布式RPC、ETL等场景。Storm具有以下特点: 支持水平横向扩展; 具有...

深入理解Kafka副本机制

深入理解Kafka副本机制

一、Kafka集群Kafka使用Zookeeper来维护集群成员(brokers)的信息。每个broker都有一个唯一标识broker.id,用于标识自己在集群中的身份,可以在配置文件server.properties中进行配置,或者...

Kafka消费者详解

Kafka消费者详解

一、消费者和消费者群组在Kafka中,消费者通常是消费者群组的一部分,多个消费者群组共同读取同一个主题时,彼此之间互不影响。Kafka之所以要引入消费者群组这个概念是因为Kafka消费者经常会做一些高延迟的操作,比如把数据写到数据库或...

Kafka生产者详解

Kafka生产者详解

一、生产者发送消息的过程首先介绍一下Kafka生产者发送消息的过程: Kafka会将发送消息包装为ProducerRecord对象, ProducerRecord对象包含了目标主题和要发送的内容,同时还可以指定键和分区。在发送Pro...

Kafka简介

Kafka简介

一、简介ApacheKafka是一个分布式的流处理平台。它具有以下特点: 支持消息的发布和订阅,类似于RabbtMQ、ActiveMQ等消息队列; 支持数据实时处理; 能保证消息的可靠性投递; 支持消息的持久化存储,并通过多副本分布...

Spark Streaming 整合 Kafka

Spark Streaming 整合 Kafka

一、版本说明Spark针对Kafka的不同版本,提供了两套整合方案:spark-streaming-kafka-0-8和spark-streaming-kafka-0-10,其主要区别如下: spark-streaming-k...

Spark Streaming 整合 Flume

Spark Streaming 整合 Flume

一、简介Apache Flume是一个分布式,高可用的数据收集系统,可以从不同的数据源收集数据,经过聚合后发送到分布式计算框架或者存储系统中。Spark Straming提供了以下两种方式用于Flume的整合。 二、推送式方法在推送式...

Spark Streaming 基本操作

Spark Streaming 基本操作

一、案例引入这里先引入一个基本的案例来演示流的创建:获取指定端口上的数据并进行词频统计。项目依赖和代码实现如下: 12345<dependency> <groupId>org.apache.spark&l...

Spark Streaming与流处理

Spark Streaming与流处理

一、流处理1.1 静态数据处理在流处理之前,数据通常存储在数据库,文件系统或其他形式的存储系统中。应用程序根据需要查询数据或计算数据。这就是传统的静态数据处理架构。Hadoop采用HDFS进行数据存储,采用MapReduce进行数据查...

Spark SQL JOIN

Spark SQL JOIN

一、 数据准备本文主要介绍Spark SQL的多表连接,需要预先准备测试数据。分别创建员工和部门的Datafame,并注册为临时视图,代码如下: 1234567val spark = SparkSession.builder().ap...