一个专注于大数据技术架构与应用分享的技术博客

Kafka

Kafka分区分配策略(Partition Assignment Strategy)

Kafka是一个高吞吐量、分布式的消息系统。在Kafka中,每个主题(topic)可以被划分为多个分区(partition),每个分区可以被复制(replica)到不同的broker节点上,以提高可靠性。 Kafka分区分配策略(Parti...

阅读(40)

Kafka集群扩展以及重新分布分区

Kafka是一个分布式的消息队列系统,能够处理多分区分布式架构的需求,但是随着业务的增长,Kafka集群也需要不断的扩展。本文将介绍Kafka集群扩展以及重新分布分区的操作。 首先,对于新增Broker节点的扩展,通常需要进行以下操作: 添...

阅读(41)

图解Apache Kafka消息偏移量的演变(0.7.x~0.10.x)

Apache Kafka是一个分布式的流处理平台,其最重要的组件之一便是消息系统。在Kafka中,消息的偏移量(Offset)是非常重要的概念。它用于唯一标识每条消息,并决定了消费者读取消息的位置和顺序。下面,我们将简要介绍Kafka消息偏...

阅读(28)

Kafka新建的分区会在哪个目录下创建

在Kafka中,分区被视为一个物理磁盘文件,用于存储主题中的消息。每个分区都是一个文件夹,存储在Kafka服务器所在的文件系统上。Kafka在默认情况下使用本地磁盘存储数据,因此每个分区都存储在本地磁盘上的文件夹内。 当在Kafka中创建新...

阅读(28)

Kafka管理工具介绍

Kafka是一个分布式的消息队列系统,几乎可以同时支持生产环境和测试环境。在企业中部署Kafka集群时,为了更加便捷地管理Kafka集群,可以使用一些Kafka管理工具。本文将介绍几个常用的Kafka管理工具。 Confluent Cont...

阅读(34)

Kafka分布式集群部署手册(二)

在上一篇手册中,我们介绍了Kafka分布式集群的准备工作以及单节点集群的部署步骤。本篇将继续探讨如何部署多节点分布式集群。 多节点分布式集群的配置和部署 配置Brokers 修改config/server.properties文件,找到以下...

阅读(28)

NodeManager生命周期介绍

NodeManager是Hadoop集群中的一个关键组件,它负责和ResourceManager进行通信,管理和监控集群中的每一个节点的资源使用和容器的启动和终止。NodeManager的生命周期由启动、运行、终止三个阶段构成。 启动阶段 ...

阅读(28)

为什么Spark Streaming + Kafka很难保证exactly once?

在使用 Spark Streaming 和 Kafka 进行数据处理时,要实现 Exactly Once 语义是具有挑战性的,因为当前版本的 Kafka 和 Spark Streaming 并不提供一种易于实现的方法。主要由于以下几个方面的...

阅读(34)

恭喜!新一代分布式对象存储 Ozone 成为顶级项目

近日,Apache Ozone 成为了 Apache 软件基金会的顶级项目之一,这是对它在分布式对象存储 (DOS) 领域做出贡献的肯定。作为全新一代的分布式对象存储方案,Ozone 告别了业界常用的分布式文件系统(HDFS),引入了基于对...

阅读(48)

Kafka设计解析:Kafka Consumer解析

Kafka是一个高性能的分布式消息队列系统,它的消费者模型具有强大的灵活性和可扩展性,并且支持多种数据流处理模式。本文将对Kafka Consumer进行解析,探讨其设计原理、消费模式和实现方式等方面的内容。 设计原理 Kafka Cons...

阅读(36)