Mac私塾---一个专注于大数据技术架构与应用分享的技术博客-最新发布-第2页

图解Apache Kafka消息偏移量的演变(0.7.x~0.10.x)

Apache Kafka是一个分布式的流处理平台，其最重要的组件之一便是消息系统。在Kafka中，消息的偏移量（Offset）是非常重要的概念。它用于唯一标识每条消息，并决定了消费者读取消息的位置和顺序。下面，我们将简要介绍Kafka消息偏...

2024-04-04Kafka 阅读(1529)

Hadoop Distributed File System（HDFS）是一种分布式文件系统，已经被广泛用于大数据处理。B 站作为一个大型的视频分享网站，也使用了 HDFS，来储存和管理数据。在 B 站的探索和实践中，HDFS 发挥了重要的...

2024-04-03Hadoop 阅读(1083)

Spark容错机制背景随着大数据技术的发展，人们处理数据量越来越大，单机处理的能力无法满足需求。在这种情况下，分布式计算系统应运而生。Apache Spark 就是这样一款流行的分布式计算系统。Spark利用内存技术大幅度提高了计算速度...

2024-04-03Spark 阅读(1594)

在Kafka中，分区被视为一个物理磁盘文件，用于存储主题中的消息。每个分区都是一个文件夹，存储在Kafka服务器所在的文件系统上。Kafka在默认情况下使用本地磁盘存储数据，因此每个分区都存储在本地磁盘上的文件夹内。当在Kafka中创建新...

2024-04-03Kafka 阅读(1405)

在Spark应用程序的开发中，通常会依赖一些外部的Jar包，这些Jar包包含了Spark中一些重要的组件和功能，例如Spark SQL、GraphX等等。在执行Spark作业时，这些依赖的Jar包需要被分发到集群的每个节点，从而可以为应用程...

2024-04-02Hadoop 阅读(1082)

Spark on Yarn 架构解析在大数据处理领域，Spark 是一个非常流行的框架。在分布式计算中，资源管理是一个重要的问题，而 Yarn 是一个高效的资源管理系统。本文将探讨 Spark on Yarn 架构及其实现细节。 Spar...

2024-04-02Spark 阅读(1112)

Kafka是一个分布式的消息队列系统，几乎可以同时支持生产环境和测试环境。在企业中部署Kafka集群时，为了更加便捷地管理Kafka集群，可以使用一些Kafka管理工具。本文将介绍几个常用的Kafka管理工具。 Confluent Cont...

2024-04-02Kafka 阅读(1904)

Kafka 是 Apache 基金会中一个流行的、高可靠性的，分布式的消息队列系统。它主要解决的是系统之间异步消息传输的问题，弥补了不同系统之间异构性的差别，实现了数据的解耦和扩展。本文将介绍如何使用 Kafka 将 RDBMS 中的数据实...

2024-04-01Hadoop 阅读(1576)

Spark环境搭建：运行第一个Spark程序 Apache Spark是一个开源的大数据处理框架，它可以在分布式的集群上高效地处理大规模数据。本文将介绍如何搭建Spark环境并运行第一个Spark程序。环境搭建安装Java Spark是...

2024-04-01Spark 阅读(1215)

在上一篇手册中，我们介绍了Kafka分布式集群的准备工作以及单节点集群的部署步骤。本篇将继续探讨如何部署多节点分布式集群。多节点分布式集群的配置和部署配置Brokers 修改config/server.properties文件，找到以下...

2024-04-01Kafka 阅读(1051)