Mac私塾

一个专注于大数据技术架构与应用分享的技术博客

最新文章 第2页

图解Apache Kafka消息偏移量的演变(0.7.x~0.10.x)

Apache Kafka是一个分布式的流处理平台,其最重要的组件之一便是消息系统。在Kafka中,消息的偏移量(Offset)是非常重要的概念。它用于唯一标识每条消息,并决定了消费者读取消息的位置和顺序。下面,我们将简要介绍Kafka消息偏...

Kafka 阅读(110)

HDFS 在 B 站的探索和实践

Hadoop Distributed File System(HDFS)是一种分布式文件系统,已经被广泛用于大数据处理。B 站作为一个大型的视频分享网站,也使用了 HDFS,来储存和管理数据。在 B 站的探索和实践中,HDFS 发挥了重要的...

Hadoop 阅读(105)

Spark容错机制

Spark容错机制 背景 随着大数据技术的发展,人们处理数据量越来越大,单机处理的能力无法满足需求。在这种情况下,分布式计算系统应运而生。Apache Spark 就是这样一款流行的分布式计算系统。Spark利用内存技术大幅度提高了计算速度...

Spark 阅读(137)

Kafka新建的分区会在哪个目录下创建

在Kafka中,分区被视为一个物理磁盘文件,用于存储主题中的消息。每个分区都是一个文件夹,存储在Kafka服务器所在的文件系统上。Kafka在默认情况下使用本地磁盘存储数据,因此每个分区都存储在本地磁盘上的文件夹内。 当在Kafka中创建新...

Kafka 阅读(110)

Spark优化:禁止应用程序将依赖的Jar包传到HDFS

在Spark应用程序的开发中,通常会依赖一些外部的Jar包,这些Jar包包含了Spark中一些重要的组件和功能,例如Spark SQL、GraphX等等。在执行Spark作业时,这些依赖的Jar包需要被分发到集群的每个节点,从而可以为应用程...

Hadoop 阅读(120)

Spark on Yarn 架构解析

Spark on Yarn 架构解析 在大数据处理领域,Spark 是一个非常流行的框架。在分布式计算中,资源管理是一个重要的问题,而 Yarn 是一个高效的资源管理系统。本文将探讨 Spark on Yarn 架构及其实现细节。 Spar...

Spark 阅读(100)

Kafka管理工具介绍

Kafka是一个分布式的消息队列系统,几乎可以同时支持生产环境和测试环境。在企业中部署Kafka集群时,为了更加便捷地管理Kafka集群,可以使用一些Kafka管理工具。本文将介绍几个常用的Kafka管理工具。 Confluent Cont...

Kafka 阅读(120)

Kafka 是 Apache 基金会中一个流行的、高可靠性的,分布式的消息队列系统。它主要解决的是系统之间异步消息传输的问题,弥补了不同系统之间异构性的差别,实现了数据的解耦和扩展。本文将介绍如何使用 Kafka 将 RDBMS 中的数据实...

Hadoop 阅读(102)

Spark环境搭建:运行第一个Spark程序

Spark环境搭建:运行第一个Spark程序 Apache Spark是一个开源的大数据处理框架,它可以在分布式的集群上高效地处理大规模数据。本文将介绍如何搭建Spark环境并运行第一个Spark程序。 环境搭建 安装Java Spark是...

Spark 阅读(125)

Kafka分布式集群部署手册(二)

在上一篇手册中,我们介绍了Kafka分布式集群的准备工作以及单节点集群的部署步骤。本篇将继续探讨如何部署多节点分布式集群。 多节点分布式集群的配置和部署 配置Brokers 修改config/server.properties文件,找到以下...

Kafka 阅读(90)