一个专注于大数据技术架构与应用分享的技术博客

admin的文章

Kafka创建Topic时如何将分区放置到不同的Broker中

Kafka是一种高性能、可扩展的分布式消息传递系统,可以处理海量的数据,并支持消息的持久化存储和高可靠性的传递。在Kafka中,主题(Topic)是一种逻辑概念,用于将消息组织成一组相关性很高的数据流。主题包含多个分区(Partition)...

Kafka 阅读(182)

Hadoop 1.x中fsimage和edits合并实现

在Hadoop 1.x版本下,fsimage和edits合并是通过手动执行相关的命令来完成的。它包括两个步骤:第一步是整合edits文件创建新的fsimage文件,第二步是将这个新的fsimage文件与原有的fsimage文件合并。 在第一...

Hadoop 阅读(186)

Spark中的Spark Shuffle详解

Spark中的Spark Shuffle详解 在大数据处理中,Spark是一个非常流行的框架。Spark的一个重要特性就是它的RDD(Resilient Distributed Datasets)能够实现分布式计算,并且整体性能优秀。但是,...

Spark 阅读(156)

深入了解Hadoop文件系统中与元数据相关的文件目录结构

在Hadoop分布式文件系统(HDFS)中,NameNode负责管理文件系统的元数据,这些元数据包括文件和目录的名称、位置、权限等信息。对于大规模的分布式文件系统,NameNode的元数据管理是至关重要的。元数据的持久化存储是通过一组文件来...

Hadoop 阅读(396)

Spark Idea Maven 开发环境搭建

Spark Idea Maven 开发环境搭建 Apache Spark是一个快速而通用的大规模数据处理引擎,它提供了基于内存的分布式编程模型,可用于大规模数据处理,包括机器学习。与此同时,Idea作为一个强大的Java IDE,集成了大量...

Spark 阅读(419)

如何将MapReduce程序转换为Spark程序

MapReduce和Spark是两种被广泛用于大数据处理的框架,它们各有优缺点和适用场景。一些企业会在将MapReduce程序转换为Spark程序时,以便利用Spark的更高性能和更好的可扩展性等优势。下面将介绍如何将MapReduce程序...

Kafka 阅读(452)

HDFS Federation在美团点评的应用与改进

HDFS(Hadoop Distributed File System)是一个分布式文件系统,最初由Apache Hadoop实现。对于大规模数据处理场景,HDFS是一个非常强大的工具。然而,当处理的数据量变得更加庞大时,原始的HDFS可能...

Hadoop 阅读(457)

使用Spark Structured Streaming写入Hudi

深度剖析Spark分布式执行原理 Apache Spark 是一个快速通用的大数据处理框架。它支持多种数据源,包括 Hadoop Distributed File System (HDFS)、Cassandra、HBase等。Spark 的...

Spark 阅读(428)

雅虎开源的Kafka集群管理器(Kafka Manager)

Kafka Manager是一个用Scala编写的开源工具,旨在简化和管理Apache Kafka集群的操作。它通过提供用户友好的Web界面和各种实用工具来帮助管理和监视Kafka集群。 Kafka Manager具有以下显著的特点: 集...

Kafka 阅读(432)