admin的文章

NodeManager生命周期介绍

NodeManager是Hadoop集群中的一个关键组件，它负责和ResourceManager进行通信，管理和监控集群中的每一个节点的资源使用和容器的启动和终止。NodeManager的生命周期由启动、运行、终止三个阶段构成。启动阶段 ...

2024-03-31Kafka 阅读(894)

Flume是一种高效的数据收集、聚合和传输应用程序，被广泛应用于大数据环境中的数据采集。 Flume-ng是Flume的升级版本，通过引入新的拓扑结构和数据处理功能，使Flume的性能更优，能够满足更多场景下的需求。在Hadoop-2.2....

2024-03-30Hadoop 阅读(981)

搭建Spark所遇过的坑作为一名大数据工程师，搭建Spark集群是必不可少的一项工作。在这个过程中，我们经常会遭遇到各种问题，从而浪费了大量的时间和精力。本文将会总结并分享一些我在搭建Spark集群过程中遇到的问题及解决方案。问题1：S...

2024-03-30Spark 阅读(1239)

在使用 Spark Streaming 和 Kafka 进行数据处理时，要实现 Exactly Once 语义是具有挑战性的，因为当前版本的 Kafka 和 Spark Streaming 并不提供一种易于实现的方法。主要由于以下几个方面的...

2024-03-30Kafka 阅读(911)

Hadoop是一个开源的分布式计算平台，被广泛应用于大数据处理领域。对于开发人员而言，掌握Hadoop源码的编译与调试技能显得尤为重要。因为当我们在使用Hadoop时发现问题时，如果无法排除掉Hadoop本身的问题，我们就很难确定问题是出在...

2024-03-29Hadoop 阅读(1175)

简介随着大数据的发展，越来越多的公司开始使用Spark SQL，同时需要使用Spark SQL导出相关数据。本文将介绍通过Spark SQL导出数据的过程与方法。准备工作在使用Spark SQL之前，需要保证你已经按照以下步骤进行准备...

2024-03-29Spark 阅读(1677)

近日，Apache Ozone 成为了 Apache 软件基金会的顶级项目之一，这是对它在分布式对象存储 (DOS) 领域做出贡献的肯定。作为全新一代的分布式对象存储方案，Ozone 告别了业界常用的分布式文件系统(HDFS)，引入了基于对...

2024-03-29Kafka 阅读(1105)

Hadoop是一个开源的分布式计算平台，用于处理海量数据。Hadoop支持各种数据存储和处理技术，其中包括LZO压缩技术。LZO是一种高速压缩算法，在大数据分析和处理中使用广泛。本文将介绍如何在Hadoop 2.2.0中安装和配置LZO。 ...

2024-03-28Hadoop 阅读(1497)

Spark的误解-不仅Spark是内存计算，Hadoop也是内存计算最近，关于Spark是一种内存计算（in-memory computing）框架的观点被广泛传播，这个观点实在是过于武断和错误。虽然Spark比Hadoop有更好的内存管...

2024-03-28Spark 阅读(900)

Kafka是一个高性能的分布式消息队列系统，它的消费者模型具有强大的灵活性和可扩展性，并且支持多种数据流处理模式。本文将对Kafka Consumer进行解析，探讨其设计原理、消费模式和实现方式等方面的内容。设计原理 Kafka Cons...

2024-03-28Kafka 阅读(930)