一个专注于大数据技术架构与应用分享的技术博客

admin的文章

NodeManager生命周期介绍

NodeManager是Hadoop集群中的一个关键组件,它负责和ResourceManager进行通信,管理和监控集群中的每一个节点的资源使用和容器的启动和终止。NodeManager的生命周期由启动、运行、终止三个阶段构成。 启动阶段 ...

Kafka 阅读(168)

基于Hadoop-2.2.0编译flume-ng 1.4.0及错误解决

Flume是一种高效的数据收集、聚合和传输应用程序,被广泛应用于大数据环境中的数据采集。 Flume-ng是Flume的升级版本,通过引入新的拓扑结构和数据处理功能,使Flume的性能更优,能够满足更多场景下的需求。在Hadoop-2.2....

Hadoop 阅读(166)

搭建Spark所遇过的坑

搭建Spark所遇过的坑 作为一名大数据工程师,搭建Spark集群是必不可少的一项工作。在这个过程中,我们经常会遭遇到各种问题,从而浪费了大量的时间和精力。本文将会总结并分享一些我在搭建Spark集群过程中遇到的问题及解决方案。 问题1:S...

Spark 阅读(167)

Hadoop源码编译与调试

Hadoop是一个开源的分布式计算平台,被广泛应用于大数据处理领域。对于开发人员而言,掌握Hadoop源码的编译与调试技能显得尤为重要。因为当我们在使用Hadoop时发现问题时,如果无法排除掉Hadoop本身的问题,我们就很难确定问题是出在...

Hadoop 阅读(272)

简介 随着大数据的发展,越来越多的公司开始使用Spark SQL,同时需要使用Spark SQL导出相关数据。本文将介绍通过Spark SQL导出数据的过程与方法。 准备工作 在使用Spark SQL之前,需要保证你已经按照以下步骤进行准备...

Spark 阅读(233)

恭喜!新一代分布式对象存储 Ozone 成为顶级项目

近日,Apache Ozone 成为了 Apache 软件基金会的顶级项目之一,这是对它在分布式对象存储 (DOS) 领域做出贡献的肯定。作为全新一代的分布式对象存储方案,Ozone 告别了业界常用的分布式文件系统(HDFS),引入了基于对...

Kafka 阅读(199)

Hadoop是一个开源的分布式计算平台,用于处理海量数据。Hadoop支持各种数据存储和处理技术,其中包括LZO压缩技术。LZO是一种高速压缩算法,在大数据分析和处理中使用广泛。本文将介绍如何在Hadoop 2.2.0中安装和配置LZO。 ...

Hadoop 阅读(218)

Kafka设计解析:Kafka Consumer解析

Kafka是一个高性能的分布式消息队列系统,它的消费者模型具有强大的灵活性和可扩展性,并且支持多种数据流处理模式。本文将对Kafka Consumer进行解析,探讨其设计原理、消费模式和实现方式等方面的内容。 设计原理 Kafka Cons...

Kafka 阅读(162)