Mac私塾---一个专注于大数据技术架构与应用分享的技术博客-最新发布-第3页

Hadoop 2.7.0发布：不适用于生产和不支持JDK1.6

Hadoop是一种分布式计算框架，常常用于处理大规模数据。Hadoop是Apache软件基金会的开源项目，在其官方网站上可自由下载和使用。Hadoop 2.7.0是Hadoop2.x系列的一个重大版本更新，于2015年4月10日发布。首先...

2024-03-31Hadoop 阅读(903)

Spark及其生态圈简介 Spark是一种开源的大数据处理框架，该框架专门用于分布式数据处理。由于它快速的运行速度、高可靠性和易于使用的特点，Spark成为了当前最受欢迎的大数据处理框架之一。Spark并不仅仅是一个组件，同时它还是一个生态...

2024-03-31Spark 阅读(1118)

NodeManager是Hadoop集群中的一个关键组件，它负责和ResourceManager进行通信，管理和监控集群中的每一个节点的资源使用和容器的启动和终止。NodeManager的生命周期由启动、运行、终止三个阶段构成。启动阶段 ...

2024-03-31Kafka 阅读(954)

Flume是一种高效的数据收集、聚合和传输应用程序，被广泛应用于大数据环境中的数据采集。 Flume-ng是Flume的升级版本，通过引入新的拓扑结构和数据处理功能，使Flume的性能更优，能够满足更多场景下的需求。在Hadoop-2.2....

2024-03-30Hadoop 阅读(1048)

搭建Spark所遇过的坑作为一名大数据工程师，搭建Spark集群是必不可少的一项工作。在这个过程中，我们经常会遭遇到各种问题，从而浪费了大量的时间和精力。本文将会总结并分享一些我在搭建Spark集群过程中遇到的问题及解决方案。问题1：S...

2024-03-30Spark 阅读(1297)

在使用 Spark Streaming 和 Kafka 进行数据处理时，要实现 Exactly Once 语义是具有挑战性的，因为当前版本的 Kafka 和 Spark Streaming 并不提供一种易于实现的方法。主要由于以下几个方面的...

2024-03-30Kafka 阅读(973)

Hadoop是一个开源的分布式计算平台，被广泛应用于大数据处理领域。对于开发人员而言，掌握Hadoop源码的编译与调试技能显得尤为重要。因为当我们在使用Hadoop时发现问题时，如果无法排除掉Hadoop本身的问题，我们就很难确定问题是出在...

2024-03-29Hadoop 阅读(1231)

简介随着大数据的发展，越来越多的公司开始使用Spark SQL，同时需要使用Spark SQL导出相关数据。本文将介绍通过Spark SQL导出数据的过程与方法。准备工作在使用Spark SQL之前，需要保证你已经按照以下步骤进行准备...

2024-03-29Spark 阅读(1742)

近日，Apache Ozone 成为了 Apache 软件基金会的顶级项目之一，这是对它在分布式对象存储 (DOS) 领域做出贡献的肯定。作为全新一代的分布式对象存储方案，Ozone 告别了业界常用的分布式文件系统(HDFS)，引入了基于对...

2024-03-29Kafka 阅读(1169)

Hadoop是一个开源的分布式计算平台，用于处理海量数据。Hadoop支持各种数据存储和处理技术，其中包括LZO压缩技术。LZO是一种高速压缩算法，在大数据分析和处理中使用广泛。本文将介绍如何在Hadoop 2.2.0中安装和配置LZO。 ...

2024-03-28Hadoop 阅读(1558)