Mac私塾

一个专注于大数据技术架构与应用分享的技术博客

最新文章 第11页

Spark Streaming 1.3对Kafka整合的提升详解

Apache Spark Streaming是一个高级流处理系统,可以与多种流源进行集成。其中,与Kafka的整合应用广泛。Spark Streaming 1.3版本对Kafka整合进行了一些改进和提升,本文将详细介绍它们。 Kafka R...

Kafka 阅读(247)

给Hadoop集群中添加Snappy解压缩库

在Hadoop集群中添加Snappy解压缩库可以提高系统的性能和效率。Snappy是一种压缩库,它能够非常高效地压缩和解压缩数据,这对于需要处理大量数据的Hadoop集群非常有用。下面将介绍如何在Hadoop集群中添加Snappy解压缩库。...

Hadoop 阅读(215)

基于Spark Streaming预测股票走势的例子

1. 背景介绍 在股票市场中,预测股票价格的未来走势是每个投资者都希望知道的事情。现在,随着互联网技术的飞速发展,越来越多的数据可供使用,大数据分析带来了新的机会。Spark Streaming作为Apache Spark的一部分,提供了实...

Spark 阅读(350)

MapReduce数据输入中InputFormat类源码解析

在Hadoop中,MapReduce作业通常需要对大量数据进行处理,因此需要读取和写入数据。为了使开发者能够方便地处理不同类型格式的数据(如文本、CSV、JSON等),Hadoop提供了一系列的InputFormat类,其中每个类用于处理特...

Kafka 阅读(239)

Hadoop优化与调整

Hadoop是一个开源的,可扩展的框架,专为大规模数据的存储和处理而设计。Hadoop框架由Hadoop集群中的多台服务器组成,每台服务器都运行Hadoop节点。为了确保高效的群集性能,需要对Hadoop的配置和调整进行优化。以下是一些Ha...

Hadoop 阅读(218)

Apache Spark配置

Apache Spark配置 Apache Spark是当前最热门的大数据处理框架之一,它拥有高性能、灵活性和易用性的特点。要发挥Apache Spark的所有优势,我们需要正确配置环境。在本篇博客中,我们将讨论如何正确配置Apache S...

Spark 阅读(253)

《Kafka:权威指南》第二版是 O'Reilly 出版公司于2018年出版的一本全面介绍 Kafka 消息系统的经典著作。本书由 Jay Kreps、Neha Narkhede 和 Gwen Shapira 三位 Kafka 联合创始人共...

Hadoop 阅读(194)

Spark源码系列:DataFrame repartition、coalesce 对比 Apache Spark是一个流行的分布式计算框架,可以处理大规模数据。Spark DataFrame是一种高级抽象,提供像SQL表一样的API,同时支...

Spark 阅读(304)

Spark on YARN集群模式作业运行全过程分析

Spark on YARN是一种常用的分布式计算框架,它可在Hadoop集群上运行。Spark on YARN通过将应用程序分解成多个任务,将任务分配给多个节点上并行执行来加速计算。下面我们将深入分析Spark on YARN集群模式作业运...

Kafka 阅读(234)