一个专注于大数据技术架构与应用分享的技术博客

admin的文章

基于Spark Streaming预测股票走势的例子

1. 背景介绍 在股票市场中,预测股票价格的未来走势是每个投资者都希望知道的事情。现在,随着互联网技术的飞速发展,越来越多的数据可供使用,大数据分析带来了新的机会。Spark Streaming作为Apache Spark的一部分,提供了实...

Spark 阅读(262)

MapReduce数据输入中InputFormat类源码解析

在Hadoop中,MapReduce作业通常需要对大量数据进行处理,因此需要读取和写入数据。为了使开发者能够方便地处理不同类型格式的数据(如文本、CSV、JSON等),Hadoop提供了一系列的InputFormat类,其中每个类用于处理特...

Kafka 阅读(188)

Hadoop优化与调整

Hadoop是一个开源的,可扩展的框架,专为大规模数据的存储和处理而设计。Hadoop框架由Hadoop集群中的多台服务器组成,每台服务器都运行Hadoop节点。为了确保高效的群集性能,需要对Hadoop的配置和调整进行优化。以下是一些Ha...

Hadoop 阅读(181)

Apache Spark配置

Apache Spark配置 Apache Spark是当前最热门的大数据处理框架之一,它拥有高性能、灵活性和易用性的特点。要发挥Apache Spark的所有优势,我们需要正确配置环境。在本篇博客中,我们将讨论如何正确配置Apache S...

Spark 阅读(205)

《Kafka:权威指南》第二版是 O'Reilly 出版公司于2018年出版的一本全面介绍 Kafka 消息系统的经典著作。本书由 Jay Kreps、Neha Narkhede 和 Gwen Shapira 三位 Kafka 联合创始人共...

Hadoop 阅读(165)

Spark源码系列:DataFrame repartition、coalesce 对比 Apache Spark是一个流行的分布式计算框架,可以处理大规模数据。Spark DataFrame是一种高级抽象,提供像SQL表一样的API,同时支...

Spark 阅读(237)

Spark on YARN集群模式作业运行全过程分析

Spark on YARN是一种常用的分布式计算框架,它可在Hadoop集群上运行。Spark on YARN通过将应用程序分解成多个任务,将任务分配给多个节点上并行执行来加速计算。下面我们将深入分析Spark on YARN集群模式作业运...

Kafka 阅读(178)

Apache Hadoop 3.0.0 GA版的发布是一件令人振奋的消息,因为它标志着这个开源软件的一个重大的里程碑。Hadoop最初是由Apache基金会下的Lucene项目中的Doug Cutting开发的,它是一个开源的分布式存储和处...

Hadoop 阅读(167)

SparkCore的调优之开发调优

SparkCore的调优之开发调优 Spark是一个分布式计算框架,可以轻松处理大数据,它使用内存进行计算,因此比其他批处理框架快得多。然而,Spark的性能不仅取决于硬件配置,还与Spark本身的设置以及代码开发实践有关。 在本篇文章中,...

Spark 阅读(183)