admin的文章

基于Spark Streaming预测股票走势的例子

1. 背景介绍在股票市场中，预测股票价格的未来走势是每个投资者都希望知道的事情。现在，随着互联网技术的飞速发展，越来越多的数据可供使用，大数据分析带来了新的机会。Spark Streaming作为Apache Spark的一部分，提供了实...

2024-03-04Spark 阅读(1119)

在Hadoop中，MapReduce作业通常需要对大量数据进行处理，因此需要读取和写入数据。为了使开发者能够方便地处理不同类型格式的数据（如文本、CSV、JSON等），Hadoop提供了一系列的InputFormat类，其中每个类用于处理特...

2024-03-04Kafka 阅读(763)

Hadoop是一个开源的，可扩展的框架，专为大规模数据的存储和处理而设计。Hadoop框架由Hadoop集群中的多台服务器组成，每台服务器都运行Hadoop节点。为了确保高效的群集性能，需要对Hadoop的配置和调整进行优化。以下是一些Ha...

2024-03-03Hadoop 阅读(888)

Apache Spark配置 Apache Spark是当前最热门的大数据处理框架之一，它拥有高性能、灵活性和易用性的特点。要发挥Apache Spark的所有优势，我们需要正确配置环境。在本篇博客中，我们将讨论如何正确配置Apache S...

2024-03-03Spark 阅读(865)

在运行Hbase作业时，出现了一个叫做“cannot access its superclass com.google.protobuf.LiteralByteString”的异常，这通常是由于依赖问题引起的。在本篇文章中，我们将会为您介绍...

2024-03-03Kafka 阅读(799)

《Kafka：权威指南》第二版是 O'Reilly 出版公司于2018年出版的一本全面介绍 Kafka 消息系统的经典著作。本书由 Jay Kreps、Neha Narkhede 和 Gwen Shapira 三位 Kafka 联合创始人共...

2024-03-02Hadoop 阅读(828)

Spark源码系列:DataFrame repartition、coalesce 对比 Apache Spark是一个流行的分布式计算框架，可以处理大规模数据。Spark DataFrame是一种高级抽象，提供像SQL表一样的API，同时支...

2024-03-02Spark 阅读(1021)

Spark on YARN是一种常用的分布式计算框架，它可在Hadoop集群上运行。Spark on YARN通过将应用程序分解成多个任务，将任务分配给多个节点上并行执行来加速计算。下面我们将深入分析Spark on YARN集群模式作业运...

2024-03-02Kafka 阅读(819)

Apache Hadoop 3.0.0 GA版的发布是一件令人振奋的消息，因为它标志着这个开源软件的一个重大的里程碑。Hadoop最初是由Apache基金会下的Lucene项目中的Doug Cutting开发的，它是一个开源的分布式存储和处...

2024-03-01Hadoop 阅读(795)

SparkCore的调优之开发调优 Spark是一个分布式计算框架，可以轻松处理大数据，它使用内存进行计算，因此比其他批处理框架快得多。然而，Spark的性能不仅取决于硬件配置，还与Spark本身的设置以及代码开发实践有关。在本篇文章中，...

2024-03-01Spark 阅读(862)