一个专注于大数据技术架构与应用分享的技术博客

Spark 第4页

Spark Streaming编程指南 什么是Spark Streaming Spark Streaming是一个流处理引擎,能够让我们快速处理实时数据流。它能够将实时数据流分成若干个小批次并分别进行处理,以达到实时处理的目的。Spark ...

阅读(188)

PageRank在Hadoop和spark下的实现以及对比

PageRank是指Google公司提出的一种基于网页链接关系的网页排名算法,通过对网页链接关系建立一个相关矩阵并迭代计算,得到每个网页的PageRank值,从而对网页进行排序。而Hadoop和Spark则是当前最为流行的分布式计算框架,提...

阅读(214)

SparkSQL简介

SparkSQL简介 Apache Spark是一个开源的、快速的、通用的数据处理引擎,用于大规模数据处理。Spark提供了统一的数据处理API,使得开发人员能够使用不同的数据处理工具来对数据进行处理。Spark SQL是Spark中的一个...

阅读(205)

基于Spark Streaming预测股票走势的例子

1. 背景介绍 在股票市场中,预测股票价格的未来走势是每个投资者都希望知道的事情。现在,随着互联网技术的飞速发展,越来越多的数据可供使用,大数据分析带来了新的机会。Spark Streaming作为Apache Spark的一部分,提供了实...

阅读(273)

Apache Spark配置

Apache Spark配置 Apache Spark是当前最热门的大数据处理框架之一,它拥有高性能、灵活性和易用性的特点。要发挥Apache Spark的所有优势,我们需要正确配置环境。在本篇博客中,我们将讨论如何正确配置Apache S...

阅读(212)

Spark源码系列:DataFrame repartition、coalesce 对比 Apache Spark是一个流行的分布式计算框架,可以处理大规模数据。Spark DataFrame是一种高级抽象,提供像SQL表一样的API,同时支...

阅读(246)

SparkCore的调优之开发调优

SparkCore的调优之开发调优 Spark是一个分布式计算框架,可以轻松处理大数据,它使用内存进行计算,因此比其他批处理框架快得多。然而,Spark的性能不仅取决于硬件配置,还与Spark本身的设置以及代码开发实践有关。 在本篇文章中,...

阅读(191)

Hadoop+HBase+Spark+Hive环境搭建

Hadoop+HBase+Spark+Hive环境搭建 在本次博客中,我们将会讨论如何搭建 Hadoop、HBase、Spark 和 Hive 环境。在进行环境搭建之前,我们需要明确一些前置知识。 前置知识 1. Hadoop Apache...

阅读(179)

Spark Scheduler内部原理剖析

Spark Scheduler内部原理剖析 引言 Spark作为一个流行的分布式计算框架,其高效的资源管理和任务调度能力备受行业追捧。而Spark Job的调度并不是由一些无头鸟在天上飞来飞去完成的,而是由Spark内部的一个调度器实现的。...

阅读(215)

Hive,Hive on Spark和SparkSQL区别

简介 Hive、Hive on Spark、以及SparkSQL都是处理大规模数据的常见工具。虽然这些工具都是用于数据仓库和数据分析的,但是它们之间有许多的不同点。本篇博客将比较这三种工具的异同点。 Hive Hive是一种基于Hadoop...

阅读(217)