一个专注于大数据技术架构与应用分享的技术博客

Spark

Apache Spark配置

Apache Spark配置 Apache Spark是当前最热门的大数据处理框架之一,它拥有高性能、灵活性和易用性的特点。要发挥Apache Spark的所有优势,我们需要正确配置环境。在本篇博客中,我们将讨论如何正确配置Apache S...

阅读(2)

Spark源码系列:DataFrame repartition、coalesce 对比 Apache Spark是一个流行的分布式计算框架,可以处理大规模数据。Spark DataFrame是一种高级抽象,提供像SQL表一样的API,同时支...

阅读(6)

SparkCore的调优之开发调优

SparkCore的调优之开发调优 Spark是一个分布式计算框架,可以轻松处理大数据,它使用内存进行计算,因此比其他批处理框架快得多。然而,Spark的性能不仅取决于硬件配置,还与Spark本身的设置以及代码开发实践有关。 在本篇文章中,...

阅读(7)

Hadoop+HBase+Spark+Hive环境搭建

Hadoop+HBase+Spark+Hive环境搭建 在本次博客中,我们将会讨论如何搭建 Hadoop、HBase、Spark 和 Hive 环境。在进行环境搭建之前,我们需要明确一些前置知识。 前置知识 1. Hadoop Apache...

阅读(7)

Spark Scheduler内部原理剖析

Spark Scheduler内部原理剖析 引言 Spark作为一个流行的分布式计算框架,其高效的资源管理和任务调度能力备受行业追捧。而Spark Job的调度并不是由一些无头鸟在天上飞来飞去完成的,而是由Spark内部的一个调度器实现的。...

阅读(12)

Hive,Hive on Spark和SparkSQL区别

简介 Hive、Hive on Spark、以及SparkSQL都是处理大规模数据的常见工具。虽然这些工具都是用于数据仓库和数据分析的,但是它们之间有许多的不同点。本篇博客将比较这三种工具的异同点。 Hive Hive是一种基于Hadoop...

阅读(11)

Spark Streaming反压机制

Spark Streaming反压机制 在实时数据处理的场景下,Spark Streaming 是一个非常强大的工具。它通过将数据流分成微小的批次进行处理,实现了高效的流式计算。然而,当处理的数据量过大时,可能会导致 Spark 集群遇到许...

阅读(10)

监控Spark应用方法简介

一、背景介绍 Apache Spark是一个快速、优雅和能够集成多种处理方式的大规模数据处理引擎。在Spark应用的生命周期中,用户需要监控单个应用的性能、资源使用情况和错误信息等,并及时采取必要措施来保证稳定运行。 本文将介绍常见的监控方...

阅读(12)

Spark编译与部署--基础环境搭建

简介 Spark是Apache基金会的一个开源、高性能的大数据处理框架。Spark的强大性能使它成为处理大数据的首选工具。在使用Spark之前,您需要先搭建一些基础环境。本文将帮助您轻松地完成Spark的编译与部署。 环境需求 在开始之前,...

阅读(11)

Spark SparkContext

什么是Spark和SparkContext? Apache Spark是一个分布式大数据处理和计算引擎,适用于批量处理、流处理和交互式查询。SparkContext是Spark的核心引擎,是连接Spark应用程序和集群管理器的重要接口。在S...

阅读(19)