一个专注于大数据技术架构与应用分享的技术博客

Spark 第5页

Spark Streaming反压机制

Spark Streaming反压机制 在实时数据处理的场景下,Spark Streaming 是一个非常强大的工具。它通过将数据流分成微小的批次进行处理,实现了高效的流式计算。然而,当处理的数据量过大时,可能会导致 Spark 集群遇到许...

阅读(224)

监控Spark应用方法简介

一、背景介绍 Apache Spark是一个快速、优雅和能够集成多种处理方式的大规模数据处理引擎。在Spark应用的生命周期中,用户需要监控单个应用的性能、资源使用情况和错误信息等,并及时采取必要措施来保证稳定运行。 本文将介绍常见的监控方...

阅读(188)

Spark编译与部署--基础环境搭建

简介 Spark是Apache基金会的一个开源、高性能的大数据处理框架。Spark的强大性能使它成为处理大数据的首选工具。在使用Spark之前,您需要先搭建一些基础环境。本文将帮助您轻松地完成Spark的编译与部署。 环境需求 在开始之前,...

阅读(168)

Spark SparkContext

什么是Spark和SparkContext? Apache Spark是一个分布式大数据处理和计算引擎,适用于批量处理、流处理和交互式查询。SparkContext是Spark的核心引擎,是连接Spark应用程序和集群管理器的重要接口。在S...

阅读(194)

Spark SQL

什么是Spark SQL? Apache Spark是一个快速、通用的大规模数据处理引擎,旨在提供易于使用的基于内存的分布式计算方法。Spark SQL是Spark中一个新的模块,用于结构化数据处理。Spark SQL对于SQL语言是高度兼...

阅读(201)

spark+kafka 案例

Spark+Kafka 案例 在大数据领域,Spark和Kafka是两个非常重要的组件。Spark是一个分布式计算框架,可用于处理大规模数据集。而Kafka是一个分布式流处理平台,可用于构建实时数据管道和流式应用程序。 接下来,我将分享一个...

阅读(187)

Spark中的Spark Shuffle详解

Spark中的Spark Shuffle详解 在大数据处理中,Spark是一个非常流行的框架。Spark的一个重要特性就是它的RDD(Resilient Distributed Datasets)能够实现分布式计算,并且整体性能优秀。但是,...

阅读(185)

Spark Idea Maven 开发环境搭建

Spark Idea Maven 开发环境搭建 Apache Spark是一个快速而通用的大规模数据处理引擎,它提供了基于内存的分布式编程模型,可用于大规模数据处理,包括机器学习。与此同时,Idea作为一个强大的Java IDE,集成了大量...

阅读(448)

使用Spark Structured Streaming写入Hudi

深度剖析Spark分布式执行原理 Apache Spark 是一个快速通用的大数据处理框架。它支持多种数据源,包括 Hadoop Distributed File System (HDFS)、Cassandra、HBase等。Spark 的...

阅读(460)