一个专注于大数据技术架构与应用分享的技术博客

Spark 第2页

Spark SQL利器:cacheTable/uncacheTable

Spark SQL利器:cacheTable/uncacheTable 在大数据处理中,SparkSQL 是一个非常强大的工具。当处理数据时,我们需要尽可能地减少读取磁盘数据的时间,因为磁盘通常是一个系统中最慢的组件之一。 这就是为什么在S...

阅读(353)

Spark常用函数讲解之Action操作 在进行 Spark 编程时,常常需要使用到 Action 操作。Action 操作是触发 Spark 作业执行的操作,当执行 Action 操作时,Spark 会根据依赖关系生成一个任务 DAG,然...

阅读(384)

Apache Spark技术实战之 -- KafkaWordCount

1. 前言 作为一名大数据工程师,我认为应该拥有实战经验,不断探索新技术。Apache Spark作为目前最热门的大数据处理框架之一,一直备受业内人士的关注。而Kafka作为分布式流处理平台,也是备受关注的技术之一。本文将介绍如何使用Apa...

阅读(244)

RDD与广播变量、累加器

RDD与广播变量、累加器 在Spark中,数据处理都是通过弹性分布式数据集(Resilient Distributed Dataset, RDD)完成的。RDD是一种抽象的数据结构,它被设计成不可变的,分布式的和容错的。通过RDD,我们可以...

阅读(289)

全面解析Spark,以及和Python的对接 在高性能大数据处理方面,Apache Spark显然是一个非常有前途且备受推崇的框架。如果想将Spark融入Python环境,也不是什么难事。本篇博客将就这两个主题进行全面的解析。 Spark的...

阅读(232)

Spark使用总结与分享

简介 Apache Spark是一个快速且通用的计算引擎,为大规模数据处理提供了一个统一的、高度优化的API。Spark的内存计算模型可显著提高大数据处理的效率。 本文将对Spark的使用进行总结,包括以下三个方面: Spark的优点和适用...

阅读(272)

Spark RDD Persistence

简介 在进行Spark数据处理时,数据的缓存和持久化是一个非常关键的问题。Spark提供了丰富的支持,可以帮助我们在不同的场景下,利用RDD来优化我们的数据处理性能。本篇博客将围绕Spark RDD Persistence展开,分析其背景、...

阅读(275)

Spark 通信架构、脚本解析、standalone

Spark 通信架构、脚本解析、standalone Apache Spark是目前最流行的开源大数据计算框架之一。它是一个分布式计算引擎,能够快速处理大数据集。在Spark内部,有一个非常重要的组件,即通信架构。本文将深入探究Spark的...

阅读(295)

spark+kafka使用

Spark和Kafka的结合使用 在大数据领域中,Spark和Kafka是两个非常重要的组件。他们可以非常好的协同工作,实现流式数据处理和分析工作。本文将介绍在Spark中如何使用Kafka进行流式数据的处理。 Spark和Kafka组合的...

阅读(252)