 

Spark 第2页

Spark SQL利器：cacheTable/uncacheTable

Spark SQL利器：cacheTable/uncacheTable 在大数据处理中，SparkSQL 是一个非常强大的工具。当处理数据时，我们需要尽可能地减少读取磁盘数据的时间，因为磁盘通常是一个系统中最慢的组件之一。这就是为什么在S...

2024-03-27阅读(1042)

Spark Streaming updateStateByKey案例实战和内幕源码解密前言 Spark 是当下最受欢迎的分布式计算框架之一。Spark Streaming 是 Spark 中的一个核心模块，在数据处理领域中具有非常广泛的用...

2024-03-26阅读(881)

Spark常用函数讲解之Action操作在进行 Spark 编程时，常常需要使用到 Action 操作。Action 操作是触发 Spark 作业执行的操作，当执行 Action 操作时，Spark 会根据依赖关系生成一个任务 DAG，然...

2024-03-25阅读(1272)

1. 前言作为一名大数据工程师，我认为应该拥有实战经验，不断探索新技术。Apache Spark作为目前最热门的大数据处理框架之一，一直备受业内人士的关注。而Kafka作为分布式流处理平台，也是备受关注的技术之一。本文将介绍如何使用Apa...

2024-03-24阅读(864)

RDD与广播变量、累加器在Spark中，数据处理都是通过弹性分布式数据集（Resilient Distributed Dataset, RDD）完成的。RDD是一种抽象的数据结构，它被设计成不可变的，分布式的和容错的。通过RDD，我们可以...

2024-03-23阅读(1175)

全面解析Spark，以及和Python的对接在高性能大数据处理方面，Apache Spark显然是一个非常有前途且备受推崇的框架。如果想将Spark融入Python环境，也不是什么难事。本篇博客将就这两个主题进行全面的解析。 Spark的...

2024-03-22阅读(1235)