一个专注于大数据技术架构与应用分享的技术博客

Spark 第3页

spark SQL学习

Spark SQL学习 作为一名大数据工程师,Spark是我们熟知的分布式计算框架。而Spark SQL则是Spark框架中一个非常重要的组件。在本篇博客中,我将带你深入了解Spark SQL的学习。 Spark SQL的简介 Spark ...

阅读(114)

Spark SQL Migration Guide

Spark SQL Migration Guide 作为一个大数据工程师,了解如何进行Spark SQL的迁移是非常重要的。在这篇博客中,我将会分享一些关于如何进行这项工作的经验和技巧。 迁移前的准备 在开始进行Spark SQL迁移工作之...

阅读(105)

Spark如何解决常见的Top N问题

Spark如何解决常见的Top N问题 在大数据处理中,Top N问题是常见的需求之一。简单来说,Top N问题就是在一个数据集中,找出前 N 个满足指定条件的记录。 在传统的关系型数据库中,可以通过类似于以下的 SQL 语句来实现 Top...

阅读(112)

Spark 2.1.0 中 Sort-Based Shuffle 产生的内幕

Spark 2.1.0 中 Sort-Based Shuffle 产生的内幕 背景 Spark作为一个非常著名的开源分布式计算框架,其在数据处理和分析领域已经得到了广泛的应用。其中Shuffle是实现分布式计算的核心机制之一,相较于Hado...

阅读(109)

Spark 键值对RDD操作

Spark 键值对RDD操作 在Spark中,键值对RDD操作是非常常见的操作,使用起来简单方便,而且可以处理大规模数据的时候提高计算效率。本篇博客将介绍Spark键值对RDD的常见操作,包括转化操作和行动操作。 转化操作 键值对RDD的转...

阅读(111)

SparkSession详解

SparkSession详解 在大数据处理的领域中,Apache Spark已被广泛应用,是一款高效的分布式数据处理框架。SparkSession是在Spark 2.0中引入的,是上下文环境的入口点,它可以让用户轻松地访问Spark功能。本...

阅读(184)

什么是Hadoop,为什么是Spark?

什么是Hadoop,为什么是Spark? 随着数十亿个设备和应用程序记录每秒数兆字节的数据,企业变得更加依赖大数据,这为大数据工程师们提供了一个因处理海量数据而实现业务目标的机会。要处理这些数据,需要有大型分布式数据处理系统,其中两个最流行...

阅读(100)

Spark-python入门

Spark是一个快速通用的大规模数据处理引擎,主要用于大数据处理和机器学习。Python作为一门强大灵活的编程语言,它的开源库PySpark,提供了与Spark的Python API互动的能力。本文将介绍如何使用PySpark进行数据处理和...

阅读(117)

Spark应用程序部署工具Spark Submit 在大数据处理领域中,Spark 成为了最受欢迎的数据处理框架之一。Spark 提供了丰富的 API 和一系列执行器,以加速大规模数据处理的速度。Spark 提供了各种工具和组件,以便有效地...

阅读(96)

Spark的map、flatMap、mapToPair 在Spark中,map、flatMap、mapToPair是三个非常常用的转换操作。他们都是针对RDD的操作,通过将函数应用于RDD中的每个元素来生成一个新的RDD。 map map是...

阅读(157)