Mac私塾

一个专注于大数据技术架构与应用分享的技术博客

最新文章 第8页

解决Spark shell模式下初始化Job出现的异常

在使用Spark时,我们经常会使用Spark shell模式,这种交互式方式可以让我们快速地测试和验证代码逻辑,提高开发效率。然而,在使用Spark shell时,有时会遇到一些异常,比如初始化Job时出现的异常。本文将介绍如何解决Spar...

Kafka 阅读(149)

Hive是一款基于Hadoop的数据仓库框架,其内置了SQL-Like查询语言——HiveQL,可将数据存储在分布式存储系统中,并提供了一套完整的查询、分析和数据处理工具,能够帮助用户快速方便地进行数据分析、数据挖掘等工作。其中,inser...

Hadoop 阅读(196)

Spark 2.1.0 中 Sort-Based Shuffle 产生的内幕

Spark 2.1.0 中 Sort-Based Shuffle 产生的内幕 背景 Spark作为一个非常著名的开源分布式计算框架,其在数据处理和分析领域已经得到了广泛的应用。其中Shuffle是实现分布式计算的核心机制之一,相较于Hado...

Spark 阅读(190)

Spark Streaming kafka实现数据零丢失的几种方式

Apache Spark Streaming 是一个用于处理实时数据流的开源框架,可与 Apache Kafka 集成,从而实现用 Kafka 作为数据输入源的实时数据处理。在使用 Spark Streaming 进行数据处理时,数据丢失是...

Kafka 阅读(181)

在使用Hadoop时,Configuration是一个非常重要的类,它负责管理Hadoop的配置信息和资源,对于Hadoop集群的性能和稳定性起着至关重要的作用。下面是一些需要注意的细节,以帮助您更好地管理和优化Hadoop集群的配置。 避...

Hadoop 阅读(170)

Spark 键值对RDD操作

Spark 键值对RDD操作 在Spark中,键值对RDD操作是非常常见的操作,使用起来简单方便,而且可以处理大规模数据的时候提高计算效率。本篇博客将介绍Spark键值对RDD的常见操作,包括转化操作和行动操作。 转化操作 键值对RDD的转...

Spark 阅读(179)

Apache Kafka 0.10.2.0正式发布

Apache Kafka是一款开源的分布式流数据处理系统,其最新版本是0.10.2.0,于2017年2月发布Kafka已经成为了目前最受欢迎的消息队列之一,其重要性在于其高并发的能力和良好的容错性。本文将从以下几个方面介绍Apache Ka...

Kafka 阅读(209)

Hive介绍及部署

Hive介绍及部署 1. 什么是Hive Hive是一个建立在Hadoop之上的数据仓库编程工具,使用类SQL的语言HQL来进行数据分析,具有非常高的扩展性,同时适用于各种形式的数据存储。 2. Hive的架构 Hive的架构由三个部分组成...

Hadoop 阅读(242)

SparkSession详解

SparkSession详解 在大数据处理的领域中,Apache Spark已被广泛应用,是一款高效的分布式数据处理框架。SparkSession是在Spark 2.0中引入的,是上下文环境的入口点,它可以让用户轻松地访问Spark功能。本...

Spark 阅读(341)