一个专注于大数据技术架构与应用分享的技术博客

admin的文章

Spark 2.1.0 中 Sort-Based Shuffle 产生的内幕

Spark 2.1.0 中 Sort-Based Shuffle 产生的内幕 背景 Spark作为一个非常著名的开源分布式计算框架,其在数据处理和分析领域已经得到了广泛的应用。其中Shuffle是实现分布式计算的核心机制之一,相较于Hado...

Spark 阅读(190)

Spark Streaming kafka实现数据零丢失的几种方式

Apache Spark Streaming 是一个用于处理实时数据流的开源框架,可与 Apache Kafka 集成,从而实现用 Kafka 作为数据输入源的实时数据处理。在使用 Spark Streaming 进行数据处理时,数据丢失是...

Kafka 阅读(181)

在使用Hadoop时,Configuration是一个非常重要的类,它负责管理Hadoop的配置信息和资源,对于Hadoop集群的性能和稳定性起着至关重要的作用。下面是一些需要注意的细节,以帮助您更好地管理和优化Hadoop集群的配置。 避...

Hadoop 阅读(170)

Spark 键值对RDD操作

Spark 键值对RDD操作 在Spark中,键值对RDD操作是非常常见的操作,使用起来简单方便,而且可以处理大规模数据的时候提高计算效率。本篇博客将介绍Spark键值对RDD的常见操作,包括转化操作和行动操作。 转化操作 键值对RDD的转...

Spark 阅读(179)

Apache Kafka 0.10.2.0正式发布

Apache Kafka是一款开源的分布式流数据处理系统,其最新版本是0.10.2.0,于2017年2月发布Kafka已经成为了目前最受欢迎的消息队列之一,其重要性在于其高并发的能力和良好的容错性。本文将从以下几个方面介绍Apache Ka...

Kafka 阅读(209)

Hive介绍及部署

Hive介绍及部署 1. 什么是Hive Hive是一个建立在Hadoop之上的数据仓库编程工具,使用类SQL的语言HQL来进行数据分析,具有非常高的扩展性,同时适用于各种形式的数据存储。 2. Hive的架构 Hive的架构由三个部分组成...

Hadoop 阅读(242)

SparkSession详解

SparkSession详解 在大数据处理的领域中,Apache Spark已被广泛应用,是一款高效的分布式数据处理框架。SparkSession是在Spark 2.0中引入的,是上下文环境的入口点,它可以让用户轻松地访问Spark功能。本...

Spark 阅读(341)

Apache Hadoop 3.x是最新的Hadoop版本,是在Hadoop 2.x的基础上进行升级和改进的。Hadoop 3.x 在运行效率、数据处理能力、容错性等方面进行了改进,并且添加了新功能,例如支持GPU加速计算和容器化等新特性,...

Hadoop 阅读(184)

什么是Hadoop,为什么是Spark?

什么是Hadoop,为什么是Spark? 随着数十亿个设备和应用程序记录每秒数兆字节的数据,企业变得更加依赖大数据,这为大数据工程师们提供了一个因处理海量数据而实现业务目标的机会。要处理这些数据,需要有大型分布式数据处理系统,其中两个最流行...

Spark 阅读(170)