一个专注于大数据技术架构与应用分享的技术博客

admin的文章

Apache Spark技术实战之 -- KafkaWordCount

1. 前言 作为一名大数据工程师,我认为应该拥有实战经验,不断探索新技术。Apache Spark作为目前最热门的大数据处理框架之一,一直备受业内人士的关注。而Kafka作为分布式流处理平台,也是备受关注的技术之一。本文将介绍如何使用Apa...

Spark 阅读(154)

Hadoop YARN公平调度(FairScheduler)介绍

Hadoop YARN(Yet Another Resource Negotiator)是Apache Hadoop分布式计算框架中的一部分,它是一个资源管理系统,通过对计算集群中的资源进行管理和分配,使得不同的应用程序可以共享计算资源。H...

Hadoop 阅读(170)

RDD与广播变量、累加器

RDD与广播变量、累加器 在Spark中,数据处理都是通过弹性分布式数据集(Resilient Distributed Dataset, RDD)完成的。RDD是一种抽象的数据结构,它被设计成不可变的,分布式的和容错的。通过RDD,我们可以...

Spark 阅读(196)

Spark Streaming和Kafka整合开发指南(一)

Spark Streaming是Apache Spark的一个扩展模块,它提供了基于实时流数据的处理能力,可以与各种流数据源进行整合。其中,与Kafka的整合应用广泛,本文将对Spark Streaming和Kafka整合开发进行介绍和指...

Kafka 阅读(180)

Hadoop 3.0纠删码(Erasure Coding):节省一半存储空间

纠删码(Erasure Coding)是一种数据冗余技术,它通过添加冗余数据来保护数据的完整性和可靠性。在现代数据中心中,数据的冗余存储占用了相当大的存储空间,因此,纠删码已经成为了数据中心存储优化的重要技术之一。在Hadoop 3.0中,...

Hadoop 阅读(326)

全面解析Spark,以及和Python的对接 在高性能大数据处理方面,Apache Spark显然是一个非常有前途且备受推崇的框架。如果想将Spark融入Python环境,也不是什么难事。本篇博客将就这两个主题进行全面的解析。 Spark的...

Spark 阅读(147)

Kafka设计解析:Kafka High Availability

Kafka是一种高吞吐量、分布式、可扩展的消息系统,能够快速地处理大量消息。在实际应用中,消息服务的可靠性和高可用性是至关重要的。因此,Kafka提供了多种机制来实现高可用性,并且在节点出现故障时能够自动进行故障转移,确保消息服务的持续稳定...

Kafka 阅读(141)

Hive:从文件中加载执行语句

在Hive中,我们可以从文件中加载执行语句,这是非常方便的一种方式,尤其是当我们有很多语句需要执行的时候。通过从文件中加载执行语句,我们可以一次性地运行多个查询,并且可以在需要时轻松地修改和调整这些查询。 首先,我们需要创建一个包含需要执行...

Hadoop 阅读(195)

Spark使用总结与分享

简介 Apache Spark是一个快速且通用的计算引擎,为大规模数据处理提供了一个统一的、高度优化的API。Spark的内存计算模型可显著提高大数据处理的效率。 本文将对Spark的使用进行总结,包括以下三个方面: Spark的优点和适用...

Spark 阅读(181)