Apache Spark技术实战之 -- KafkaWordCount
1. 前言 作为一名大数据工程师,我认为应该拥有实战经验,不断探索新技术。Apache Spark作为目前最热门的大数据处理框架之一,一直备受业内人士的关注。而Kafka作为分布式流处理平台,也是备受关注的技术之一。本文将介绍如何使用Apa...
1. 前言 作为一名大数据工程师,我认为应该拥有实战经验,不断探索新技术。Apache Spark作为目前最热门的大数据处理框架之一,一直备受业内人士的关注。而Kafka作为分布式流处理平台,也是备受关注的技术之一。本文将介绍如何使用Apa...
在 HBase 中使用加盐(Salting)可以提高数据分布的均匀性,从而提高查询和读取性能。加盐的实现方式是在数据行键的前缀或后缀随机添加一定长度的字节,使得数据分布在多个 RegionServer 上,避免某个 RegionServer...
Hadoop YARN(Yet Another Resource Negotiator)是Apache Hadoop分布式计算框架中的一部分,它是一个资源管理系统,通过对计算集群中的资源进行管理和分配,使得不同的应用程序可以共享计算资源。H...
RDD与广播变量、累加器 在Spark中,数据处理都是通过弹性分布式数据集(Resilient Distributed Dataset, RDD)完成的。RDD是一种抽象的数据结构,它被设计成不可变的,分布式的和容错的。通过RDD,我们可以...
Spark Streaming是Apache Spark的一个扩展模块,它提供了基于实时流数据的处理能力,可以与各种流数据源进行整合。其中,与Kafka的整合应用广泛,本文将对Spark Streaming和Kafka整合开发进行介绍和指...
纠删码(Erasure Coding)是一种数据冗余技术,它通过添加冗余数据来保护数据的完整性和可靠性。在现代数据中心中,数据的冗余存储占用了相当大的存储空间,因此,纠删码已经成为了数据中心存储优化的重要技术之一。在Hadoop 3.0中,...
全面解析Spark,以及和Python的对接 在高性能大数据处理方面,Apache Spark显然是一个非常有前途且备受推崇的框架。如果想将Spark融入Python环境,也不是什么难事。本篇博客将就这两个主题进行全面的解析。 Spark的...
Kafka是一种高吞吐量、分布式、可扩展的消息系统,能够快速地处理大量消息。在实际应用中,消息服务的可靠性和高可用性是至关重要的。因此,Kafka提供了多种机制来实现高可用性,并且在节点出现故障时能够自动进行故障转移,确保消息服务的持续稳定...
在Hive中,我们可以从文件中加载执行语句,这是非常方便的一种方式,尤其是当我们有很多语句需要执行的时候。通过从文件中加载执行语句,我们可以一次性地运行多个查询,并且可以在需要时轻松地修改和调整这些查询。 首先,我们需要创建一个包含需要执行...
简介 Apache Spark是一个快速且通用的计算引擎,为大规模数据处理提供了一个统一的、高度优化的API。Spark的内存计算模型可显著提高大数据处理的效率。 本文将对Spark的使用进行总结,包括以下三个方面: Spark的优点和适用...