admin的文章

Apache Spark技术实战之 -- KafkaWordCount

1. 前言作为一名大数据工程师，我认为应该拥有实战经验，不断探索新技术。Apache Spark作为目前最热门的大数据处理框架之一，一直备受业内人士的关注。而Kafka作为分布式流处理平台，也是备受关注的技术之一。本文将介绍如何使用Apa...

2024-03-24Spark 阅读(825)

在 HBase 中使用加盐（Salting）可以提高数据分布的均匀性，从而提高查询和读取性能。加盐的实现方式是在数据行键的前缀或后缀随机添加一定长度的字节，使得数据分布在多个 RegionServer 上，避免某个 RegionServer...

2024-03-24Kafka 阅读(826)

Hadoop YARN（Yet Another Resource Negotiator）是Apache Hadoop分布式计算框架中的一部分，它是一个资源管理系统，通过对计算集群中的资源进行管理和分配，使得不同的应用程序可以共享计算资源。H...

2024-03-23Hadoop 阅读(767)

RDD与广播变量、累加器在Spark中，数据处理都是通过弹性分布式数据集（Resilient Distributed Dataset, RDD）完成的。RDD是一种抽象的数据结构，它被设计成不可变的，分布式的和容错的。通过RDD，我们可以...

2024-03-23Spark 阅读(1142)

Spark Streaming是Apache Spark的一个扩展模块，它提供了基于实时流数据的处理能力，可以与各种流数据源进行整合。其中，与Kafka的整合应用广泛，本文将对Spark Streaming和Kafka整合开发进行介绍和指...

2024-03-23Kafka 阅读(873)

纠删码（Erasure Coding）是一种数据冗余技术，它通过添加冗余数据来保护数据的完整性和可靠性。在现代数据中心中，数据的冗余存储占用了相当大的存储空间，因此，纠删码已经成为了数据中心存储优化的重要技术之一。在Hadoop 3.0中，...

2024-03-22Hadoop 阅读(1266)

全面解析Spark，以及和Python的对接在高性能大数据处理方面，Apache Spark显然是一个非常有前途且备受推崇的框架。如果想将Spark融入Python环境，也不是什么难事。本篇博客将就这两个主题进行全面的解析。 Spark的...

2024-03-22Spark 阅读(1199)