Mac私塾---一个专注于大数据技术架构与应用分享的技术博客-最新发布-第5页

Apache Avro使用入门指南

Apache Avro是一个基于二进制数据序列化格式的Apache项目，它提供了一种通用的、高性能的数据交换格式。Avro是一款轻量级、跨平台的数据序列化工具，可以用于将数据从一种格式转换为另一种格式。这篇文章将介绍如何使用Apache A...

2024-03-25Kafka 阅读(1253)

Hadoop是一个分布式系统，由多个节点组成。在Hadoop集群中，每个节点都会产生大量的日志，包括系统日志、应用程序日志和Hadoop本身的日志等。对于Hadoop管理员和开发人员来说，了解Hadoop日志存放路径非常重要，可以帮助他们快...

2024-03-24Hadoop 阅读(1233)

1. 前言作为一名大数据工程师，我认为应该拥有实战经验，不断探索新技术。Apache Spark作为目前最热门的大数据处理框架之一，一直备受业内人士的关注。而Kafka作为分布式流处理平台，也是备受关注的技术之一。本文将介绍如何使用Apa...

2024-03-24Spark 阅读(888)

在 HBase 中使用加盐（Salting）可以提高数据分布的均匀性，从而提高查询和读取性能。加盐的实现方式是在数据行键的前缀或后缀随机添加一定长度的字节，使得数据分布在多个 RegionServer 上，避免某个 RegionServer...

2024-03-24Kafka 阅读(884)

Hadoop YARN（Yet Another Resource Negotiator）是Apache Hadoop分布式计算框架中的一部分，它是一个资源管理系统，通过对计算集群中的资源进行管理和分配，使得不同的应用程序可以共享计算资源。H...

2024-03-23Hadoop 阅读(827)

RDD与广播变量、累加器在Spark中，数据处理都是通过弹性分布式数据集（Resilient Distributed Dataset, RDD）完成的。RDD是一种抽象的数据结构，它被设计成不可变的，分布式的和容错的。通过RDD，我们可以...

2024-03-23Spark 阅读(1201)

Spark Streaming是Apache Spark的一个扩展模块，它提供了基于实时流数据的处理能力，可以与各种流数据源进行整合。其中，与Kafka的整合应用广泛，本文将对Spark Streaming和Kafka整合开发进行介绍和指...

2024-03-23Kafka 阅读(928)

纠删码（Erasure Coding）是一种数据冗余技术，它通过添加冗余数据来保护数据的完整性和可靠性。在现代数据中心中，数据的冗余存储占用了相当大的存储空间，因此，纠删码已经成为了数据中心存储优化的重要技术之一。在Hadoop 3.0中，...

2024-03-22Hadoop 阅读(1321)

全面解析Spark，以及和Python的对接在高性能大数据处理方面，Apache Spark显然是一个非常有前途且备受推崇的框架。如果想将Spark融入Python环境，也不是什么难事。本篇博客将就这两个主题进行全面的解析。 Spark的...

2024-03-22Spark 阅读(1258)

Kafka是一种高吞吐量、分布式、可扩展的消息系统，能够快速地处理大量消息。在实际应用中，消息服务的可靠性和高可用性是至关重要的。因此，Kafka提供了多种机制来实现高可用性，并且在节点出现故障时能够自动进行故障转移，确保消息服务的持续稳定...

2024-03-22Kafka 阅读(839)