Mac私塾

一个专注于大数据技术架构与应用分享的技术博客

最新文章 第5页

Apache Avro使用入门指南

Apache Avro是一个基于二进制数据序列化格式的Apache项目,它提供了一种通用的、高性能的数据交换格式。Avro是一款轻量级、跨平台的数据序列化工具,可以用于将数据从一种格式转换为另一种格式。这篇文章将介绍如何使用Apache A...

Kafka 阅读(145)

Hadoop日志存放路径详解

Hadoop是一个分布式系统,由多个节点组成。在Hadoop集群中,每个节点都会产生大量的日志,包括系统日志、应用程序日志和Hadoop本身的日志等。对于Hadoop管理员和开发人员来说,了解Hadoop日志存放路径非常重要,可以帮助他们快...

Hadoop 阅读(169)

Apache Spark技术实战之 -- KafkaWordCount

1. 前言 作为一名大数据工程师,我认为应该拥有实战经验,不断探索新技术。Apache Spark作为目前最热门的大数据处理框架之一,一直备受业内人士的关注。而Kafka作为分布式流处理平台,也是备受关注的技术之一。本文将介绍如何使用Apa...

Spark 阅读(99)

Hadoop YARN公平调度(FairScheduler)介绍

Hadoop YARN(Yet Another Resource Negotiator)是Apache Hadoop分布式计算框架中的一部分,它是一个资源管理系统,通过对计算集群中的资源进行管理和分配,使得不同的应用程序可以共享计算资源。H...

Hadoop 阅读(102)

RDD与广播变量、累加器

RDD与广播变量、累加器 在Spark中,数据处理都是通过弹性分布式数据集(Resilient Distributed Dataset, RDD)完成的。RDD是一种抽象的数据结构,它被设计成不可变的,分布式的和容错的。通过RDD,我们可以...

Spark 阅读(130)

Spark Streaming和Kafka整合开发指南(一)

Spark Streaming是Apache Spark的一个扩展模块,它提供了基于实时流数据的处理能力,可以与各种流数据源进行整合。其中,与Kafka的整合应用广泛,本文将对Spark Streaming和Kafka整合开发进行介绍和指...

Kafka 阅读(95)

Hadoop 3.0纠删码(Erasure Coding):节省一半存储空间

纠删码(Erasure Coding)是一种数据冗余技术,它通过添加冗余数据来保护数据的完整性和可靠性。在现代数据中心中,数据的冗余存储占用了相当大的存储空间,因此,纠删码已经成为了数据中心存储优化的重要技术之一。在Hadoop 3.0中,...

Hadoop 阅读(128)

全面解析Spark,以及和Python的对接 在高性能大数据处理方面,Apache Spark显然是一个非常有前途且备受推崇的框架。如果想将Spark融入Python环境,也不是什么难事。本篇博客将就这两个主题进行全面的解析。 Spark的...

Spark 阅读(88)

Kafka设计解析:Kafka High Availability

Kafka是一种高吞吐量、分布式、可扩展的消息系统,能够快速地处理大量消息。在实际应用中,消息服务的可靠性和高可用性是至关重要的。因此,Kafka提供了多种机制来实现高可用性,并且在节点出现故障时能够自动进行故障转移,确保消息服务的持续稳定...

Kafka 阅读(84)