Mac私塾

一个专注于大数据技术架构与应用分享的技术博客

最新文章 第2页

Kafka+Spark Streaming+Redis实时系统实践

Kafka+Spark Streaming+Redis实时系统是一种经典的大数据处理方式,由Kafka作为消息队列,Spark Streaming作为实时计算引擎,Redis作为缓存数据库组成。该系统可快速处理大量实时数据,实现实时数据处理...

Kafka 阅读(133)

Apache Hadoop 的 HDFS Federation 前世今生(上)

Apache Hadoop是一个分布式系统,可以存储和处理大量数据集。其中,分布式文件系统Hadoop Distributed File System(HDFS)是Hadoop的核心组件之一,用于存储和管理大规模数据集。HDFS是一个高可靠...

Hadoop 阅读(139)

spark listener

Spark Listener Spark是一个强大的开源分布式计算框架,可以用于大规模数据处理。Spark的内部架构支持启用自定义的监听器,以便您可以从Spark应用程序中收集有关性能和状态的更多信息。 在Spark中,所有的事件都被封装为...

Spark 阅读(212)

避坑指南:Kafka集群快速扩容的方案总结

Kafka 是一个高性能的分布式消息队列系统,在分布式应用中得到了广泛的应用。然而,在实际使用 Kafka 集群时,可能会因为业务扩大、性能需求提升等原因需要快速扩容,这时候就需要采用一些方法来避免坑点。 下面是一些避坑指南,以帮助您快速扩...

Kafka 阅读(207)

如何从根源上解决 HDFS 小文件问题

HDFS 是 Hadoop 生态系统的核心组成部分之一,主要用于存储和处理大数据。然而,由于 HDFS 的存储机制使得它对小文件处理效率较低,这成为了 Hadoop 使用过程中的一个重要问题。小文件问题的根源在于 HDFS 的设计,因此解决...

Hadoop 阅读(138)

Spark常见问题汇总

背景 在大数据系统中,Spark 是非常重要的一个组件。它是由 Apache 组织开发的一个大数据计算框架,可以在分布式环境中进行大规模数据处理。Spark 有很多优点,如速度快、易于部署、支持多种语言等等。 在使用过程中,也会遇到一些问题...

Spark 阅读(324)

Kafka原理与技术

Kafka是一种开源的高性能消息中间件,它可以处理大量数据,并支持高吞吐量、低延迟的数据传输。Kafka的核心设计理念是分布式、可扩展、高可用和可靠的数据传递,具有很高的吞吐量和低延迟,因此适用于大规模数据处理、流式处理和实时数据分析等领域...

Kafka 阅读(188)

在Kafka中使用Avro编码消息:Producter篇

在Kafka中使用Avro编码消息是一种非常常见的编码方式,因为它能够帮助我们更加高效地进行数据传输和解析。在本文中,我们将介绍如何在Kafka生产者的端口中使用Avro编码器。 首先,需要添加Avro依赖于我们的项目中。我们可以使用以下M...

Kafka 阅读(125)

HDFS RBF 在车好多的应用

车好多是一家汽车电商平台,2016年上线后迅速壮大。由于业务增长迅速,车好多面临的数据处理和存储压力也不断增大。为了应对这个挑战,车好多采用了 HDFS RBF (Hadoop Distributed File System Router-...

Hadoop 阅读(309)

Spark Parquet详解

Spark Parquet详解 什么是Parquet Apache Parquet是一种列式存储格式,它能够提供很好的压缩比率和查询性能。Parquet采用了Google Dremel(这是Google的一个分布式数据仓库查询系统)建议的数...

Spark 阅读(271)