Mac私塾---一个专注于大数据技术架构与应用分享的技术博客-最新发布-第17页

Kafka原理与技术

Kafka是一种开源的高性能消息中间件，它可以处理大量数据，并支持高吞吐量、低延迟的数据传输。Kafka的核心设计理念是分布式、可扩展、高可用和可靠的数据传递，具有很高的吞吐量和低延迟，因此适用于大规模数据处理、流式处理和实时数据分析等领域...

2023-05-13Kafka 阅读(877)

在Kafka中使用Avro编码消息是一种非常常见的编码方式，因为它能够帮助我们更加高效地进行数据传输和解析。在本文中，我们将介绍如何在Kafka生产者的端口中使用Avro编码器。首先，需要添加Avro依赖于我们的项目中。我们可以使用以下M...

2023-05-13Kafka 阅读(1053)

车好多是一家汽车电商平台，2016年上线后迅速壮大。由于业务增长迅速，车好多面临的数据处理和存储压力也不断增大。为了应对这个挑战，车好多采用了 HDFS RBF (Hadoop Distributed File System Router-...

2023-05-13Hadoop 阅读(1136)

Spark Parquet详解什么是Parquet Apache Parquet是一种列式存储格式，它能够提供很好的压缩比率和查询性能。Parquet采用了Google Dremel(这是Google的一个分布式数据仓库查询系统)建议的数...

2023-05-13Spark 阅读(1171)

Flume-1.4.0是一个高可用、高可靠、分布式的数据处理系统，它可以灵活地收集、聚合、传输和存储各种类型的数据。而Hbase-0.96.0是一个面向大规模数据存储的分布式数据库系统，支持高效的随机读写。将这两个系统整合起来可以实现一个稳...

2023-05-13Kafka 阅读(790)

为保证Hadoop集群的数据安全，限定机器访问Hadoop集群是非常必要的。在实际应用中，我们需要对Hadoop集群进行IP或主机名限定，只允许指定的机器或IP地址才能够访问集群，其他机器或IP地址则无法访问。常见的限制访问方法有两种：基...

2023-05-13Hadoop 阅读(1123)

引言 Spark作为一个高性能的大数据处理框架，在处理数据的过程中会涉及到很多不同的数据源。在这其中，MySQL是一个很常见的关系型数据库，下面就让我们一起来看看如何使用Spark来读取MySQL中的数据。环境搭建在开始操作前，我们需要...

2023-05-13Spark 阅读(823)

NodeManager是Hadoop集群中的一个关键组件，负责与ResourceManager进行通信，并启动和终止容器。在NodeManager的工作中，自身健康状态的检测机制是非常重要的，因为它能够确保NodeManager能够及时地检...

2023-05-13Kafka 阅读(879)

在Fedora上部署Hadoop2.2.0伪分布式平台，可以按照以下步骤进行操作：在官网下载Hadoop2.2.0的压缩包，并解压到指定的路径中，例如 /usr/local/hadoop。配置Java环境变量，确保Java命令可以在终...

2023-05-12Hadoop 阅读(816)

Spark 运行流程背景随着大数据技术的不断发展和大数据领域各种新兴技术的出现，分布式计算框架已经成为大数据领域的重要技术之一。而其中，Apache Spark 作为一个快速通用的集群计算系统，成功地打破了原来Hadoop MapRed...

2023-05-12Spark 阅读(882)