admin的文章

HDFS RBF 在车好多的应用

车好多是一家汽车电商平台，2016年上线后迅速壮大。由于业务增长迅速，车好多面临的数据处理和存储压力也不断增大。为了应对这个挑战，车好多采用了 HDFS RBF (Hadoop Distributed File System Router-...

2023-05-13Hadoop 阅读(1085)

Spark Parquet详解什么是Parquet Apache Parquet是一种列式存储格式，它能够提供很好的压缩比率和查询性能。Parquet采用了Google Dremel(这是Google的一个分布式数据仓库查询系统)建议的数...

2023-05-13Spark 阅读(1117)

Flume-1.4.0是一个高可用、高可靠、分布式的数据处理系统，它可以灵活地收集、聚合、传输和存储各种类型的数据。而Hbase-0.96.0是一个面向大规模数据存储的分布式数据库系统，支持高效的随机读写。将这两个系统整合起来可以实现一个稳...

2023-05-13Kafka 阅读(748)

为保证Hadoop集群的数据安全，限定机器访问Hadoop集群是非常必要的。在实际应用中，我们需要对Hadoop集群进行IP或主机名限定，只允许指定的机器或IP地址才能够访问集群，其他机器或IP地址则无法访问。常见的限制访问方法有两种：基...

2023-05-13Hadoop 阅读(1059)

引言 Spark作为一个高性能的大数据处理框架，在处理数据的过程中会涉及到很多不同的数据源。在这其中，MySQL是一个很常见的关系型数据库，下面就让我们一起来看看如何使用Spark来读取MySQL中的数据。环境搭建在开始操作前，我们需要...

2023-05-13Spark 阅读(767)

NodeManager是Hadoop集群中的一个关键组件，负责与ResourceManager进行通信，并启动和终止容器。在NodeManager的工作中，自身健康状态的检测机制是非常重要的，因为它能够确保NodeManager能够及时地检...

2023-05-13Kafka 阅读(825)

在Fedora上部署Hadoop2.2.0伪分布式平台，可以按照以下步骤进行操作：在官网下载Hadoop2.2.0的压缩包，并解压到指定的路径中，例如 /usr/local/hadoop。配置Java环境变量，确保Java命令可以在终...

2023-05-12Hadoop 阅读(771)

Spark 运行流程背景随着大数据技术的不断发展和大数据领域各种新兴技术的出现，分布式计算框架已经成为大数据领域的重要技术之一。而其中，Apache Spark 作为一个快速通用的集群计算系统，成功地打破了原来Hadoop MapRed...

2023-05-12Spark 阅读(829)

汽车之家是国内领先的汽车媒体，它以提供全面的汽车资讯和服务为目标，为广大用户提供了一平台，包括汽车报价、汽车图片、汽车论坛、汽车选购、汽车资讯等服务。如今，汽车之家已成为国内最大的汽车生活服务平台之一。然而，随着移动互联网、云计算和大数据等...

2023-05-12Kafka 阅读(764)

Hive是一个基于Hadoop的数据仓库工具，它允许用户使用SQL语言来查询数据，并在Hadoop集群上的MapReduce程序中执行这些查询。在Hive中，查询分为两种类型：MapReduce查询和Fetch查询。 MapReduce查询...

2023-05-10Hadoop 阅读(791)