一个专注于大数据技术架构与应用分享的技术博客

admin的文章

HDFS RBF 在车好多的应用

车好多是一家汽车电商平台,2016年上线后迅速壮大。由于业务增长迅速,车好多面临的数据处理和存储压力也不断增大。为了应对这个挑战,车好多采用了 HDFS RBF (Hadoop Distributed File System Router-...

Hadoop 阅读(583)

Spark Parquet详解

Spark Parquet详解 什么是Parquet Apache Parquet是一种列式存储格式,它能够提供很好的压缩比率和查询性能。Parquet采用了Google Dremel(这是Google的一个分布式数据仓库查询系统)建议的数...

Spark 阅读(561)

Flume-1.4.0和Hbase-0.96.0整合

Flume-1.4.0是一个高可用、高可靠、分布式的数据处理系统,它可以灵活地收集、聚合、传输和存储各种类型的数据。而Hbase-0.96.0是一个面向大规模数据存储的分布式数据库系统,支持高效的随机读写。将这两个系统整合起来可以实现一个稳...

Kafka 阅读(302)

限定机器访问Hadoop集群

为保证Hadoop集群的数据安全,限定机器访问Hadoop集群是非常必要的。在实际应用中,我们需要对Hadoop集群进行IP或主机名限定,只允许指定的机器或IP地址才能够访问集群,其他机器或IP地址则无法访问。 常见的限制访问方法有两种:基...

Hadoop 阅读(401)

spark读mysql数据

引言 Spark作为一个高性能的大数据处理框架,在处理数据的过程中会涉及到很多不同的数据源。在这其中,MySQL是一个很常见的关系型数据库,下面就让我们一起来看看如何使用Spark来读取MySQL中的数据。 环境搭建 在开始操作前,我们需要...

Spark 阅读(317)

NodeManager节点自身健康状态检测机制

NodeManager是Hadoop集群中的一个关键组件,负责与ResourceManager进行通信,并启动和终止容器。在NodeManager的工作中,自身健康状态的检测机制是非常重要的,因为它能够确保NodeManager能够及时地检...

Kafka 阅读(335)

在Fedora上部署Hadoop2.2.0伪分布式平台

在Fedora上部署Hadoop2.2.0伪分布式平台,可以按照以下步骤进行操作: 在官网下载Hadoop2.2.0的压缩包,并解压到指定的路径中,例如 /usr/local/hadoop。 配置Java环境变量,确保Java命令可以在终...

Hadoop 阅读(293)

Spark 运行流程

Spark 运行流程 背景 随着大数据技术的不断发展和大数据领域各种新兴技术的出现,分布式计算框架已经成为大数据领域的重要技术之一。而其中,Apache Spark 作为一个快速通用的集群计算系统,成功地打破了原来Hadoop MapRed...

Spark 阅读(367)

汽车之家离线计算平台的演进之路

汽车之家是国内领先的汽车媒体,它以提供全面的汽车资讯和服务为目标,为广大用户提供了一平台,包括汽车报价、汽车图片、汽车论坛、汽车选购、汽车资讯等服务。如今,汽车之家已成为国内最大的汽车生活服务平台之一。然而,随着移动互联网、云计算和大数据等...

Kafka 阅读(269)