一个专注于大数据技术架构与应用分享的技术博客

Hadoop 第6页

Apache Hadoop 3.0.0-alpha1版本发布更新

Apache Hadoop是一款开源的分布式系统软件,其应用广泛,特别是在大规模数据处理领域(如互联网数据分析)中得到了广泛的应用。最近Apache Hadoop 3.0.0-alpha1版本发布了,该版本带来了许多重要的更新和改进,本文将...

阅读(436)

Apache Hadoop 的 HDFS Federation 前世今生(上)

Apache Hadoop是一个分布式系统,可以存储和处理大量数据集。其中,分布式文件系统Hadoop Distributed File System(HDFS)是Hadoop的核心组件之一,用于存储和管理大规模数据集。HDFS是一个高可靠...

阅读(339)

如何从根源上解决 HDFS 小文件问题

HDFS 是 Hadoop 生态系统的核心组成部分之一,主要用于存储和处理大数据。然而,由于 HDFS 的存储机制使得它对小文件处理效率较低,这成为了 Hadoop 使用过程中的一个重要问题。小文件问题的根源在于 HDFS 的设计,因此解决...

阅读(351)

HDFS RBF 在车好多的应用

车好多是一家汽车电商平台,2016年上线后迅速壮大。由于业务增长迅速,车好多面临的数据处理和存储压力也不断增大。为了应对这个挑战,车好多采用了 HDFS RBF (Hadoop Distributed File System Router-...

阅读(634)

限定机器访问Hadoop集群

为保证Hadoop集群的数据安全,限定机器访问Hadoop集群是非常必要的。在实际应用中,我们需要对Hadoop集群进行IP或主机名限定,只允许指定的机器或IP地址才能够访问集群,其他机器或IP地址则无法访问。 常见的限制访问方法有两种:基...

阅读(453)

在Fedora上部署Hadoop2.2.0伪分布式平台

在Fedora上部署Hadoop2.2.0伪分布式平台,可以按照以下步骤进行操作: 在官网下载Hadoop2.2.0的压缩包,并解压到指定的路径中,例如 /usr/local/hadoop。 配置Java环境变量,确保Java命令可以在终...

阅读(334)

Hive:简单查询不启用Mapreduce job而启用Fetch task

Hive是一个基于Hadoop的数据仓库工具,它允许用户使用SQL语言来查询数据,并在Hadoop集群上的MapReduce程序中执行这些查询。在Hive中,查询分为两种类型:MapReduce查询和Fetch查询。 MapReduce查询...

阅读(371)

Apache Hadoop 基础设施容器化在 Uber 的实践

Apache Hadoop是一个开源的分布式计算框架,它通过将大规模数据分布在多个节点上,来执行并行计算任务。容器化是一种将应用程序和所需的运行环境封装在一个容器中的技术,容器化可以为应用程序提供更加轻量级的部署方式和更高的环境一致性保证。...

阅读(320)

Hadoop2.2.0中HDFS的高可用性实现原理

Hadoop2.2.0中HDFS的高可用性实现原理主要是通过Hadoop分布式存储技术中的NameNode节点和Secondary NameNode节点实现的。在Hadoop分布式存储技术中,NameNode节点是存储文件系统的节点,它存储...

阅读(343)

如何使用HDFS API创建和管理快照

HDFS快照是一项有用的功能,可以减少数据丢失和恢复数据的时间。在HDFS中创建快照会在指定目录中创建一个只读副本,该副本包含文件系统的文件和目录结构。在进行快照之后,用户可以安全地修改原始文件系统(也就是快照创建之前存在的文件),并在需要...

阅读(768)