一个专注于大数据技术架构与应用分享的技术博客

Hadoop 第3页

Apache Hadoop 2.7.1正式版发布(稳定版)

Apache Hadoop 2.7.1是一个分布式计算框架,致力于解决海量数据处理问题。它由美国阿帕奇软件基金会(Apache Software Foundation)开发和维护,是目前最流行的大数据处理框架之一。Hadoop的核心组件包括...

阅读(134)

Apache Hadoop 2.3.0三大重要的提升

Apache Hadoop是一种开源的分布式存储与计算框架,能够处理大规模数据集。随着大数据的兴起,Apache Hadoop已经成为数据存储和处理领域的重要技术。在2014年3月发布的Apache Hadoop 2.3.0版本中,有三大重...

阅读(96)

字节跳动十万节点 HDFS 集群多机房架构演进之路

字节跳动是一家全球领先的技术企业,随着公司规模的快速发展,数据存储和处理需求也越来越大。因此,字节跳动采取了多机房架构的方式搭建 HDFS 集群,以应对海量数据的存储和处理。 在搭建 HDFS 集群的早期阶段,字节跳动采用传统的集中式单机房...

阅读(108)

Hive是一款基于Hadoop的数据仓库框架,其内置了SQL-Like查询语言——HiveQL,可将数据存储在分布式存储系统中,并提供了一套完整的查询、分析和数据处理工具,能够帮助用户快速方便地进行数据分析、数据挖掘等工作。其中,inser...

阅读(133)

在使用Hadoop时,Configuration是一个非常重要的类,它负责管理Hadoop的配置信息和资源,对于Hadoop集群的性能和稳定性起着至关重要的作用。下面是一些需要注意的细节,以帮助您更好地管理和优化Hadoop集群的配置。 避...

阅读(97)

Hive介绍及部署

Hive介绍及部署 1. 什么是Hive Hive是一个建立在Hadoop之上的数据仓库编程工具,使用类SQL的语言HQL来进行数据分析,具有非常高的扩展性,同时适用于各种形式的数据存储。 2. Hive的架构 Hive的架构由三个部分组成...

阅读(146)

Apache Hadoop 3.x是最新的Hadoop版本,是在Hadoop 2.x的基础上进行升级和改进的。Hadoop 3.x 在运行效率、数据处理能力、容错性等方面进行了改进,并且添加了新功能,例如支持GPU加速计算和容器化等新特性,...

阅读(121)

Apache Hadoop 2.4.0已经发布

Apache Hadoop是一个开源的、高度可扩展的分布式存储和计算平台。自从它最初于2006年由Yahoo!实验室创建以来,它已经成为了大数据领域的标准之一。Apache Hadoop 2.4.0是最新发布的版本,并在2014年发布。 H...

阅读(127)

Uber 是以共享出行为主业的科技公司,使用了 Hadoop Distributed File System(HDFS)来进行大规模的数据处理和存储。为了提高 HDFS I/O 利用率,Uber开发了许多优化技术,下面将介绍 Uber 的 ...

阅读(128)

Hadoop YARN中web服务的REST API介绍

Hadoop YARN是一个分布式的资源管理系统,可以管理分布式计算的资源。它的web服务提供了一系列REST API,使得用户可以通过HTTP请求来管理和监控YARN集群。本篇文章将对Hadoop YARN中的web服务REST API进...

阅读(141)