 

Hadoop 第3页

Apache Hadoop 2.7.1正式版发布（稳定版）

Apache Hadoop 2.7.1是一个分布式计算框架，致力于解决海量数据处理问题。它由美国阿帕奇软件基金会（Apache Software Foundation）开发和维护，是目前最流行的大数据处理框架之一。Hadoop的核心组件包括...

2024-03-17阅读(945)

Apache Hadoop是一种开源的分布式存储与计算框架，能够处理大规模数据集。随着大数据的兴起，Apache Hadoop已经成为数据存储和处理领域的重要技术。在2014年3月发布的Apache Hadoop 2.3.0版本中，有三大重...

2024-03-16阅读(801)

字节跳动是一家全球领先的技术企业，随着公司规模的快速发展，数据存储和处理需求也越来越大。因此，字节跳动采取了多机房架构的方式搭建 HDFS 集群，以应对海量数据的存储和处理。在搭建 HDFS 集群的早期阶段，字节跳动采用传统的集中式单机房...

2024-03-15阅读(912)

Hive是一款基于Hadoop的数据仓库框架，其内置了SQL-Like查询语言——HiveQL，可将数据存储在分布式存储系统中，并提供了一套完整的查询、分析和数据处理工具，能够帮助用户快速方便地进行数据分析、数据挖掘等工作。其中，inser...

2024-03-14阅读(1106)

在使用Hadoop时，Configuration是一个非常重要的类，它负责管理Hadoop的配置信息和资源，对于Hadoop集群的性能和稳定性起着至关重要的作用。下面是一些需要注意的细节，以帮助您更好地管理和优化Hadoop集群的配置。避...

2024-03-13阅读(980)

Hive介绍及部署 1. 什么是Hive Hive是一个建立在Hadoop之上的数据仓库编程工具，使用类SQL的语言HQL来进行数据分析，具有非常高的扩展性，同时适用于各种形式的数据存储。 2. Hive的架构 Hive的架构由三个部分组成...

2024-03-12阅读(1019)

Apache Hadoop 3.x是最新的Hadoop版本，是在Hadoop 2.x的基础上进行升级和改进的。Hadoop 3.x 在运行效率、数据处理能力、容错性等方面进行了改进，并且添加了新功能，例如支持GPU加速计算和容器化等新特性，...

2024-03-11阅读(957)

Apache Hadoop是一个开源的、高度可扩展的分布式存储和计算平台。自从它最初于2006年由Yahoo!实验室创建以来，它已经成为了大数据领域的标准之一。Apache Hadoop 2.4.0是最新发布的版本，并在2014年发布。 H...

2024-03-10阅读(869)

Uber 是以共享出行为主业的科技公司，使用了 Hadoop Distributed File System（HDFS）来进行大规模的数据处理和存储。为了提高 HDFS I/O 利用率，Uber开发了许多优化技术，下面将介绍 Uber 的 ...

2024-03-09阅读(1118)

Hadoop YARN是一个分布式的资源管理系统，可以管理分布式计算的资源。它的web服务提供了一系列REST API，使得用户可以通过HTTP请求来管理和监控YARN集群。本篇文章将对Hadoop YARN中的web服务REST API进...

2024-03-08阅读(1047)