一个专注于大数据技术架构与应用分享的技术博客

Hadoop 第2页

大规模 Hadoop 升级在 Pinterest 的实践

Pinterest是一个社交媒体网站,用户可以通过网站或移动应用程序收集,保存和分享各种主题的图像和其他媒体。由于网站的增长,Pinterest需要一个可扩展的数据平台来满足日益增长的数据存储和处理需求。Hadoop是一个流行的开源平台,它...

阅读(124)

在Shell中,我们可以使用hadoop fs命令来访问Hadoop分布式文件系统(HDFS)。要测试文件或目录是否存在,我们可以使用hadoop fs -test命令。 hadoop fs -test -d $file_path:测试目录...

阅读(86)

Hive0.11.0的新特性

Hive是基于Hadoop生态系统的数据仓库系统,是一个分布式的数据仓库解决方案,可以对存储在Hadoop分布式文件系统中的大规模数据进行处理和分析。Hive0.11.0是Hive的一个新版本,它新增了许多功能以提高用户的使用体验,本文将详...

阅读(122)

Hadoop日志存放路径详解

Hadoop是一个分布式系统,由多个节点组成。在Hadoop集群中,每个节点都会产生大量的日志,包括系统日志、应用程序日志和Hadoop本身的日志等。对于Hadoop管理员和开发人员来说,了解Hadoop日志存放路径非常重要,可以帮助他们快...

阅读(169)

Hadoop YARN公平调度(FairScheduler)介绍

Hadoop YARN(Yet Another Resource Negotiator)是Apache Hadoop分布式计算框架中的一部分,它是一个资源管理系统,通过对计算集群中的资源进行管理和分配,使得不同的应用程序可以共享计算资源。H...

阅读(102)

Hadoop 3.0纠删码(Erasure Coding):节省一半存储空间

纠删码(Erasure Coding)是一种数据冗余技术,它通过添加冗余数据来保护数据的完整性和可靠性。在现代数据中心中,数据的冗余存储占用了相当大的存储空间,因此,纠删码已经成为了数据中心存储优化的重要技术之一。在Hadoop 3.0中,...

阅读(128)

Hive:从文件中加载执行语句

在Hive中,我们可以从文件中加载执行语句,这是非常方便的一种方式,尤其是当我们有很多语句需要执行的时候。通过从文件中加载执行语句,我们可以一次性地运行多个查询,并且可以在需要时轻松地修改和调整这些查询。 首先,我们需要创建一个包含需要执行...

阅读(121)

随着大数据技术的迅速发展,许多人对大数据的学习兴趣不断增高。对于初学者而言,推荐一些Hadoop等大数据学习相关的电子书,以便深入学习大数据技术。 1.《Hadoop权威指南》:由Tom White所著,是一本关于入门级别的Hadoop书籍...

阅读(94)

Hadoop 2.2.0编译hadoop-eclipse-plugin插件

Hadoop 2.2.0是Apache Hadoop的一个版本,该版本包含了许多新的功能和改进,同时也还存在一些已知的问题和bug。在Hadoop 2.2.0中,开发者们可以使用hadoop-eclipse-plugin插件,该插件可以让他...

阅读(116)

Hadoop基础知识面试题整理

什么是Hadoop? Hadoop是一个完整的分布式系统,可在大型集群上使用。它主要用于处理大量数据,以支持数据驱动的应用。 Hadoop包括两个核心部分:Hadoop分布式文件系统(HDFS)和MapReduce计算框架。 什么是HDFS...

阅读(131)