 

Hadoop 第2页

大规模 Hadoop 升级在 Pinterest 的实践

Pinterest是一个社交媒体网站，用户可以通过网站或移动应用程序收集，保存和分享各种主题的图像和其他媒体。由于网站的增长，Pinterest需要一个可扩展的数据平台来满足日益增长的数据存储和处理需求。Hadoop是一个流行的开源平台，它...

2024-03-27阅读(899)

在Shell中，我们可以使用hadoop fs命令来访问Hadoop分布式文件系统（HDFS）。要测试文件或目录是否存在，我们可以使用hadoop fs -test命令。 hadoop fs -test -d $file_path：测试目录...

2024-03-26阅读(1182)

Hive是基于Hadoop生态系统的数据仓库系统，是一个分布式的数据仓库解决方案，可以对存储在Hadoop分布式文件系统中的大规模数据进行处理和分析。Hive0.11.0是Hive的一个新版本，它新增了许多功能以提高用户的使用体验，本文将详...

2024-03-25阅读(939)

Hadoop是一个分布式系统，由多个节点组成。在Hadoop集群中，每个节点都会产生大量的日志，包括系统日志、应用程序日志和Hadoop本身的日志等。对于Hadoop管理员和开发人员来说，了解Hadoop日志存放路径非常重要，可以帮助他们快...

2024-03-24阅读(1226)

Hadoop YARN（Yet Another Resource Negotiator）是Apache Hadoop分布式计算框架中的一部分，它是一个资源管理系统，通过对计算集群中的资源进行管理和分配，使得不同的应用程序可以共享计算资源。H...

2024-03-23阅读(822)

纠删码（Erasure Coding）是一种数据冗余技术，它通过添加冗余数据来保护数据的完整性和可靠性。在现代数据中心中，数据的冗余存储占用了相当大的存储空间，因此，纠删码已经成为了数据中心存储优化的重要技术之一。在Hadoop 3.0中，...

2024-03-22阅读(1313)

在Hive中，我们可以从文件中加载执行语句，这是非常方便的一种方式，尤其是当我们有很多语句需要执行的时候。通过从文件中加载执行语句，我们可以一次性地运行多个查询，并且可以在需要时轻松地修改和调整这些查询。首先，我们需要创建一个包含需要执行...

2024-03-21阅读(867)

随着大数据技术的迅速发展，许多人对大数据的学习兴趣不断增高。对于初学者而言，推荐一些Hadoop等大数据学习相关的电子书，以便深入学习大数据技术。 1.《Hadoop权威指南》：由Tom White所著，是一本关于入门级别的Hadoop书籍...

2024-03-20阅读(1157)

Hadoop 2.2.0是Apache Hadoop的一个版本，该版本包含了许多新的功能和改进，同时也还存在一些已知的问题和bug。在Hadoop 2.2.0中，开发者们可以使用hadoop-eclipse-plugin插件，该插件可以让他...

2024-03-19阅读(920)

什么是Hadoop？ Hadoop是一个完整的分布式系统，可在大型集群上使用。它主要用于处理大量数据，以支持数据驱动的应用。 Hadoop包括两个核心部分：Hadoop分布式文件系统(HDFS)和MapReduce计算框架。什么是HDFS...

2024-03-18阅读(807)