 

Hadoop 第4页

Hadoop是一个开源的分布式系统框架，用于大规模数据的处理、存储和分析。它的核心是Hadoop Distributed File System（HDFS）和MapReduce计算模型。由于其高可靠性、并行处理、扩展性和可靠性方面的优势，它...

2024-03-07阅读(1110)

Hive是一种数据仓库工具。它可以对大数据进行查询、分析和处理。对于处理后的结果，我们可以将它们保存到文件并指定列之间的分隔符。保存查询结果到文件的命令是INSERT OVERWRITE LOCAL DIRECTORY 'fil...

2024-03-06阅读(1022)

在分布式计算中，二次排序（Secondary Sort）是一个比较常见的问题。在之前的文章中，我们介绍了如何用Hadoop来解决二次排序问题。而在本文中，我们将讨论如何使用Spark来解决这个问题。二次排序问题的背景在我们深入讨论Spa...

2024-03-05阅读(1016)

给Hadoop集群中添加Snappy解压缩库

在Hadoop集群中添加Snappy解压缩库可以提高系统的性能和效率。Snappy是一种压缩库，它能够非常高效地压缩和解压缩数据，这对于需要处理大量数据的Hadoop集群非常有用。下面将介绍如何在Hadoop集群中添加Snappy解压缩库。...

2024-03-04阅读(790)

Hadoop是一个开源的，可扩展的框架，专为大规模数据的存储和处理而设计。Hadoop框架由Hadoop集群中的多台服务器组成，每台服务器都运行Hadoop节点。为了确保高效的群集性能，需要对Hadoop的配置和调整进行优化。以下是一些Ha...

2024-03-03阅读(940)

《Kafka：权威指南》第二版是 O'Reilly 出版公司于2018年出版的一本全面介绍 Kafka 消息系统的经典著作。本书由 Jay Kreps、Neha Narkhede 和 Gwen Shapira 三位 Kafka 联合创始人共...

2024-03-02阅读(875)

Apache Hadoop 3.0.0 GA版的发布是一件令人振奋的消息，因为它标志着这个开源软件的一个重大的里程碑。Hadoop最初是由Apache基金会下的Lucene项目中的Doug Cutting开发的，它是一个开源的分布式存储和处...

2024-03-01阅读(843)

MapReduce是Hadoop分布式计算的核心组件，它能够把数据分解成小块，并分发到集群中的多台计算机上进行并行处理，最终将结果合并为一个有序的输出结果。在这里，我们将演示如何编写一个简单的MapReduce程序并部署在Hadoop2.2...

2024-02-29阅读(1097)

HDFS（Hadoop Distributed File System）是一个设计用于存储大规模数据的分布式文件系统。在HDFS中，数据被分成一些块（block），每个块的大小默认为128MB。而为了读取HDFS中的数据，需要将数据切分成适...

2024-02-28阅读(825)

Hadoop分布式文件系统(HDFS)是一个分布式存储系统，其的设计目的是容错和处理大量数据。归档存储即是针对这类大量数据存储需求，采用低频率访问的数据进行压缩或归档以便于存储更多的数据，减少硬件和存储成本。HDFS具有灵活的归档存储支持，...

2024-02-27阅读(916)