一个专注于大数据技术架构与应用分享的技术博客

Hadoop 第4页

Hadoop是一个开源的分布式系统框架,用于大规模数据的处理、存储和分析。它的核心是Hadoop Distributed File System(HDFS)和MapReduce计算模型。由于其高可靠性、并行处理、扩展性和可靠性方面的优势,它...

阅读(272)

Hive是一种数据仓库工具。它可以对大数据进行查询、分析和处理。对于处理后的结果,我们可以将它们保存到文件并指定列之间的分隔符。 保存查询结果到文件的命令是INSERT OVERWRITE LOCAL DIRECTORY 'fil...

阅读(270)

在分布式计算中,二次排序(Secondary Sort)是一个比较常见的问题。在之前的文章中,我们介绍了如何用Hadoop来解决二次排序问题。而在本文中,我们将讨论如何使用Spark来解决这个问题。 二次排序问题的背景 在我们深入讨论Spa...

阅读(266)

给Hadoop集群中添加Snappy解压缩库

在Hadoop集群中添加Snappy解压缩库可以提高系统的性能和效率。Snappy是一种压缩库,它能够非常高效地压缩和解压缩数据,这对于需要处理大量数据的Hadoop集群非常有用。下面将介绍如何在Hadoop集群中添加Snappy解压缩库。...

阅读(260)

Hadoop优化与调整

Hadoop是一个开源的,可扩展的框架,专为大规模数据的存储和处理而设计。Hadoop框架由Hadoop集群中的多台服务器组成,每台服务器都运行Hadoop节点。为了确保高效的群集性能,需要对Hadoop的配置和调整进行优化。以下是一些Ha...

阅读(269)

《Kafka:权威指南》第二版是 O'Reilly 出版公司于2018年出版的一本全面介绍 Kafka 消息系统的经典著作。本书由 Jay Kreps、Neha Narkhede 和 Gwen Shapira 三位 Kafka 联合创始人共...

阅读(224)

Apache Hadoop 3.0.0 GA版的发布是一件令人振奋的消息,因为它标志着这个开源软件的一个重大的里程碑。Hadoop最初是由Apache基金会下的Lucene项目中的Doug Cutting开发的,它是一个开源的分布式存储和处...

阅读(249)

MapReduce是Hadoop分布式计算的核心组件,它能够把数据分解成小块,并分发到集群中的多台计算机上进行并行处理,最终将结果合并为一个有序的输出结果。在这里,我们将演示如何编写一个简单的MapReduce程序并部署在Hadoop2.2...

阅读(251)

HDFS 块和 Input Splits 的区别与联系

HDFS(Hadoop Distributed File System)是一个设计用于存储大规模数据的分布式文件系统。在HDFS中,数据被分成一些块(block),每个块的大小默认为128MB。而为了读取HDFS中的数据,需要将数据切分成适...

阅读(288)

Hadoop分布式文件系统(HDFS)是一个分布式存储系统,其的设计目的是容错和处理大量数据。归档存储即是针对这类大量数据存储需求,采用低频率访问的数据进行压缩或归档以便于存储更多的数据,减少硬件和存储成本。HDFS具有灵活的归档存储支持,...

阅读(253)