Hadoop基础知识面试题整理-Hadoop-Mac私塾

Hadoop是一个完整的分布式系统，可在大型集群上使用。它主要用于处理大量数据，以支持数据驱动的应用。 Hadoop包括两个核心部分：Hadoop分布式文件系统(HDFS)和MapReduce计算框架。

Hadoop分布式文件系统(HDFS)是Hadoop的分布式文件系统。 HDFS具有容错能力，支持海量数据的存储和高吞吐量的数据访问。 HDFS通过分配文件块并将它们存储在集群中的多个计算机上来实现容错性。

MapReduce是Hadoop的计算框架，可用于处理大规模数据集。它可以在分布式环境中运行，并自动执行并行计算。 MapReduce使用Map函数将数据拆分成步长，并使用Reduce函数合并步长以生成最终结果。

Hadoop集群由以下主要组件组成：

a. NameNode：它是Hadoop分布式文件系统的中心节点，负责管理文件系统的名称空间和客户端对数据的访问。

b. DataNode：它是存储HDFS数据块的节点。每个数据节点负责在集群中存储特定的数据块。

c. JobTracker：它是MapReduce任务的主节点。它通过将MapReduce任务分配给TaskTracker来管理整个作业的执行。

d. TaskTracker：它是MapReduce的工作节点。它负责执行通过JobTracker分配的Map和Reduce任务。

e. Secondary NameNode：它是支持NameNode的备份节点。它负责定期合并NameNode日志文件以避免膨胀。

Hadoop中最合适的数据存储格式是Apache Parquet。它是一种高效的列式存储格式，可与大数据系统集成。它支持谓词下推和格式转换，具有优秀的压缩和查询性能，适用于快速分析和查询大规模数据。

块大小是指Hadoop中每个文件块的固定大小。默认情况下，块大小为64 MB。块大小影响数据的存储和处理效率。块大小过小会导致存储单元过多，而块大小过大会降低数据的可并行性。

Hadoop的优点包括：

a. 可扩展性：Hadoop能够在大型集群上处理大量数据，并具有水平扩展性。

b. 容错性：Hadoop具有容错能力，即一旦某个节点失效，其他节点将继续处理数据并保持服务的连续性。

c. 大数据处理能力：Hadoop能够处理大规模的数据，让用户在不使用大量存储成本的前提下，存储和处理海量数据。

d. 高可用性：Hadoop具有高可用性和可靠性，几乎可以实现可持续性和24/7的服务。

e. 应用广泛：Hadoop可以适用于不同类型的应用，如文本挖掘、全网搜索、日志处理等。

Hadoop的缺点包括：

a. 处理时间：处理大规模数据集需要较长时间。

b. 能力错配问题：不是所有的任务都

Hadoop基础知识面试题整理