Hadoop+HBase+Spark+Hive环境搭建
在本次博客中,我们将会讨论如何搭建 Hadoop、HBase、Spark 和 Hive 环境。在进行环境搭建之前,我们需要明确一些前置知识。
前置知识
1. Hadoop
Apache Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构。Hadoop 可以处理大量的数据,适用于多种不同类型的工作负载。
2. HBase
Apache HBase 是一个基于 Hadoop 构建的分布式、可扩展、面向列的 NoSQL 数据库。它可以提供实时读写的能力,适用于存储海量的数据。
3. Spark
Apache Spark 是一个开源的分布式计算系统,能够处理大数据集、支持多种编程语言。
4. Hive
Apache Hive 是一个基于 Hadoop 的数据仓库工具,能够将结构化的数据文件映射为一张数据库表,并提供 SQL 查询和数据分析功能。
环境搭建
1. 安装 JAVA
首先,我们需要在系统中安装 Java。请访问 Oracle官网 下载适用于您系统的 Java 版本,并按照官方文档进行安装。
2. 下载 Hadoop
Hadoop 官方文档提供了各个版本的下载链接。请访问 Hadoop官网 下载适用于您的系统版本。
3. 安装 Hadoop
在下载 Hadoop 后,我们需要解压 Hadoop 文件,并将其移动到系统中的相应位置。如:
tar -zxvf hadoop-3.2.2.tar.gz
sudo mv hadoop-3.2.2 /usr/local/hadoop
4. 环境配置
编辑 Hadoop 配置文件 hadoop-env.sh
,配置 JAVA_HOME 环境变量:
sudo vim /usr/local/hadoop/etc/hadoop/hadoop-env.sh
修改其中的 export JAVA_HOME=
行为:
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64/
编辑 core-site.xml
,配置 NameNode 的主机名和端口号:
sudo vim /usr/local/hadoop/etc/hadoop/core-site.xml
添加以下内容:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
编辑 hdfs-site.xml
,配置数据块的大小和备份数量:
sudo vim /usr/local/hadoop/etc/hadoop/hdfs-site.xml
添加以下内容:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/usr/local/hadoop/hadoop_data/hdfs/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/usr/local/hadoop/hadoop_data/hdfs/datanode</value>
</property>
<property>
<name>dfs.blocksize</name>
<value>32m</value>
</property>
</configuration>
编辑 mapred-site.xml
,配置 JobTracker 主机名和端口号:
sudo vim /usr/local/hadoop/etc/hadoop/mapred-site.xml
添加以下内容:
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapred.job.tracker</name>
<value>localhost:54311</value>
</property>
</configuration>
编辑 yarn-site.xml
,配置 ResourceManager 的主机名和端口号:
sudo vim /usr/local/hadoop/etc/hadoop/yarn-site.xml
添加以下内容:
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>localhost</value>
</property>
</configuration>
5. 下载 HBase
HBase 官方文档提供了各个版本的下载链接。请访问 HBase官网 下载适用于您的系统版本。
6. 安装 HBase
在下载 HBase 后,我们需要解压 HBase 文件,并将其移动到系统中的相应位置。如:
tar -zxvf hbase-2.2.6-bin.tar.gz
sudo mv hbase-2.2.6 /usr/local/hbase
7. 环境配置
编辑 HBase 配置文件 hbase-env.sh
,配置 JAVA_HOME 环境变量:
sudo vim /usr/local/hbase/conf/hbase-env.sh
修改其中的 export JAVA_HOME=
行为:
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64/
编辑 hbase-site.xml
,配置 HBase Zookeeper 的地址,以及数据存储的路径:
sudo vim /usr/local/hbase/conf/hbase-site.xml
添加以下内容:
<configuration>
<property>
<name>hbase.rootdir</name>
<value>hdfs://localhost:9000/hbase</value>
</property>
<property>
<name>hbase.zookeeper.quorum</name>
<value>localhost</value>
</property>
<property>
<name>hbase.zookeeper.property.dataDir</name>
<value>/usr/local/hbase/zookeeper</value>
</property>
</configuration>
8. 下载 Spark
Spark 官方文档提供了各个版本的下载链接。请访问 [Spark官网](https://spark