Apache Hadoop是一款支持数据密集型分布式应用程序并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。Hadoop是根据谷歌公司发表的MapReduce和Google文件系统的论文自行实现而成。所有的Hadoop模块都有一个基本假设,即硬件故障是常见情况,应该由框架自动处理。[1]

要求

编辑

操作系统:Ubuntu Linux 16.04 LTS 桌面版

安装Linux

编辑

安装JDK并配置Java变量

编辑

使用sudo apt install openjdk-9-jdk-headless安装JDK(注意:输入的密码完全不会显示),安装完毕后使用文本编辑器(如vim、nano等)在~/.bashrc末尾添加以下内容:

export JAVA_HOME=/usr/lib/jvm/java-9-openjdk-amd64/

安装Hadoop

编辑

方便起见,默认将Hadoop安装至家目录。

下载Hadoop压缩包,并使用tar解压:tar -xzpf hadoop-filename.tar.gz

解压完毕后将Hadoop可执行文件位置加入PATH变量:~/.bashrc

重新读取~/.bashrc

编辑

使用source ~/.bashrc重新读取.bashrc配置文件。

测试JDK及Hadoop是否安装成功

编辑

运行命令:hadoop version

如无意外,输出结果应该类似于下面这样:

Hadoop 2.9.1
Subversion https://github.com/apache/hadoop.git -r e30710aea4e6e55e69372929106cf119af06fd0e
Compiled by root on 2018-04-16T09:33Z
Compiled with protoc 2.5.0
From source with checksum 7d6d2b655115c6cc336d662cc2b919bd
This command was run using /home/junjie/hadoop-2.9.1/share/hadoop/common/hadoop-common-2.9.1.jar

讲师

编辑

如有疑问,欢迎联系。

參考文獻

编辑