主要参考Blog:https://blog.csdn.net/qq_42970173/article/details/88847398
完整配置视频(带时间轴):https://www.bilibili.com/video/BV1Kg4y1q72s/

1.基本安装流程

1.1 下载

本文暂时建议使用Alibaba Mirror(所处环境Tsinghua Mirror跑不满,个别情况下有连接超时的现象),接下来浏览器下载或是Wget、curl都行。

(Alibaba Apache Mirrors)https://mirrors.aliyun.com/apache/?spm=a2c6h.13651104.0.0.431e89dbYdUuEa

1.2 创建hadoop用户(不创建也行,为了迁移和处理方便)

sudo useradd -m hadoop -s /bin/bash  #创建hadoop用户,并使用/bin/bash作为shell
sudo passwd hadoop                   #为hadoop用户设置密码,之后需要连续输入两次密码
sudo adduser hadoop sudo             #为hadoop用户增加管理员权限
su - hadoop                          #切换当前用户为用户hadoop
sudo apt-get update                  #更新hadoop用户的apt,方便后面的安装

1.3 设置SSH无密码登录(同样不算必须,图个方便)

sudo apt-get install openssh-server   #安装SSH server(一般ubuntu等发行版应该都有,酌情安装)
ssh localhost                         #登陆SSH,第一次登陆输入yes(自己连自己)
exit                                  #退出登录的ssh localhost
cd ~/.ssh/                            #如果没法进入该目录,执行一次ssh localhost
ssh-keygen -t rsa (生成密钥,快乐的点回车就可以了,其中,第一次回车是让KEY存于默认位置,以方便后续的命令输入。第二次和第三次是确定passphrase,相关性不大。)
cat ./id_rsa.pub >> ./authorized_keys #加入授权
ssh localhost                         #此时已不需密码即可登录localhost。

1.4 安装hadoop

sudo tar -zxvf  hadoop-2.6.0.tar.gz -C /usr/local    #解压到/usr/local目录下(习惯性流程?,其中版本号各异,适当调整)
cd /usr/local
sudo mv  hadoop-2.6.0    hadoop            
          #重命名为hadoop(版本号调整)
sudo chown -R hadoop ./hadoop 

修改/etc/profile,在hadoop用户下(文件尾部追加)

export HADOOP_HOME=/usr/local/hadoop
export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATH
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

改完source生效即可,安装完成,接下来就是分布式部署了(单机就伪一下,虚拟机和Docker部署更优,有多台设备更好...)

以下为粗略配置流程

1. 配置VMware

   1. 安装CentOS(鉴于集群体量,选择Minimal安装包)
   2. 配置NAT网络(网关,子网ip,是否支持ipv6)
   3. 配置本地网络配置NAT8

2. 配置虚拟系统内网络

   1. 修改NAT网卡配置并重启服务(网关、IP、静态与否、DNS、开机自启)

   **Notes:CentOS升级到7以后,开始对网卡乱起名了(原为eth0,现在在/etc/sysconfig/network-script/下为if cfg-xxx,比较写意)**

   1. 安装ifconfig工具(yum/apt install net-tools)
   2. 修改hostname
   3. 修改/etc/hosts,以便设备之间可互相连接

3. 时钟同步(建议与阿里云ntp服务器同步)

4. 安装Java(此处为yum安装openjdk,主要需要记录安装目录,一般在/usr/lib/jvm下)

5. 下载hadoop并放到合适的地方

6. 配置hadoop

   1. 配置core-site.xml
   2. 配置yarn-env.sh
   3. 配置hdfs-site.xml(记得添加namenode的http服务)
   4. 配置mapred-site.xml
   5. 配置yarn-site.xml
   6. 修改slaves(看需要搞几个从属的设备就加几个)

   

7. 克隆该配置好的虚拟机,需要几个slave就克隆几个

   1. 在克隆好的虚拟机上需要修改前面修改过的hostname和/etc/hosts,给自己独一无二的名字和IP地址

   

8. 生成ssh公钥私钥,简化ssh登录

   1. master创建大家通用公钥authorized_keys

   

9. 运行hadoop

   1. 格式化HDFS
   2. 启动hadoop(在hadoop的sbin文件夹下,可以直接start-all.sh也可以start-dfs和start-yarn一个一个来,现在官方推荐一个一个来)