Como instalar e configurar o Apache Hadoop em um único nó no CentOS 7

Apache Hadoop é uma estrutura de código aberto criada para armazenamento distribuído de Big Data e processamento de dados em clusters de computadores. O projeto é baseado nos seguintes componentes:

Hadoop Common – contém as bibliotecas e utilitários Java necessários para outros módulos Hadoop.
HDFS – Hadoop Distributed File System – Um sistema de arquivos escalonável baseado em Java distribuído em vários nós.
MapReduce – estrutura YARN para processamento paralelo de big data.
Hadoop YARN: uma estrutura para gerenciamento de recursos de cluster.

Este artigo irá guiá-lo sobre como instalar o Apache Hadoop em um cluster de nó único no CentOS 7 (também funciona para RHEL 7 e Fedora 23+ > versões). Esse tipo de configuração também é referenciado como Modo Pseudo-Distribuído do Hadoop.

Etapa 1: Instale o Java no CentOS 7

1. Antes de prosseguir com a instalação do Java, primeiro faça login com o usuário root ou um usuário com privilégios de root e configure o nome de host da sua máquina com o seguinte comando.

hostnamectl set-hostname master

Além disso, adicione um novo registro no arquivo hosts com o FQDN de sua própria máquina para apontar para o endereço IP do seu sistema.

vi /etc/hosts

Adicione a linha abaixo:

192.168.1.41 master.hadoop.lan

Substitua o nome do host e os registros FQDN acima por suas próprias configurações.

2. Em seguida, vá para a página de download do Oracle Java e obtenha a versão mais recente do Java SE Development Kit 8 em seu sistema com a ajuda de curl comando:

curl -LO -H "Cookie: oraclelicense=accept-securebackup-cookie" “http://download.oracle.com/otn-pub/java/jdk/8u92-b14/jdk-8u92-linux-x64.rpm”

3. Após a conclusão do download do binário Java, instale o pacote emitindo o comando abaixo:

rpm -Uvh jdk-8u92-linux-x64.rpm

Etapa 2: Instale o Hadoop Framework no CentOS 7

4. Em seguida, crie uma nova conta de usuário em seu sistema sem poderes de root, que usaremos para o caminho de instalação do Hadoop e ambiente de trabalho. O diretório inicial da nova conta residirá no diretório /opt/hadoop.

useradd -d /opt/hadoop hadoop
passwd hadoop

5. Na próxima etapa, visite a página do Apache Hadoop para obter o link da versão estável mais recente e baixar o arquivo em seu sistema.

curl -O http://apache.javapipe.com/hadoop/common/hadoop-2.7.2/hadoop-2.7.2.tar.gz

6. Extraia o arquivo e copie o conteúdo do diretório para o caminho inicial da conta hadoop. Além disso, certifique-se de alterar as permissões dos arquivos copiados de acordo.

 tar xfz hadoop-2.7.2.tar.gz
cp -rf hadoop-2.7.2/* /opt/hadoop/
chown -R hadoop:hadoop /opt/hadoop/

7. Em seguida, faça login com o usuário hadoop e configure o Hadoop e as variáveis de ambiente Java em seu sistema editando o Hadoop e as variáveis de ambiente Java em seu sistema. arquivo.bash_profile.

su - hadoop
vi .bash_profile

Anexe as seguintes linhas no final do arquivo:

## JAVA env variables
export JAVA_HOME=/usr/java/default
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/jre/lib:$JAVA_HOME/lib:$JAVA_HOME/lib/tools.jar

## HADOOP env variables
export HADOOP_HOME=/opt/hadoop
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

8. Agora, inicialize as variáveis de ambiente e verifique seu status emitindo os comandos abaixo:

source .bash_profile
echo $HADOOP_HOME
echo $JAVA_HOME

9. Por fim, configure a autenticação baseada em chave ssh para a conta hadoop executando os comandos abaixo (substitua o nome do host ou o FQDN > contra o comando ssh-copy-id adequadamente).

Além disso, deixe a senha preenchida em branco para fazer login automaticamente via ssh.

ssh-keygen -t rsa
ssh-copy-id master.hadoop.lan