Como instalar e configurar o Apache Hadoop em um único nó no CentOS 7
Apache Hadoop é uma estrutura de código aberto criada para armazenamento distribuído de Big Data e processamento de dados em clusters de computadores. O projeto é baseado nos seguintes componentes:
- Hadoop Common – contém as bibliotecas e utilitários Java necessários para outros módulos Hadoop.
- HDFS – Hadoop Distributed File System – Um sistema de arquivos escalonável baseado em Java distribuído em vários nós.
- MapReduce – estrutura YARN para processamento paralelo de big data.
- Hadoop YARN: uma estrutura para gerenciamento de recursos de cluster.
Este artigo irá guiá-lo sobre como instalar o Apache Hadoop em um cluster de nó único no CentOS 7 (também funciona para RHEL 7 e Fedora 23+ > versões). Esse tipo de configuração também é referenciado como Modo Pseudo-Distribuído do Hadoop.
Etapa 1: Instale o Java no CentOS 7
1. Antes de prosseguir com a instalação do Java, primeiro faça login com o usuário root ou um usuário com privilégios de root e configure o nome de host da sua máquina com o seguinte comando.
hostnamectl set-hostname master
Além disso, adicione um novo registro no arquivo hosts com o FQDN de sua própria máquina para apontar para o endereço IP do seu sistema.
vi /etc/hosts
Adicione a linha abaixo:
192.168.1.41 master.hadoop.lan
Substitua o nome do host e os registros FQDN acima por suas próprias configurações.
2. Em seguida, vá para a página de download do Oracle Java e obtenha a versão mais recente do Java SE Development Kit 8 em seu sistema com a ajuda de curl comando:
curl -LO -H "Cookie: oraclelicense=accept-securebackup-cookie" “http://download.oracle.com/otn-pub/java/jdk/8u92-b14/jdk-8u92-linux-x64.rpm”
3. Após a conclusão do download do binário Java, instale o pacote emitindo o comando abaixo:
rpm -Uvh jdk-8u92-linux-x64.rpm
Etapa 2: Instale o Hadoop Framework no CentOS 7
4. Em seguida, crie uma nova conta de usuário em seu sistema sem poderes de root, que usaremos para o caminho de instalação do Hadoop e ambiente de trabalho. O diretório inicial da nova conta residirá no diretório /opt/hadoop
.
useradd -d /opt/hadoop hadoop
passwd hadoop
5. Na próxima etapa, visite a página do Apache Hadoop para obter o link da versão estável mais recente e baixar o arquivo em seu sistema.
curl -O http://apache.javapipe.com/hadoop/common/hadoop-2.7.2/hadoop-2.7.2.tar.gz
6. Extraia o arquivo e copie o conteúdo do diretório para o caminho inicial da conta hadoop. Além disso, certifique-se de alterar as permissões dos arquivos copiados de acordo.
tar xfz hadoop-2.7.2.tar.gz
cp -rf hadoop-2.7.2/* /opt/hadoop/
chown -R hadoop:hadoop /opt/hadoop/
7. Em seguida, faça login com o usuário hadoop e configure o Hadoop e as variáveis de ambiente Java em seu sistema editando o Hadoop e as variáveis de ambiente Java em seu sistema. arquivo.bash_profile.
su - hadoop
vi .bash_profile
Anexe as seguintes linhas no final do arquivo:
## JAVA env variables
export JAVA_HOME=/usr/java/default
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/jre/lib:$JAVA_HOME/lib:$JAVA_HOME/lib/tools.jar
## HADOOP env variables
export HADOOP_HOME=/opt/hadoop
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
8. Agora, inicialize as variáveis de ambiente e verifique seu status emitindo os comandos abaixo:
source .bash_profile
echo $HADOOP_HOME
echo $JAVA_HOME
9. Por fim, configure a autenticação baseada em chave ssh para a conta hadoop executando os comandos abaixo (substitua o nome do host ou o FQDN > contra o comando ssh-copy-id
adequadamente).
Além disso, deixe a senha preenchida em branco para fazer login automaticamente via ssh.
ssh-keygen -t rsa
ssh-copy-id master.hadoop.lan