Como instalar e configurar o Apache Spark no Ubuntu/Debian
Apache Spark é uma estrutura computacional distribuída de código aberto criada para fornecer resultados computacionais mais rápidos. É um mecanismo computacional na memória, o que significa que os dados serão processados na memória.
Spark oferece suporte a várias APIs para streaming, processamento de gráficos, SQL, MLLib. Ele também oferece suporte a Java, Python, Scala e R como linguagens preferidas. O Spark é instalado principalmente em clusters Hadoop, mas você também pode instalar e configurar o Spark no modo autônomo.
Neste artigo, veremos como instalar o Apache Spark em distribuições baseadas em Debian e Ubuntu.
Instale Java e Scala no Ubuntu
Para instalar o Apache Spark no Ubuntu, você precisa ter Java e Scala instalados em sua máquina. A maioria das distribuições modernas vem com Java instalado por padrão e você pode verificá-lo usando o seguinte comando.
java -version
Se não houver saída, você pode instalar o Java usando nosso artigo sobre como instalar o Java no Ubuntu ou simplesmente executar os seguintes comandos para instalar o Java no Ubuntu e em distribuições baseadas em Debian.
sudo apt update
sudo apt install default-jre
java -version
Em seguida, você pode instalar o Scala do repositório apt executando os seguintes comandos para procurar por scala e instalá-lo.
sudo apt search scala ⇒ Search for the package
sudo apt install scala ⇒ Install the package
Para verificar a instalação do Scala, execute o seguinte comando.
scala -version
Scala code runner version 2.11.12 -- Copyright 2002-2017, LAMP/EPFL
Instale o Apache Spark no Ubuntu
Agora vá para a página oficial de download do Apache Spark e obtenha a versão mais recente (ou seja, 3.1.1) no momento em que este artigo foi escrito. Alternativamente, você pode usar o comando wget para baixar o arquivo diretamente no terminal.
wget https://apachemirror.wuchna.com/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz
Agora abra seu terminal e mude para onde o arquivo baixado está colocado e execute o seguinte comando para extrair o arquivo tar do Apache Spark.
tar -xvzf spark-3.1.1-bin-hadoop2.7.tgz
Por fim, mova o diretório Spark extraído para o diretório /opt.
sudo mv spark-3.1.1-bin-hadoop2.7 /opt/spark
Configurar variáveis ambientais para Spark
Agora você precisa definir algumas variáveis ambientais em seu arquivo .profile antes de iniciar o Spark.
echo "export SPARK_HOME=/opt/spark" >> ~/.profile
echo "export PATH=$PATH:/opt/spark/bin:/opt/spark/sbin" >> ~/.profile
echo "export PYSPARK_PYTHON=/usr/bin/python3" >> ~/.profile
Para garantir que essas novas variáveis de ambiente possam ser acessadas dentro do shell e disponíveis para o Apache Spark, também é obrigatório executar o comando a seguir para que as alterações recentes tenham efeito.
source ~/.profile
Todos os binários relacionados ao Spark para iniciar e parar os serviços estão na pasta sbin.
ls -l /opt/spark
Inicie o Apache Spark no Ubuntu
Execute o seguinte comando para iniciar o serviço mestre e o serviço escravo Spark.
start-master.sh
start-workers.sh spark://localhost:7077
Assim que o serviço for iniciado, vá para o navegador e digite a seguinte URL de acesso à página spark. Na página, você pode ver que meu serviço mestre e escravo foi iniciado.
http://localhost:8080/
OR
http://127.0.0.1:8080
Você também pode verificar se o spark-shell funciona bem iniciando o comando spark-shell.
spark-shell
É isso neste artigo. Iremos encontrá-lo com outro artigo interessante muito em breve.