Como instalar e configurar o Apache Spark no Ubuntu/Debian

Apache Spark é uma estrutura computacional distribuída de código aberto criada para fornecer resultados computacionais mais rápidos. É um mecanismo computacional na memória, o que significa que os dados serão processados na memória.

Spark oferece suporte a várias APIs para streaming, processamento de gráficos, SQL, MLLib. Ele também oferece suporte a Java, Python, Scala e R como linguagens preferidas. O Spark é instalado principalmente em clusters Hadoop, mas você também pode instalar e configurar o Spark no modo autônomo.

Neste artigo, veremos como instalar o Apache Spark em distribuições baseadas em Debian e Ubuntu.

Instale Java e Scala no Ubuntu

Para instalar o Apache Spark no Ubuntu, você precisa ter Java e Scala instalados em sua máquina. A maioria das distribuições modernas vem com Java instalado por padrão e você pode verificá-lo usando o seguinte comando.

java -version

Se não houver saída, você pode instalar o Java usando nosso artigo sobre como instalar o Java no Ubuntu ou simplesmente executar os seguintes comandos para instalar o Java no Ubuntu e em distribuições baseadas em Debian.

sudo apt update
sudo apt install default-jre
java -version

Em seguida, você pode instalar o Scala do repositório apt executando os seguintes comandos para procurar por scala e instalá-lo.

sudo apt search scala  ⇒ Search for the package
sudo apt install scala ⇒ Install the package

Para verificar a instalação do Scala, execute o seguinte comando.

scala -version 

Scala code runner version 2.11.12 -- Copyright 2002-2017, LAMP/EPFL

Instale o Apache Spark no Ubuntu

Agora vá para a página oficial de download do Apache Spark e obtenha a versão mais recente (ou seja, 3.1.1) no momento em que este artigo foi escrito. Alternativamente, você pode usar o comando wget para baixar o arquivo diretamente no terminal.

wget https://apachemirror.wuchna.com/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz

Agora abra seu terminal e mude para onde o arquivo baixado está colocado e execute o seguinte comando para extrair o arquivo tar do Apache Spark.

tar -xvzf spark-3.1.1-bin-hadoop2.7.tgz

Por fim, mova o diretório Spark extraído para o diretório /opt.

sudo mv spark-3.1.1-bin-hadoop2.7 /opt/spark

Configurar variáveis ambientais para Spark

Agora você precisa definir algumas variáveis ambientais em seu arquivo .profile antes de iniciar o Spark.

echo "export SPARK_HOME=/opt/spark" >> ~/.profile
echo "export PATH=$PATH:/opt/spark/bin:/opt/spark/sbin" >> ~/.profile
echo "export PYSPARK_PYTHON=/usr/bin/python3" >> ~/.profile

Para garantir que essas novas variáveis de ambiente possam ser acessadas dentro do shell e disponíveis para o Apache Spark, também é obrigatório executar o comando a seguir para que as alterações recentes tenham efeito.

source ~/.profile

Todos os binários relacionados ao Spark para iniciar e parar os serviços estão na pasta sbin.

ls -l /opt/spark

Inicie o Apache Spark no Ubuntu

Execute o seguinte comando para iniciar o serviço mestre e o serviço escravo Spark.

start-master.sh
start-workers.sh spark://localhost:7077

Assim que o serviço for iniciado, vá para o navegador e digite a seguinte URL de acesso à página spark. Na página, você pode ver que meu serviço mestre e escravo foi iniciado.

http://localhost:8080/
OR
http://127.0.0.1:8080

Você também pode verificar se o spark-shell funciona bem iniciando o comando spark-shell.

spark-shell

É isso neste artigo. Iremos encontrá-lo com outro artigo interessante muito em breve.