Instalando Apache Spark Server no macOS
Instalando o Apache Spark Server no modo raiz e de forma limpa.
Introdução
O Spark é um mecanismo de análise unificado para processamento de dados em larga escala. Ele fornece APIs de alto nível em Scala, Java, Python e R e um mecanismo otimizado que suporta gráficos de computação geral para análise de dados. Ele também oferece suporte a um rico conjunto de ferramentas de nível superior, incluindo Spark SQL para SQL e DataFrames, API pandas no Spark para cargas de trabalho pandas, MLlib para aprendizado de máquina, GraphX para processamento de gráficos e streaming estruturado para processamento de fluxo.
Instalação
Criar e acessar o diretório da aplicação
Execute o seguinte comando:
mkdir -p ~/Apps/spark-server && cd ~/Apps/spark-server
Baixar o pacote do Apache Spark
Execute o seguinte comando:
curl -OL https://downloads.apache.org/spark/spark-3.1.3/spark-3.1.3-bin-hadoop3.2.tgz
Descompactar o pacote do Apache Spark
Execute o seguinte comando:
tar -xvf spark-3.1.3-bin-hadoop3.2.tgz
Incluir variáveis de ambiente em .zshrc (ou .bashrc)
Execute o seguinte comando:
nano ~/.zshrc
ou
nano ~/. bashrc
No final do arquivo adicione:
# SPARK LOCAL-MACHINE
export SPARK_HOME=~/Apps/spark-3.1.3-bin-hadoop3.2
export SPARK_LOCAL_IP=127.0.0.1
export HADOOP_HOME=$SPARK_HOME
export PYTHONPATH=$SPARK_HOME/python
export PATH=$PATH:$SPARK_HOME/bin