Instalando Apache Spark Server no macOS
Instalando o Apache Spark Server no modo raiz e de forma limpa.
Introdução
O Spark é um mecanismo de análise unificado para processamento de dados em larga escala. Ele fornece APIs de alto nível em Scala, Java, Python e R e um mecanismo otimizado que suporta gráficos de computação geral para análise de dados. Ele também oferece suporte a um rico conjunto de ferramentas de nível superior, incluindo Spark SQL para SQL e DataFrames, API pandas no Spark para cargas de trabalho pandas, MLlib para aprendizado de máquina, GraphX para processamento de gráficos e streaming estruturado para processamento de fluxo.
Veja mais em: https://spark.apache.org
Instalação
Criar e acessar o diretório da aplicação
Execute o seguinte comando:
mkdir -p ~/hadoop && cd ~/hadoop
Baixar o pacote do Apache Spark
Execute o seguinte comando:
https://dlcdn.apache.org/spark/spark-3.5.1/spark-3.5.1-bin-hadoop3.tgz
Descompactar o pacote do Apache Spark
Execute o seguinte comando:
tar -xvf spark-3.5.1-bin-hadoop3.tgz && rm -Rf spark-3.5.1-bin-hadoop3.tgz
Renomear diretório
mv spark-3.5.1-bin-hadoop3 spark-3.5.1
Incluir variáveis de ambiente em .zshrc (ou .bashrc)
Execute o seguinte comando:
nano ~/.zshrc
ou
nano ~/. bashrc
No final do arquivo adicione:
# SPARK LOCAL-MACHINE
export SPARK_HOME=~/hadoop/spark-3.5.1
export SPARK_LOCAL_IP=127.0.0.1
export HADOOP_HOME=$SPARK_HOME
export PYTHONPATH=$SPARK_HOME/python
export PATH=$PATH:$SPARK_HOME/bin
Conclusão
Após seguir todo esse roteiro de instalação você terá um Spark Server na sua estação de trabalho que irá subir como serviço toda fez que você implementar códigos utilizando o pyspark.
Créditos
Photo by Devin Pickell on Unsplash