Instalando Apache Spark Server no macOS

Introdução

O Spark é um mecanismo de análise unificado para processamento de dados em larga escala. Ele fornece APIs de alto nível em Scala, Java, Python e R e um mecanismo otimizado que suporta gráficos de computação geral para análise de dados. Ele também oferece suporte a um rico conjunto de ferramentas de nível superior, incluindo Spark SQL para SQL e DataFrames, API pandas no Spark para cargas de trabalho pandas, MLlib para aprendizado de máquina, GraphX para processamento de gráficos e streaming estruturado para processamento de fluxo.

Veja mais em: https://spark.apache.org

Instalação

Criar e acessar o diretório da aplicação

Execute o seguinte comando:

mkdir -p ~/Apps/spark-server && cd ~/Apps/spark-server

Baixar o pacote do Apache Spark

Execute o seguinte comando:

curl -OL https://downloads.apache.org/spark/spark-3.2.3/spark-3.2.3-bin-hadoop3.2.tgz

Descompactar o pacote do Apache Spark

Execute o seguinte comando:

tar -xvf spark-3.2.3-bin-hadoop3.2.tgz

Incluir variáveis de ambiente em .zshrc (ou .bashrc)

Execute o seguinte comando:

nano ~/.zshrc

nano ~/. bashrc

No final do arquivo adicione:

# SPARK LOCAL-MACHINE
export SPARK_HOME=~/Apps/spark-3.2.3-bin-hadoop3.2
export SPARK_LOCAL_IP=127.0.0.1
export HADOOP_HOME=$SPARK_HOME
export PYTHONPATH=$SPARK_HOME/python
export PATH=$PATH:$SPARK_HOME/bin

Conclusão

Após seguir todo esse roteiro de instalação você terá um Spark Server na sua estação de trabalho que irá subir como serviço toda fez que você implementar códigos utilizando o pyspark.

Créditos

Photo by Devin Pickell on Unsplash

Instalando Apache Spark Server no macOS

Instalando o Apache Spark Server no modo raiz e de forma limpa.

Introdução

Instalação

Criar e acessar o diretório da aplicação

Baixar o pacote do Apache Spark

Descompactar o pacote do Apache Spark

Incluir variáveis de ambiente em .zshrc (ou .bashrc)

Conclusão

Créditos

Did you find this article valuable?