tecnologia | big data | business intelligence | banco de dados

PySpark no Google Colab

Segue abaixo códigos, no formato de notebook (.ipynb), para configurar o PySpark no Google Colab. É necessário executar os códigos de configuração sempre que iniciar a instância do Google Colab.

Caso prefira, segue o link do script no GitHub: pyspark_google_colab.ipynb.

# PySpark no Google Colab
## Instala o Java JDK 8
!apt-get install openjdk-8-jdk-headless -qq > /dev/null
## Download do Apache Spark 3.1.2
!wget -q https://downloads.apache.org/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz
## Descompacta o Apache Spark 3.1.2
!tar xf spark-3.1.2-bin-hadoop3.2.tgz
## Remove o arquivo compactado do Apache Spark 3.1.2
!rm -rf spark-3.1.2-bin-hadoop3.2.tgz
## Instala os módulos FindSpark e PySpark
!pip install -q findspark
!pip install -q pyspark
# Configurando o ambiente para uso do PySpark
## Importa os módulos
import os
import findspark
from pyspark.sql import SparkSession
from pyspark.sql import functions as F
## Define as variáveis ambientes Home do Java e Spark
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.1.2-bin-hadoop3.2"
## Inicia o FindSpark e cria a instância da sessão Spark
findspark.init()
spark = SparkSession.builder.master("local[*]").getOrCreate()
# PySpark pronto para uso, divirta-se!
dataset = spark.read.format("json") \
.option("multiLine",True) \
.load("sample_data/anscombe.json")
dataset.columns
dataset.show(10)


Data publicação: 21:13 25/11/2021
Perfil
Olá jovem Padawan, seja bem vindo! Este site foi criado com o intuito de compartilhar um pouco de conhecimento de Tecnologia da Informação, Big Data, Banco de Dados e Business Intelligence.

GitHub  Linkedin  Youtube

"Se você vem da cidade ou do campo, seu sucesso será determinado pela sua própria confiança e coragem". (Michelle Obama)


Leandro Sacramento, Todos os direitos reservados - 2012 - 2021