Configurando o PySpark no Google Colab


Nesta publicação irei demonstrar como configurar o PySpark no Google Colab de forma simples. Para os iniciantes na linguagem, é uma ótima forma de praticar e, para os mais avançados, uma boa opção para realizar testes de novas funcionalidades. Vamos praticar!

# Instalando o PySpark !pip install -q pyspark==3.3.1 # Importa os módulos from pyspark.sql import SparkSession from pyspark.sql import functions as F # Cria a instância da sessão Spark spark = ( SparkSession.builder.master("local[*]").getOrCreate() ) # Carrega dados do arquivo json no dataframe dataframe = ( spark.read.format("json") .option("multiLine",True) .load("sample_data/anscombe.json") ) # Exibe o schema (colunas e tipos de dados) do dataframe dataframe.printSchema() # Exibe 10 registros do dataframe dataframe.show(10)
Code language: Python (python)
Imagem do PySpark em funcionamento no Google Colab
,

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *