Criando dataframes no PySpark


Bem-vindo ao tutorial sobre a criação de dataframes com PySpark! PySpark é uma biblioteca de processamento distribuído para big data que permite trabalhar com grandes quantidades de dados usando o Apache Spark. Neste tutorial, aprenderemos como criar dataframes a partir de diferentes fontes de dados, como arquivos csv, parquet e bases de dados relacionais. Pronto para começar?

# Cria um dataframe a partir de um arquivo csv df = spark.read.csv( path='empresas.csv', sep=';', inferSchema=True, header=True )
Code language: Python (python)
# Cria um dataframe a partir de um arquivo json df = ( spark.read.format("json") .option("multiLine",True) .load("sample_data/anscombe.json") )
Code language: Python (python)
# Cria um dataframe a partir de uma lista em Python dadosColuna = [ ("James", "Sales", 3000), ("Michael", "Sales", 4600), ("Robert", "Sales", 4100), ("Maria", "Finance", 8000) ] schema = ["employee_name", "department", "salary"] df = spark.createDataFrame(data=dadosColuna, schema = schema)
Code language: Python (python)
# Cria um dataframe com 100 registros com números de 0 a 99 df = spark.createDataFrame([(i,) for i in range(0,100)], ("sequencia",))
Code language: Python (python)
,

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *