Bem-vindo ao tutorial sobre a criação de dataframes com PySpark! PySpark é uma biblioteca de processamento distribuído para big data que permite trabalhar com grandes quantidades de dados usando o Apache Spark. Neste tutorial, aprenderemos como criar dataframes a partir de diferentes fontes de dados, como arquivos csv, parquet e bases de dados relacionais. Pronto para começar?
# Cria um dataframe a partir de um arquivo csv
df = spark.read.csv(
path='empresas.csv',
sep=';',
inferSchema=True,
header=True
)
Code language: Python (python)
# Cria um dataframe a partir de um arquivo json
df = (
spark.read.format("json")
.option("multiLine",True)
.load("sample_data/anscombe.json")
)
Code language: Python (python)
# Cria um dataframe a partir de uma lista em Python
dadosColuna = [
("James", "Sales", 3000),
("Michael", "Sales", 4600),
("Robert", "Sales", 4100),
("Maria", "Finance", 8000)
]
schema = ["employee_name", "department", "salary"]
df = spark.createDataFrame(data=dadosColuna, schema = schema)
Code language: Python (python)
# Cria um dataframe com 100 registros com números de 0 a 99
df = spark.createDataFrame([(i,) for i in range(0,100)], ("sequencia",))
Code language: Python (python)