Comandos básicos do PySpark


Bem-vindo ao guia de comandos básicos do PySpark! PySpark é a interface de programação de aplicativos (API) em Python para o Apache Spark, uma plataforma distribuída de computação em cluster para processamento de big data. Neste guia, você aprenderá alguns dos comandos básicos do PySpark que são essenciais para manipular e analisar dados em grande escala. Vamos começar!

Dataframe.show():

Exibe as primeiras n linhas do dataframe.

Parâmetros:
– n: números de linhas a exibir.
– truncate: se informado True, irá cortar as strings com mais de 20 caracteres. Se um número maior que 1 for informado, strings maiores que o número informado serão cortadas e alinnhadas a direita.
– vertical: se informado True, as linhas serão exibidas na vertical (uma linha por valor de coluna).

Exemplos:

df.show() df.show(truncate=3) df.show(vertical=True) DataFrame.show(n=20, truncate=True, vertical=False)
Code language: Python (python)

Dataframe.count():

Retorna o número de linhas do dataframe.

Exemplo:

df.count()
Code language: Python (python)

Dataframe.printSchema():

Exibe as colunas e tipos de dados (schema) do dataframe em formato de árvore.

Exemplo:

df.printSchema()
Code language: Python (python)

Dataframe.columns:

Retorna o nome de todas as colunas no formato de ista.

Exemplo:

df.columns
Code language: Python (python)

Datraframe.select():

Retorna um novo dataframe de acordo com as expressões que foram determinadas.

Exemplos:

df.select('*').collect() df.select('name', 'age').collect() df.select(df.name, (df.age + 10).alias('age')).collect()
Code language: Python (python)

Dataframe.filter():

Filtra linhas usando determinadas condições.
Obs.: where() é um apelido do filter().

Exemplos:

df.filter(df.age > 3).collect() df.where(df.age == 2).collect() df.filter("age > 3").collect() df.where("age = 2").collect()
Code language: Python (python)

Dataframe.distinct():

Retorna um novo dataframe contendo as linhas distintas no dataframe.

Exemplo:

df.distinct().count()
Code language: Python (python)

Dataframe.withColumn():

Retorna um novo dataframe adicionado a coluna ou renomeando a coluna que possui o mesmo nome.

Exemplo:

df.withColumn('age2', df.age + 2).collect()
Code language: Python (python)

Dataframe.collect():

Retorna todos os registros como uma lista de linha.
Exemplo:

df.collect()
Code language: Python (python)

Dataframe.describe():

Computa as estatísticas para colunas númericas e string.

Exemplos:

df.describe().show() df.describe(['age']).show()
Code language: Python (python)

Dataframe.summary():

Computa statisticas especificas para colunas númericas e strings.

Exemplos:

df.summary().show() df.summary("count", "min", "25%", "75%", "max").show() df.select("age", "name").summary("count").show()
Code language: Python (python)

Dataframe.cache():

Armazena o dataframe no formato padrão memória ou disco após a primeira execução ativa.

Exemplo:

df.cache()
Code language: Python (python)

Dataframe.unpersist():

Marca o dataframe como não persistente, removendo todos os blocos da memória e disco.

Exemplo:

df.unpersist(blocking=False)
Code language: Python (python)
,

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *