Cursos gratuitos (dados, desenvolvimento, Linux, ...)
*** Cursos em português:
- Python (Básico):
https://www.youtube.com/watch?v=S9uPNppGsGo&list=PLHz_AreHm4dlKP6QQCekuIPky1CiwmdI6
- Python Fundamentos para Análise de Dados, Big Data Fundamentos, Microsoft Power BI para Data Science, entre outros:
https://www.datascienceacademy.com.br/cursosgratuitos
- Git e GitHub, Linux, Banco de Dados, SQL, Python, Docker, TypeScript e muitos outros:
https://web.dio.me/
*** Cursos em inglês:
- Python:
https://www.youtube.com/watch?v=mRMmlo_Uqcs&list=PLIhvC56v63ILPDA2DQBv0IKzqsWTZxCkp
- Linux:
https://www.youtube.com/watch?v=VbEx7B_PTOE&list=PLIhvC56v63IJIujb5cyE13oLuyORZpdkL
- Bash Scripting:
https://www.youtube.com/watch?v=SPwyp2NG-bE&list=PLIhvC56v63IKioClkSNDjW7iz-6TFvLwS
PySpark - Sintaxes
Nesta publicação irei mencionar brevemente alguns comandos/sintaxes úteis do Spark utilizando a linguagem Python.
Dataframe.show():
Exibe as primeiras n linhas na tela.
Parâmetros:
n: números de linhas a exibir.
truncate: se informado True, irá cortar as strings com mais de 20 caracteres. Se um número maior que 1 for informado, strings maiores que o número informado serão cortadas e alinnhadas a direita.
vertical: se informado True, as linhas serão exibidas na vertical (uma linha por valor de coluna).
Exemplos:
df.show()
df.show(truncate=3)
df.show(vertical=True)
df.show(n=20, truncate=True, vertical=False)
Dataframe.select():
Retorna um novo dataframe de acordo com as expressões que foram determinadas.
Exemplos:
df.select('*').collect()
df.select('name', 'age').collect()
df.select(df.name, (df.age + 10).alias('age')).collect()
Dataframe.Filter():
Filtra linhas usando determinadas condições.
Obs: where() é um apelido do filter().
Exemplos:
df.filter(df.age > 3).collect()
df.where(df.age == 2).collect()
df.filter("age > 3").collect()
df.where("age = 2").collect()
Dataframe.distinct():
Retorna um novo dataframe contendo as linhas distintas no dataframe.
Exemplos:
df.distinct().count()
Dataframe.withColumn():
Retorna um novo dataframe adicionado a coluna ou renomeando a coluna que possui o mesmo nome.
Exemplo:
df.withColumn('age2', df.age + 2).collect()
Dataframe.printSchema():
Exibe a estrutura do dataframe no formato de árvore.
Sintaxe:
df.printSchema()
Dataframe.columns:
Retorna todas as colunas como uma lista.
Sintaxe:
df.columns
Dataframe.count():
Retorna o número de linhas do dataframe.
Sintaxe:
df.count()
Dataframe.describe():
Computa as estatísticas para colunas númericas e string.
Exemplos:
df.describe().show()
df.describe(['age']).show()
Dataframe.summary():
Computa statisticas especificas para colunas númericas e strings.
Exemplos:
df.summary().show()
df.summary("count", "min", "25%", "75%", "max").show()
df.select("age", "name").summary("count").show()
Dataframe.Collect():
Retorna todos os registros como uma lista de linha.
Sintaxe:
df.collect()
Dataframe.selectExpr():
Retorna um novo dataframe de acordo com as expressões SQL que foram determinadas.
Exemplo:
df.selectExpr("age * 2", "abs(age)").collect()
Dataframe.persist():
Determina o nível de armazenamento para persistir o conteúdo do dataframe durante as operações após ser computado pela primeira vez.
Sintaxe:
df.persist()
Dataframe.unpersist():
Marca o dataframe como não persistente, removendo todos os blocos da memória e disco.
Sintaxe:
df.unpersist(blocking=False)

Tags das Publicações
"Eu não sei como vencer os outros; sei apenas como vencer a mim mesmo." (Yagu Munenori)