tecnologia | big data | business intelligence | banco de dados

PySpark - Criando dataframes

Nesta publicação irei abordar algumas formas de criar dataframes utilizando PySpark.

Criar dataframe de formar manual especificando os dados e os nomes das colunas:

dadosAlunos = [
("A", "A1", 3, "A"),
("A", "A1", 4, None),
("A", "A3", 5, None),
("B", "B3", 1, None),
("B", "B2", 2, "B"),
("B", "B1", 3, None),
("C", "C2", 0, None),
("C", "C1", 2, None),
("D", "D1", 5, None),
("D", "D2", 8, None)
]
dadosAlunosColunas = ["nome", "departamento", "nota", "coluna"]
df = spark.createDataFrame(data=dadosAlunos, schema=dadosAlunosColunas)
df.printSchema()
df.show(truncate=False)


Criar dataframe a partir de um arquivo csv:

df = spark.read.csv(
path='/caminho/empresas/csv',
sep=';',
inferSchema=True,
header=True
)
df.printSchema()
df.show(truncate=False)


Criar dataframe a partir de arquivo(s) parquet:

df = spark.read.parquet(
path='/caminho/empresas/parquet'
)
df.printSchema()
df.show(truncate=False)
Data publicação: 23:21 05/06/2022
Perfil
Olá jovem Padawan, seja bem vindo! Este site foi criado com o intuito de compartilhar um pouco de conhecimento de Tecnologia da Informação, Big Data, Banco de Dados e Business Intelligence.

GitHub  Linkedin  Youtube

"O sorriso é o símbolo do vencedor." (Masaaki Hatsumi)


Leandro Sacramento, Todos os direitos reservados - 2012 - 2022