top of page
Foto do escritorAmanda Nascimento

csv x parquet




CSV


CSV (Comma-Separated Values) é um formato de arquivo simples e amplamente utilizado para armazenar dados tabulares. Cada linha do arquivo representa um registro, e os valores dentro de cada linha são separados por vírgulas (ou outro delimitador, como ponto e vírgula).

Pode ser ineficiente em termos de espaço, especialmente para grandes volumes de dados.


Exemplo CSV com separador vírgula:

id,name,age
1,John Doe,30
2,Jane Smith,25
3,Bob Johnson,40
4,Alice Brown,28
5,Charlie Davis,35



Parquet


Parquet é um formato de arquivo colunar otimizado para armazenamento e processamento eficiente de grandes volumes de dados. Ele basicamente comprime os arquivos, utilizando menos espaço quando comparado com o csv. Desenvolvido pelo Apache, é amplamente utilizado em ambientes de big data. Clique aqui para saber mais.


Orientação por Coluna: Armazena dados por coluna em vez de por linha, o que permite compressão e leitura eficientes.

  • Eficiência: Melhor desempenho em consultas analíticas que acessam apenas algumas colunas de um conjunto de dados.

  • Flexibilidade: Suporta tipos de dados complexos e aninhados, que não são facilmente representados em um formato tabular tradicional.


Exemplo de arquivo parquet:


|-- id: int
|   |-- 1
|   |-- 2
|   |-- 3
|   |-- 4
|   |-- 5
|
|-- name: string
|   |-- John Doe
|   |-- Jane Smith
|   |-- Bob Johnson
|   |-- Alice Brown
|   |-- Charlie Davis
|
|-- age: int
    |-- 30
    |-- 25
    |-- 40
    |-- 28
    |-- 35

bottom of page