CSV
CSV (Comma-Separated Values) é um formato de arquivo simples e amplamente utilizado para armazenar dados tabulares. Cada linha do arquivo representa um registro, e os valores dentro de cada linha são separados por vírgulas (ou outro delimitador, como ponto e vírgula).
Pode ser ineficiente em termos de espaço, especialmente para grandes volumes de dados.
Exemplo CSV com separador vírgula:
id,name,age
1,John Doe,30
2,Jane Smith,25
3,Bob Johnson,40
4,Alice Brown,28
5,Charlie Davis,35
Parquet
Parquet é um formato de arquivo colunar otimizado para armazenamento e processamento eficiente de grandes volumes de dados. Ele basicamente comprime os arquivos, utilizando menos espaço quando comparado com o csv. Desenvolvido pelo Apache, é amplamente utilizado em ambientes de big data. Clique aqui para saber mais.
Orientação por Coluna: Armazena dados por coluna em vez de por linha, o que permite compressão e leitura eficientes.
Eficiência: Melhor desempenho em consultas analíticas que acessam apenas algumas colunas de um conjunto de dados.
Flexibilidade: Suporta tipos de dados complexos e aninhados, que não são facilmente representados em um formato tabular tradicional.
Exemplo de arquivo parquet:
|-- id: int
| |-- 1
| |-- 2
| |-- 3
| |-- 4
| |-- 5
|
|-- name: string
| |-- John Doe
| |-- Jane Smith
| |-- Bob Johnson
| |-- Alice Brown
| |-- Charlie Davis
|
|-- age: int
|-- 30
|-- 25
|-- 40
|-- 28
|-- 35