Ler arquivo com pandas

Amanda Nascimento

3 min de leitura

Atualizado: 11 de fev.

Pandas é uma biblioteca para ser utilizada em python para mexer com manipulação de dados.

Vou inserir abaixo materiais da própria documentação (cliquei aqui para acessar a documentação), alguns livros de datascience, chat gpt (óbvio) e alguns pontos de vista meu mesmo. :) Vou utilizar o VS code como IDE e preciso instalar python e depois no terminal do vs code, clico na guia terminal, novo terminal, e digito: pip install pandas e aguardo a instalação.

Para importar a biblioteca pandas para o seu projeto digitamos import pandas as pd

De acordo com a documentação para seguir as boas práticas o alias acordado pela comunidade a forma abreviada de chamar pandas será: pd.

Perceba que a palavra pandas está apresentando um erro, isso ocorre pois ainda não fizemos a instalação da biblioteca e por este motivo, ela não esta sendo reconhecida.

Instalação da biblioteca pandas concluída:

DataFrame

É uma estrutura de dados bidimensional que pode armazenar dados de diferentes tipos (incluindo caracteres, inteiros, valores de ponto flutuante, dados categóricos e mais) em colunas. É semelhante a uma planilha, uma tabela SQL.

Série

É um objeto unidimensional que pode conter qualquer tipo de dado (números, strings, dados, etc.).

Funciona como um array do NumPy, mas com um índice associado.

Pode existir sozinho, sem estar dentro de um DataFrame

Lendo arquivo Excel com pandas

Para ler arquivos Excel precisaremos instalar a biblioteca openpyxl pelo terminal (pip install openpyxl), da mesma forma que instalamos pandas.

🌕 Exibir as 5 primeiras e 5 últimas linhas

import pandas as pd

     # Caminho de onde esta o arquivo que queremos fazer a leitura
file_path = r"C:\Users\amand\Downloads\tabagp.xlsx"

     # Lendo a planilha Excel
df = pd.read_excel(file_path)

     # Exibir as primeiras 5 linhas
print("🔹 Primeiras 5 linhas:")
print(df.head())

     # Exibir as últimas 5 linhas
print("\n🔹 Últimas 5 linhas:")
print(df.tail())

Saída com o exemplo dos dados existentes na minha planilha:

🌕 Exibir todos os dados

import pandas as pd

# Configuração para exibir todas as linhas e colunas
pd.set_option("display.max_rows", None)  # Exibir todas as linhas
pd.set_option("display.max_columns", None)  # Exibir todas as colunas

# Caminho do arquivo
file_path = r"C:\Users\amand\Downloads\tabagp.xlsx"

# Lendo a planilha Excel
df = pd.read_excel(file_path)

# Exibir o DataFrame completo
print(df)

Lendo arquivo csv com pandas

🌕 Exibir todos os dados

import pandas as pd

     # Configuração para exibir todas as linhas e colunas
pd.set_option("display.max_rows", None)  # Exibir todas as linhas
pd.set_option("display.max_columns", None)  # Exibir todas as colunas

     # Caminho completo do arquivo CSV
file_path = r"C:\Users\amand\Downloads\tabagp.csv"

    # Lendo o arquivo CSV
df = pd.read_csv(file_path, sep=",", encoding="utf-8")  
    # Altere o separador se necessário

    # Exibir o DataFrame completo
print(df)

Lendo arquivo parquet com pandas

🌕 Exibir todos os dados

import pandas as pd

# Configuração para exibir todas as linhas e colunas
pd.set_option("display.max_rows", None)  # Exibir todas as linhas
pd.set_option("display.max_columns", None)  # Exibir todas as colunas

# Caminho completo do arquivo Parquet
file_path = r"C:\Users\amand\Downloads\tabagp.parquet"

# Lendo o arquivo Parquet
df = pd.read_parquet(file_path)

# Exibir o DataFrame completo
print(df)

🌕 Exibir as 10 primeiras linhas

print(df.sample(10))

🌕 Exibir as 5 primeiras e 5 últimas linhas

import pandas as pd

# Caminho completo do arquivo Parquet
file_path = r"C:\Users\amand\Downloads\tabagp.parquet"

# Lendo o arquivo Parquet
df = pd.read_parquet(file_path)

# Exibir as primeiras 5 linhas
print("🔹 Primeiras 5 linhas:")
print(df.head())

# Exibir as últimas 5 linhas
print("\n🔹 Últimas 5 linhas:")
print(df.tail())

Formato	Função dos Pandas	Observação
CSV ( .csv)	pd.read_csv()	Arquivos separados por vírgula (ou outro delimitador)
Excel ( .xlsx, .xls)	pd.read_excel()	pip install xlrd openpyxl
Parquet ( .parquet)	pd.read_parquet()	Ótimo para grandes volumes de dados
JSON ( .json)	pd.read_json()	Para dados estruturados em formato JSON
SQL (banco de dados)	pd.read_sql()	Solicitar conexão com banco de dados (sqlite3, SQLAlchemy)
HTML (tabelas da web)	pd.read_html()	pip install lxml html5lib beautifulsoup4
PDF ( .pdf)	Usando pdfplumber, camelotouPyMuPDF	Necessita de bibliotecas externas para extrair texto/tabelas
word ( .docx)	Usandopython-docx	Necessita de python-docxler documentos Word

Obter alguns dados do dataframe

🌕 Obter quantidade de linhas e colunas

🌕 Exibir nome das colunas

🌕 Contagem de valores únicos

import pandas as pd


file_path = r"C:\Users\amand\Downloads\tabagp.xlsx"
df = pd.read_excel(file_path)


# Número de linhas e colunas
num_linhas, num_colunas = df.shape
print(f"Número de linhas: {num_linhas}")
print(f"Número de colunas: {num_colunas}")



# Exibir os nomes das colunas
print("\n📌 Nome das colunas:")
print(df.columns)

# Contagem de valores únicos por coluna
print("\n🔢 Contagem de valores únicos por coluna:")
print(df.nunique())

Exemplo de saída:

🌕 Identificar possibilidade de chave primária

import pandas as pd

# Caminho do arquivo
file_path = r"C:\Users\amand\Downloads\tabagp.xlsx"

# Lendo o arquivo Excel
df = pd.read_excel(file_path)

# Verificando colunas candidatas a chave primária
for coluna in df.columns:
    valores_unicos = df[coluna].nunique()
    total_linhas = len(df)
    valores_nulos = df[coluna].isnull().sum()

    if valores_unicos == total_linhas and valores_nulos == 0:
        print(f"✅ A coluna '{coluna}' pode ser uma chave primária (valores únicos e sem nulos).")
    else:
        print(f"❌ A coluna '{coluna}' NÃO é uma chave primária (valores únicos: {valores_unicos}, total linhas: {total_linhas}, nulos: {valores_nulos}).")

Exemplo de saída:

AN

Ler arquivo com pandas

DataFrame

Série

Lendo arquivo Excel com pandas

Obter alguns dados do dataframe

Posts recentes

AN