Sabe aquele arquivo .xslx que você recebe de um setor e precisa carregar os dados para um banco de dados ou Power Bi e precisa conferir para identificar se o usuário seguiu a padronização de dados?
Com o código em Python abaixo, é possível criar uma função para verificar se:
Quantidade de colunas esta igual
Nomenclatura das colunas estão iguais
Quantidade de linhas de ambos os arquivos
Tipo de dados
Utilizei o VSCode e instalei: pandas e openpyxl. No terminal, digite pip install pandas e depois faça o mesmo com o openpyxl. Os arquivos em Excel devem estar na mesma pasta que o arquivo main.py que especifiquei o script abaixo.
No arquivo main.py execute o código abaixo:
Resultado:
Em resumo, ao rodar o código consegui identificar que no arquivo novo foram criadas mais duas colunas, o arquivo novo tem 1 linha a mais que o modelo e existe uma inconsistência de dados no arquivo novo, por tanto, se eu carregar este arquivo, terei problemas e se faz necessário uma ação.
Para que fique mais claro, o modelo original é:
O arquivo que estou tentando carregar e esta com inconsistência, pois além de ter colunas a mais, a coluna C deveria receber apenas data como tipo de dado e o usuário inseriu um texto, invalidando assim o dado.