top of page

Big data

Atualizado: 20 de out.


Big data é a inclusão de todos os dados, dados internos e externos, de quaisquer formato.




Seis Vs do big data





  • Volume

Refere-se a quantidade total de dados gerados e armazenados independente das fontes. Como na imagem acima, alguns exemplos de fonte de dados podem ser: Redes sociais, transações, dados de sensores, dados de um ERP, bando de dados, etc.



  • Variedade

Variedade refere-se ao amplo conjunto das fontes e formatos de dados, podendo ser divididos entre: Dados estruturados (banco de dados relacionais) Dados semiestruturados (logs e formatos em CSV, XML e JSON) Dados não estruturados (e-mails, documentos, PDFs)

Dados binários (imagens, áudio ,vídeo)

Dados quânticos (Futuramente, acredito eu, que teremos algo do tipo bits quânticos (qubits) podendo assumir 0 e 1 ao mesmo tempo.



  • Velocidade

É a rapidez em que os dados são gerados e processados. Os dados podem ser coletados:

Em lote (pouca frequência) Muita frequência

Tempo real



  • Veracidade

    É a exatidão e a confiabilidade dos dados.



  • Variabilidade

    Consistência (ou inconsistência) dos dados em termos de qualidade, formato e significado.



  • Valor Utilidade e relevância daquele dado para a empresa.







Maturidade dos dados



Muitos querem a transformação digital em suas empresas, áreas, mas nem todos estão dispostos a mudar a forma de se fazer, de pensar, de armazenar, de tratar, de investir... Investir em profissionais qualificados e pagar por ferramentas que auxiliam os processos e armazenamentos.


Os estágios abaixo descrevem o nível de desenvolvimento e sofisticação que a empresa obteve no quesito gerenciamento, utilização e derivação de valores a partir dos seus dados.

Este modelo retirei de um livro de James Serra e é uma maneira de avaliar e saber se uma empresa esta pronta para fazer análises avançadas, usar inteligência artificial e criar outros desenvolvimentos a partir dos dados.


Estágio 1 Reativo:

Dados da empresa ou área estão espalhados, provavelmente em diversas planilhas do Excel, bancos de dados dekstop. Uma coleção de dados informais e descentralizados , usando planilhas para armazenar, gerenciar e analisar dados, e apresentam inconsistências de dados, falta de governança, escalabilidade limitada e ineficiência (resultam em esforço triplicado)



Estágio 2 Informativo:


As empresas chegam neste segundo estágio de maturidade quando começam a centralizar seus dados. No estágio 2 geralmente a solução criada não é muito escalável. Normalmente o tamanho e os tipos de dados que ela pode manipular são limitados e só é possível inserir dados com baixa frequência (exemplo, todo dia a noite). A maioria das empresas estão neste estágio.



Estágio 3 Preditivo:


Empresas migram para a nuvem e criam um sistema para manipular quantidades maiores de dados, e estes podem ser de diferentes tipos e ingeridos com maior frequência (por hora ou streaming). O processo de tomada de decisões tem machine learning para tomá-las em tempo real.

Exemplo: Quando você esta fazendo compras online e aparecem sugestões de produtos para que você adicione ao carrinho tendo como base suas compras anteriores.




Estágio 4 Transformador:


A empresa criou soluções que podem manipular quaisquer tipo de dados, independente de tamanho, velocidade ou tipo. É fácil integrar novos dados com um tempo de espera curto porque a arquitetura poderá manipulá-los e tem infraestrutura com capacidade para suportá-los.

Essa solução permite que usuários finais, não técnicos, criem facilmente relatórios e dashboards.




bottom of page