Big data é a inclusão de todos os dados, dados internos e externos, de quaisquer formato.
Seis Vs do big data
Volume
Refere-se a quantidade total de dados gerados e armazenados independente das fontes. Como na imagem acima, alguns exemplos de fonte de dados podem ser: Redes sociais, transações, dados de sensores, dados de um ERP, bando de dados, etc.
Variedade
Variedade refere-se ao amplo conjunto das fontes e formatos de dados, podendo ser divididos entre: Dados estruturados (banco de dados relacionais) Dados semiestruturados (logs e formatos em CSV, XML e JSON) Dados não estruturados (e-mails, documentos, PDFs)
Dados binários (imagens, áudio ,vídeo)
Dados quânticos (Futuramente, acredito eu, que teremos algo do tipo bits quânticos (qubits) podendo assumir 0 e 1 ao mesmo tempo.
Velocidade
É a rapidez em que os dados são gerados e processados. Os dados podem ser coletados:
Em lote (pouca frequência) Muita frequência
Tempo real
Veracidade
É a exatidão e a confiabilidade dos dados.
Variabilidade
Consistência (ou inconsistência) dos dados em termos de qualidade, formato e significado.
Valor Utilidade e relevância daquele dado para a empresa.
Maturidade dos dados
Muitos querem a transformação digital em suas empresas, áreas, mas nem todos estão dispostos a mudar a forma de se fazer, de pensar, de armazenar, de tratar, de investir... Investir em profissionais qualificados e pagar por ferramentas que auxiliam os processos e armazenamentos.
Os estágios abaixo descrevem o nível de desenvolvimento e sofisticação que a empresa obteve no quesito gerenciamento, utilização e derivação de valores a partir dos seus dados.
Este modelo retirei de um livro de James Serra e é uma maneira de avaliar e saber se uma empresa esta pronta para fazer análises avançadas, usar inteligência artificial e criar outros desenvolvimentos a partir dos dados.
Estágio 1 Reativo:
Dados da empresa ou área estão espalhados, provavelmente em diversas planilhas do Excel, bancos de dados dekstop. Uma coleção de dados informais e descentralizados , usando planilhas para armazenar, gerenciar e analisar dados, e apresentam inconsistências de dados, falta de governança, escalabilidade limitada e ineficiência (resultam em esforço triplicado)
Estágio 2 Informativo:
As empresas chegam neste segundo estágio de maturidade quando começam a centralizar seus dados. No estágio 2 geralmente a solução criada não é muito escalável. Normalmente o tamanho e os tipos de dados que ela pode manipular são limitados e só é possível inserir dados com baixa frequência (exemplo, todo dia a noite). A maioria das empresas estão neste estágio.
Estágio 3 Preditivo:
Empresas migram para a nuvem e criam um sistema para manipular quantidades maiores de dados, e estes podem ser de diferentes tipos e ingeridos com maior frequência (por hora ou streaming). O processo de tomada de decisões tem machine learning para tomá-las em tempo real.
Exemplo: Quando você esta fazendo compras online e aparecem sugestões de produtos para que você adicione ao carrinho tendo como base suas compras anteriores.
Estágio 4 Transformador:
A empresa criou soluções que podem manipular quaisquer tipo de dados, independente de tamanho, velocidade ou tipo. É fácil integrar novos dados com um tempo de espera curto porque a arquitetura poderá manipulá-los e tem infraestrutura com capacidade para suportá-los.
Essa solução permite que usuários finais, não técnicos, criem facilmente relatórios e dashboards.