BIG DATA

Big data é um termo que descreve o grande volume de dados — tanto estruturados quanto não-estruturados — que sobrecarrega as empresas diariamente. Mas não é a quantidade de dados disponíveis que importa; é o que as organizações fazem com eles. O big data pode ser analisado para obter insights que levam a decisões melhores e ações estratégicas de negócio.

História do big data e considerações atuais

Embora o termo “big data” seja relativamente novo, o ato de coletar e armazenar grandes quantidades de informações para análises eventuais é muito antigo. O conceito ganhou força no começo dos anos 2000, quando o analista Doug Laney articulou a definição atualmente mainstream de big data em três Vs:

Volume. Organizações coletam dados de fontes variadas, incluindo transações financeiras, mídias sociais e informações de sensores ou dados transmitidos de máquina para máquina. No passado, armazená-los teria sido um problema — mas novas tecnologias (como o Hadoop) aliviaram esse fardo.

Velocidade. Os dados são transmitidos numa velocidade sem precedentes e devem ser tratados em tempo hábil. Etiquetas RFID, sensores e medições inteligentes estão impulsionando a necessidade de lidar com torrentes de dados praticamente em tempo real.

Variedade. Dados são gerados em inúmeros formatos — desde estruturados (numéricos, em databases tradicionais) a não-estruturados (documentos de texto, e-mail, vídeo, áudio, cotações da bolsa e transações financeiras).

No SAS, consideramos duas dimensões adicionais ao falar de big data:

Variabilidade. Além das crescentes velocidade e variedade dos dados, seus fluxos podem ser altamente inconsistentes com picos periódicos. Qual a última tendência nas redes sociais? Todos os dias, picos de dados sazonais ou gerados por eventos particulares podem ser difíceis de gerenciar, ainda mais com dados não-estruturados.

Complexidade. Os dados de hoje vêm de múltiplas fontes, o que torna difícil ligá-los, combiná-los, limpá-los e transformá-los entre sistemas. No entanto, é necessário conectar e correlacionar relações, hierarquias e ligações múltiplas, ou você pode rapidamente perder o controle sobre seus dados.