Big Data: uma grande bola maciça de informações

11/01/2013 às 19:46

1 min de leitura

(Fonte da imagem: Reprodução/Shutterstock)

Diariamente, o mundo produz assustadores 2,5 quintilhões de bytes em dados que se acumulam na internet. E esse crescimento simplesmente não para. Afinal, 90% de todo o conteúdo que temos armazenado hoje foi produzido apenas nos dois últimos anos. Então, eis que surge o termo Big Data para referenciar esse gigantesco volume de informações. O pior é o problema que isso traz: como processar eficientemente todo esse conteúdo?

Os quatro V’s

Volume, velocidade, variedade e veracidade: essas são as quatro dimensões que giram em torno do Big Data. Naturalmente, volume se refere à imensidão de conteúdo que aparece na internet diariamente.

Velocidade é um termo importante quanto se trata da web. Afinal, tudo deve ser muito rápido, pois três minutos podem ser uma eternidade em alguns casos. Agora, como ser ágil com uma grande quantidade de informações?

(Fonte da imagem: Reprodução/Shutterstock)

Existem dados dos mais diferentes tipos, como áudio, vídeo, imagem, texto, logs e muitos outros. Sendo assim, também é um desafio analisar toda essa variedade, além da quantidade.

Por fim, como atribuir veracidade ao que é acumulado diariamente no Big Data? Portanto, também é uma grande tarefa ter confiança nas informações com o número de fontes crescendo mais e mais a cada dia.

Armazenar é fácil, mas processar...

Nos últimos anos, a capacidade para guardar e salvar dados se tornou algo relativamente simples e barato. Ou seja, montanhas e montanhas de informação foram acumuladas em dispositivos de armazenamento.

O tamanho é tão grande que, agora, a medida utilizada para determinar o volume de dados se chama zettabyte. Esse nome esquisito representa nada menos que 1.000.000.000.000.000.000.000 bytes. Isso mesmo, 10²¹ bytes, em um número mais reduzido visualmente.

(Fonte da imagem: Reprodução/Shutterstock)

O problema nisso tudo é que os métodos de processamento não evoluíram com a mesma velocidade, e está difícil acompanhar o acúmulo de informações. Como ainda é visto como um problema sem solução, existem algumas máquinas gigantescas, como a Apache Hadoop Big Data Platform, que trabalham constantemente para conseguir processar essa infinidade de conteúdo, mas apenas isso.