A Google, atualmente uma das mais poderosas empresas da internet, anunciou hoje a conclusão do novo sistema de indexação para seu site de busca. Batizado de Caffeine, o sistema tem como prioridade tornar a indexação de sites até 50% mais rápida do que a versão atual.
Isso significa que, se antes um site novo levava cerca de 15 dias para ser indexado no Google, com o Caffeine esse tempo seria reduzido para 7 dias. As novas páginas criadas em grandes sites e portais de conteúdo levavam pouco mais de 5 minutos para serem adicionadas ao sistema de busca do Google. Agora podem ser indexadas em menos de 3 minutos.
Pode não parecer grande coisa para os usuários, mas para os sites que recebem milhares de pageviews por minuto, isso pode fazer toda a diferença! Além de maior popularidade, esses 2,5 minutos a menos podem fazer com que o cofrinho das empresas fique mais cheio.
Contextualizando
Você sabe como funciona o sistema de busca de um site como o Google? Se a sua resposta foi não, é melhor ler o artigo “Descubra os segredos e todo o processo realizado para o funcionamento dos mecanismos de busca”. Assim você pode adquirir as informações necessárias para entender melhor o que foi mudado e quão melhor o Caffeine demonstra ser.
Por que mudar?
A internet cresce de maneira assustadora, e não é apenas em quantidade de conteúdo. A cada segundo, terabytes de novos dados são adicionados em sites e serviços por todo o mundo, com uma variedade de formato inacreditável. Vídeos, imagens, gifs animados, gráficos, músicas e textos são apenas alguns exemplos dos formatos de conteúdo inseridos.
Para administrar esses dados dinâmicos, as páginas web tornaram-se mais complexas, dificultando o processo de indexação, uma vez que é possível ter vários vídeos em uma única página, mas nenhum texto. Como fazer com que as aranhas do Google identifiquem o conteúdo ali disponível e façam a indexação corretamente? Com um novo sistema, como o Caffeine.
Outro motivo dado pelo Google para a troca do sistema de indexação é o fato de os usuários estarem cada vez mais exigentes. A expectativa das pessoas ao utilizar um site de busca é cada vez maior, pois desejam encontrar o último conteúdo relevante no exato momento em que foi inserido. Elas também esperam um número de resultados ainda maior em um intervalo de tempo muito menor.
Velho x Novo
O antigo sistema de indexação do Google funcionava baseado em camadas. Isso quer dizer que alguns sites eram “visitados” pelas aranhas do Google antes do que os demais, tendo suas páginas indexadas mais rapidamente. Para atualizar uma dessas camadas no sistema antigo, era preciso fazer uma varredura completa em toda a internet.
Além de esse processo ser bastante custoso, "computacionalmente" falando, causa um delay bem grande entre quando a página foi inserida no site e quando ela estava disponível para o usuário através das buscas do Google.
Fonte: The Official Google Blog
O Caffeine trabalha de maneira diferente e deixa de lado a arquitetura em camadas. Ele consegue processar centenas de milhares de páginas em paralelo por segundo. O novo sistema do Google adiciona milhares de gigabytes de informações por dia. Para você ter uma ideia, seriam necessários cerca de 625 mil HDs de 160 GB para armazenar os dados indexados diariamente pelo Caffeine.
Tudo isso só foi possível devido ao processamento paralelo de informações, pois assim o Caffeine varre centenas de pequenas porções da internet ao mesmo tempo. Além de ser mecanicamente mais barato, o processo de indexação de bem mais rápido.
A Google está sempre inovando e procurando maneiras de agradar cada vez mais seus usuários. Além de criar serviços novos, as melhorias nas aplicações oferecidas são constantes. E você, usuário, o que achou do Caffeine? Não deixe de participar, enviando comentários e dando a sua opinião.