A história dos mecanismos e sites de busca é muito recente, se comparada com a história da computação. Tudo começou no ano de 1990, quando o estudante Alan Emtage, da McGill University, criou a primeira ferramenta de busca da história da Internet. Esta ferramenta ficou conhecida como Archie, e foi a responsável pela mudança radical na forma com a qual as pessoas buscavam conteúdo na Internet.
O Archie nada mais era do que uma listagem de diretórios e arquivos que estivessem guardados em sites de uma determinada rede de computadores. Ele não indexava todo o conteúdo do arquivo, apenas mostrava o seu nome. O mecanismo de indexação de todo o arquivo surgiu no ano seguinte, quando Mark McCahill, também estudante em Minnesota, criou o primeiro indexador de conteúdo, batizado de Gopher.
Os pioneiros...
Depois destes dois “famosos” sistemas de busca, a ideia foi amadurecida e diversas outras ferramentas começaram a surgir. O primeiro mecanismo de busca brasileiro foi o Cadê? (lembra dele?), em 1995. No mesmo ano surgia o Alta Vista. Só em 1997 foi que surgiu o gigante Google, o maior serviço de busca da atualidade. A história do Google já foi tema de um artigo do Portal Baixaki. Clique aqui e confira.
Apesar de ter surgido antes, o Yahoo só passou a utilizar seu próprio algoritmo de busca em 2004. Até então, o Google “emprestava” seu mecanismo de busca. O serviço mais recente de buscadores é o Bing, criado pela Microsoft a fim de fazer com que a empresa de Bill Gates também entrasse nesta disputa.
Agora que você já sabe um pouco melhor como os serviços de buscas surgiram, que tal aprender como eles funcionam? Confira todos os passos realizados por um site de pesquisas, desde a indexação do conteúdo até a exibição do resultado na tela do computador de centenas de milhões de pessoas todos os dias.
O funcionamento
Embora os sites de busca funcionem de maneira similar, cada empresa possui um algoritmo de rastreamento e indexação próprio, normalmente selado a sete chaves para evitar ataques de hackers ou mesmo para evitar que a concorrência consiga copiar o algoritmo. Porém, todos os buscadores realizam três atividades básicas:
- Buscar na Internet por palavras chaves em bilhões de sites.
- Criar um índice de termos com as palavras encontradas.
- Exibir o resultado para os usuários de acordo com as palavras pesquisadas presentes neste índice.
Agora é hora de ver como cada um destes passos é executado.
Busca por palavras
Antes que um site, palavra ou arquivo seja mostrado para o usuário, o site de busca precisa saber qual a localização exata deles. Para isto, existem diversos robôs, chamados “spiders” (aranhas) que vasculham a Internet em busca de palavras-chave e links em cada site presente na rede mundial de computadores.
O ponto de partida destas aranhas são os sites e servidores mais acessados e com maior relevância dentre os bilhões de páginas existentes na rede. A partir daí, as aranhas vão acessando os diversos links presentes em cada página, de cada site na web, capturando palavras-chave e a localização delas.
Para você ter uma ideia das proporções, em seu início, o Google contava com três aranhas apenas, cada uma com trezentas conexões com a Internet abertas ao mesmo tempo. Isto rendia, para cada aranha, o rastreamento de pouco mais de cem sites por segundo. Com toda certeza este número cresceu centenas de vezes nos últimos anos, mas estes dados são segredo absoluto da companhia e não são revelados em hipótese alguma.
Esta tarefa de busca por palavras nunca é concluída inteiramente. Já que a Internet exige um giro muito grande de conteúdo, os sites maiores, e mesmo alguns menores, estão constantemente inserindo páginas e novas palavras para serem encontradas e anexadas pelas aranhas.
Criando índices
O segundo passo a ser executado pelos mecanismos de busca é a indexação das palavras e links encontrados pelas aranhas, de acordo com a relevância. Como cada mecanismo de busca trabalha de uma maneira diferente, não há como determinar um padrão exato de palavras e conteúdo relevantes. Aspectos como título, descrição e palavras-chaves são alguns dos itens que você deve levar em consideração, além do uso de meta-tags.
Há uma área inteira de estudo nesta área de relevância e em como fazer o seu site aparecer em melhor posição nos diversos mecanismos de busca existentes no mercado. Para maiores informações a respeito desta interessante “ciência”, confira o artigo “O que é SEO?”, clicando aqui.
Exibindo o resultado
Uma vez que a indexação das palavras e também dos links foi feita, os mecanismos de buscas já são “capazes” de listar aos usuários milhares de links que dizem respeito ao termo pesquisado. Quando este termo é composto por apenas uma palavra, a busca é dita simples, pois “basta” varrer a base de dados do sistema a procura de links que tenham maior relevância para o termo pesquisado.
O “problema” maior está em pesquisas com termos compostos de mais de uma palavra. Isto porque é preciso fazer uma série de computações, que envolvem operações lógicas, para que o resultado seja realmente o de sites que possuam maior relevância no conjunto das palavras, e não em apenas algumas.
A linguagem natural, também é um grande desafio para os serviços de busca. Computadores e seres humanos possuem maneiras bem diferentes de trabalhar. Ao passo que nós, seres humanos, compreendemos facilmente palavras e expressões, como gírias e regionalismos, o computadores trabalham única e exclusivamente com números.
Em resumo, o funcionamento de um mecanismo de busca é assim:
Nem sempre a culpa é deles
Por todas as razões apresentadas acima, e muitas outras, manter um servidor de pesquisa exige uma equipe muito bem preparada e constantes atualizações e estudos na área, pois além da grande quantidade de palavras e expressões novas que surgem todos os dias, os usuários são cada vez mais exigentes no que diz respeito à velocidade de resposta dos mecanismos de busca. Para tornar um sistema alguns segundos mais rápido às vezes um investimento muito grande é exigindo.
É comum encontrar usuários insatisfeitos com os sistemas de busca atuais. O que muitas vezes acontece é que as palavras utilizadas na pesquisa não são consideradas relevantes para o mecanismo de busca. Os usuários “brigam” com os serviços quando, na verdade, a culpa de o resultado obtido não ter sido o esperado é deles mesmos.
Para dar uma ajudinha nesta questão de como pesquisar, não deixe de conferir o vídeo abaixo. Ele mostra de maneira bem simples técnicas para se realizar pesquisas na Internet de maneira a obter o resultado esperado.
E vocês, usuários, conheciam todo o processo realizado para garantir que sua pesquisa resulte nos melhores resultados possíveis e da maneira mais rápida? Acredito que muitas pessoas passarão a olhar os sites de busca com outros olhos, afinal o trabalho é enorme, e tudo isto para conseguir agradar à maioria dos usuários! Não deixe de participar, comentando e dando sua opinião sobre este interessante assunto!