Uma super “máquina” chamada Google

A internet se popularizou tanto nos últimos anos que o número de sites ativos ultrapassa a marca de um bilhão. A quantidade de informação é tão grande e diversificada que é praticamente impossível encontrar uma informação útil e específica sem a ajuda de uma ferramenta de busca. Essas ferramentas são especializadas em vasculhar a internet, procurando por de sites que contenham uma determinada palavra-chave fornecida pelo usuário. Por citar aqui, por exemplo, o Altavista, Yahoo e o MSN, entretanto, nenhuma delas é mais popular e eficiente (em minha opinião) que o Google.

O objetivo deste artigo é apresentar resumidamente como surgiu e como foram os primeiros passos da ferramenta de busca Google. O artigo também apresenta de forma simplificada, até onde é de conhecimento público, a fórmula “mágica” do sistema de busca e como esta fórmula transformou o Google em uma das maiores empresa de Internet do mundo.

O início do Google

O Google é uma poderosa ferramenta de busca mundialmente reconhecida por diversos fatores, porém ele teve que percorrer um longo caminho até chegar ao status que é hoje. Tudo começou em 1998 com Sergey Brin e Larry Page, estudantes de PhD da Universidade de Stanford, Califórnia (EUA). Eles tinham como objetivo desenvolver uma ferramenta que fosse rápida na procura de informação na internet, porém, que não prejudicasse a qualidade da informação.

Os equipamentos utilizados pelos estudantes eram da Universidade e obviamente que eram bem modestos. O equipamento consistia em:

  • Dois servidores Dual Pentium II de 300 Mhz com 512 MB de memória;
  • Um computador F50 IBM RS600 de 4 processadores com 512 MB de memória;
  • Um computador Sun Ultra II de 2 processadores com 256 MB de memória;
  • Vários discos rígidos, variando de 4GB a 9GB, totalizando mais de 350GB.

Quase todas as ferramentas de busca baseiam-se em um mesmo princípio: programas automatizados chamados crawler ou spider, que percorrem a web saltando de link em link à procura do termo fornecido pelo usuário. A cada página visitada, o crawler faz uma leitura de todo o conteúdo, categoriza a página e cria uma lista de palavra-chave. Isto acontece com todos os sites possíveis de encontrar, tornando o sistema cada vez mais abrangente.

PageRank – O diferencial

O que diferencia o Google dos seus correntes é a forma como ele exibe o resultado da busca aos seus usuários, determinando quais os links aparecerão no topo da lista. O algoritmos utilizado para realizar tal tarefa é registrado com o nome PageRank, que atribui a cada página visitada um pontuação de acordo com algumas especificações, que inclui uma equação com mais de 500 milhões de variáveis.

Quanto maior for a pontuação dada pelo PageRank, mais alta será a posição da página no resultado da busca, essa classificação assegura que os resultados mais importantes sempre apareçam primeiro, dentre os fatores mais significativos para a pontuação, podemos citar:

1 – A freqüência e a localização das palavras. Se o termo da busca aparece apenas uma vez no corpo do texto, está página receberá uma pontuação baixa, porém se for o contrário, o termo aparecer várias vezes ou no título do texto, esta página receberá uma pontuação alta.

2 – Há quanto tempo a página está no ar. Todos os dias centenas de novas páginas surgem na internet, porém nem todas permanecem no ar por muito tempo. Observa-se que páginas com longa data possuem maior qualidader, então o PageRank pontua essas páginas com maiores notas.

3 – A quantidade de outras páginas que possuem link direcionado para a página em questão. A justificativa para este método é que se várias páginas apontam para uma mesma página, esta última provavelmente possuirá conteúdo de qualidade, por que várias outras páginas a indicam.

4 – Popularidade. Nem todas as notas têm o mesmo valor, páginas populares tendem a ganhar notas maiores do que páginas de baixa popularidade.

5 – Quanto mais links uma página oferece, mais diluída será sua pontuação. Conter centenas de links acarretará uma menor pontuação e consequentemente uma menor classificação no resultado da busca.

O Google de hoje

Para manter-se competitivo no mercado, o Google não revela os detalhes do seu algoritmo PageRank e nem revela o número de exato de seus equipamentos, porém, estima-se  que o número de servidores Google ultrapasse o número de 1 milhão de máquinas espalhadas pelo mundo.

Logo Google

A estratégia do Google é usar um grande número de máquinas relativamente baratas rodando em sistema operacional baseado em Linux. Porque todas as informações do Google estão em vários grupos de servidores e cada grupo possui uma cópia dos dados e é mantido por uma faixa de energia diferente. Dessa forma os serviços Google estarão disponíveis mesmo que ocorra algum problema com um grupo de servidores.

Um computador principal gerencia cada grupo de servidores, sua função é manter o controle dos servidores que armazenam um grupo de informação, no caso de uma falha, o computador principal redireciona todo o tráfego para os outros servidores.

O Google atualiza sua base de informações diariamente. Existe o crawler Googlebot, um “robô” do Google que busca por informações novas em todos os endereços possíveis em toda a internet. Isso é realmente interessante porque em cerca de aproximadamente quatro dias depois de uma matéria ser publicada em um site, já é possível encontra-la no Google (fonte: GOOGLE, 2008).

Estabelecido com uma das forças mais dominantes da Internet, o Google detêm nada menos que 65% do mercado de busca (fonte: HITWISE, 2007), atualmente ele atende a mais de 100 milhões de consultas por dia em todo o mundo, acessando mais de 1,3 bilhão de sites, oferecendo resultados relevantes normalmente em menos de meio segundo.

Para dar conta de tamanha demanda de serviços, a empresa conta com mais de 10 mil colaboradores espalhados pelo mundo, um patrimônio que só não é maior (em números) que os mais de 312 milhões de ações que circulam no mercado desde janeiro de 2008 (fonte: GOOGLE, 2008).

Conclusão

O Sucesso do Google deve-se obviamente a seus criadores, mas estende-se também a seus colaboradores que trabalham em busca de qualidade e inovação. Essas características podem ser observadas em todos os serviços oferecidos pelo Google – interfaces simples, minimizadas e ambiente personalizado. A combinação única (softwares avançados e estrutura de hardwares bem construída) faz do Google a melhor opção de busca na Internet.

Referências

U. HOELZLE; J. DEAN; L. BARROSO. Web Search for A Planet: The Architcture of Google Cluster. Em IEEE Micro Magazine, Abril 2003

COMO FUNCIONA O GOOGLE, Como tudo funciona Disponível em: http://informatica.hsw.uol.com.br/google1.htm

PERFIL DA EMPRESA, Tudo sobre o Google. Disponível em: http://www.google.com.br/intl/pt-BR/profile.html