Web Crawler

O que é?

É um programa utilizado como rastreador da rede, que navega pela internet de uma forma metódica e automatizada. Ou melhor, os rastreadores de rede são indexadores automáticos, robôs, aranhas da rede, robô da rede ou escutador da rede e são capazes de extrair informações/conteúdo.

Para que serve?

Web Crawling é o ato de baixar automaticamente os dados de uma página web, criando uma cópia de todas as páginas visitadas para um pós-processamento por um motor de pesquisa que irá indexar as páginas baixadas para prover pesquisas mais rápidas. Por isso, Web Crawlers são basicamente utilizados pelos principais sites de busca: Googlebot, Msnbot, Yahoo! Slurp

Também podem ser utilizados para as tarefas de manutenção automatizadas em um sítio da rede, extrair os hiperlinks contidos nela e segui-los com o objetivo de verificar as ligações ou validar o código HTML. E podem ser usados para obter tipos específicos de informações das páginas da rede, como minerar endereços de correio eletrónico (spam).

Curiosidades:

A Google tentou patentear esta ferramenta em 1998 sem sucesso.

O GoogleBot original, que era muito bom para sua época, conseguia se replicar em 4 cópias e percorrer 100 páginas por segundo, catalogando 600kb de dados por segundo em sua base de dados.

Como evitar ser encontrado?

“Os crawlers do buscadores geralmente procuram informações sobre permissões sobre o conteúdo. Existem formas de bloquear um crawler decente de indexar uma determinada página (e os links nela contidos). A primeira forma, e mais comum, é através do arquivo robots.txt. A outra forma é através da tag meta robots, com valor “noindex” ou “nofollow”, usados para não indexar (a própria página) e não seguir (os links contidos na página), respectivamente. Há também uma terceira possibilidade, muito menos explorada, que é o uso do atributo rel=”nofollow” em links, indicando ao crawler que aquele link em especial não deve ser seguido.” [1]

Faça você mesmo um web crawling:

Referências:

Deixe um comentário

Crie um site como este com o WordPress.com
Comece agora