Web Crawler

O que é?

É um programa utilizado como rastreador da rede, que navega pela internet de uma forma metódica e automatizada. Ou melhor, os rastreadores de rede são indexadores automáticos, robôs, aranhas da rede, robô da rede ou escutador da rede e são capazes de extrair informações/conteúdo.

Para que serve?

Web Crawling é o ato de baixar automaticamente os dados de uma página web, criando uma cópia de todas as páginas visitadas para um pós-processamento por um motor de pesquisa que irá indexar as páginas baixadas para prover pesquisas mais rápidas. Por isso, Web Crawlers são basicamente utilizados pelos principais sites de busca: Googlebot, Msnbot, Yahoo! Slurp

Também podem ser utilizados para as tarefas de manutenção automatizadas em um sítio da rede, extrair os hiperlinks contidos nela e segui-los com o objetivo de verificar as ligações ou validar o código HTML. E podem ser usados para obter tipos específicos de informações das páginas da rede, como minerar endereços de correio eletrónico (spam).

Curiosidades:

A Google tentou patentear esta ferramenta em 1998 sem sucesso.

O GoogleBot original, que era muito bom para sua época, conseguia se replicar em 4 cópias e percorrer 100 páginas por segundo, catalogando 600kb de dados por segundo em sua base de dados.

Como evitar ser encontrado?

“Os crawlers do buscadores geralmente procuram informações sobre permissões sobre o conteúdo. Existem formas de bloquear um crawler decente de indexar uma determinada página (e os links nela contidos). A primeira forma, e mais comum, é através do arquivo robots.txt. A outra forma é através da tag meta robots, com valor “noindex” ou “nofollow”, usados para não indexar (a própria página) e não seguir (os links contidos na página), respectivamente. Há também uma terceira possibilidade, muito menos explorada, que é o uso do atributo rel=”nofollow” em links, indicando ao crawler que aquele link em especial não deve ser seguido.” [1]

Faça você mesmo um web crawling:

com Html Agility Pack;
com Selenium web driver em PHP;
com Java;
com Python.
dicas: Como criar um mecanismo de busca.

Referências:

[1] POZZEBOM, Rafaela. Qual a diferença entre robô, spider e crawler. Disponível em: <https://www.oficinadanet.com.br/artigo/otimizacao__seo/qual-a-diferenca-entre-robo-spider-e-crawler>. Acesso em: 05/10/2019.
Rastreador web. Disponível em: <https://pt.wikipedia.org/wiki/Rastreador_web>. Acesso em: 05/10/2019.
Web Scraping e Web Crawling são Legais ou Ilegais? Disponível em: <http://datascienceacademy.com.br/blog/web-scraping-e-web-crawling-sao-legais-ou-ilegais/>. Acesso em: 05/10/2019.