O que é?
É um programa utilizado como rastreador da rede, que navega pela internet de uma forma metódica e automatizada. Ou melhor, os rastreadores de rede são indexadores automáticos, robôs, aranhas da rede, robô da rede ou escutador da rede e são capazes de extrair informações/conteúdo.
Para que serve?
Web Crawling é o ato de baixar automaticamente os dados de uma página web, criando uma cópia de todas as páginas visitadas para um pós-processamento por um motor de pesquisa que irá indexar as páginas baixadas para prover pesquisas mais rápidas. Por isso, Web Crawlers são basicamente utilizados pelos principais sites de busca: Googlebot, Msnbot, Yahoo! Slurp
Também podem ser utilizados para as tarefas de manutenção automatizadas em um sítio da rede, extrair os hiperlinks contidos nela e segui-los com o objetivo de verificar as ligações ou validar o código HTML. E podem ser usados para obter tipos específicos de informações das páginas da rede, como minerar endereços de correio eletrónico (spam).
Curiosidades:
A Google tentou patentear esta ferramenta em 1998 sem sucesso.
O GoogleBot original, que era muito bom para sua época, conseguia se replicar em 4 cópias e percorrer 100 páginas por segundo, catalogando 600kb de dados por segundo em sua base de dados.
Como evitar ser encontrado?
“Os crawlers do buscadores geralmente procuram informações sobre permissões sobre o conteúdo. Existem formas de bloquear um crawler decente de indexar uma determinada página (e os links nela contidos). A primeira forma, e mais comum, é através do arquivo robots.txt. A outra forma é através da tag meta robots, com valor “noindex” ou “nofollow”, usados para não indexar (a própria página) e não seguir (os links contidos na página), respectivamente. Há também uma terceira possibilidade, muito menos explorada, que é o uso do atributo rel=”nofollow” em links, indicando ao crawler que aquele link em especial não deve ser seguido.” [1]
Faça você mesmo um web crawling:
- com Html Agility Pack;
- com Selenium web driver em PHP;
- com Java;
- com Python.
- dicas: Como criar um mecanismo de busca.
Referências:
- [1] POZZEBOM, Rafaela. Qual a diferença entre robô, spider e crawler. Disponível em: <https://www.oficinadanet.com.br/artigo/otimizacao__seo/qual-a-diferenca-entre-robo-spider-e-crawler>. Acesso em: 05/10/2019.
- Rastreador web. Disponível em: <https://pt.wikipedia.org/wiki/Rastreador_web>. Acesso em: 05/10/2019.
- Web Scraping e Web Crawling são Legais ou Ilegais? Disponível em: <http://datascienceacademy.com.br/blog/web-scraping-e-web-crawling-sao-legais-ou-ilegais/>. Acesso em: 05/10/2019.