Ir para o conteúdo principal
Piloterr

O que é Crawler4j?

Crawler4j

Um web crawler de código aberto para Java que oferece uma interface simples para web crawling é chamado de crawler4j. Ele permite que você configure rapidamente um web crawler multi-threaded. Uma classe de crawler que estende WebCrawler deve ser escrita. Esta classe gerencia a página baixada e decide quais URLs devem ser rastreados. A função shouldVisit determina se o URL especificado deve ou não ser rastreado.