Skip to main content
Piloterr

Qu'est-ce que Crawler4j ?

Crawler4j

Crawler4j est un crawler web open source pour Java qui offre une interface simple pour le web crawling. Il permet de configurer rapidement un crawler web multithread. Vous devez écrire une classe crawler qui étend WebCrawler. Cette classe gère la page téléchargée et choisit quelles URL explorer. La fonction shouldVisit détermine si l'URL spécifiée doit être crawlée ou non.