Zum Hauptinhalt springen
Piloterr

Was ist Crawler4j?

Crawler4j

Crawler4j ist ein Open-Source-Webcrawler für Java, der eine einfache Benutzeroberfläche für das Web-Crawling bietet. Er ermöglicht es Ihnen, schnell einen mehrthreadigen Webcrawler einzurichten. Sie müssen eine Crawler-Klasse schreiben, die WebCrawler erweitert. Diese Klasse verwaltet die heruntergeladene Seite und entscheidet, welche URLs gecrawlt werden sollen. Die Funktion shouldVisit bestimmt, ob die angegebene URL gecrawlt werden soll oder nicht.