Saltar al contenido principal
Piloterr

¿Qué es Crawler4j?

Crawler4j

Crawler4j es un crawler web de código abierto para Java que ofrece una interfaz sencilla para el web crawling. Permite configurar rápidamente un crawler web multihilo. Debe escribirse una clase crawler que extienda WebCrawler. Esta clase gestiona la página descargada y decide qué URLs deben ser rastreadas. La función shouldVisit determina si se debe o no rastrear la URL especificada.