Crawler4j es un crawler web de código abierto para Java que ofrece una interfaz sencilla para el web crawling. Permite configurar rápidamente un crawler web multihilo. Debe escribirse una clase crawler que extienda WebCrawler. Esta clase gestiona la página descargada y decide qué URLs deben ser rastreadas. La función shouldVisit determina si se debe o no rastrear la URL especificada.
¿Qué es Crawler4j?