Saltar al contenido principal
Piloterr

¿Qué es Apache Nutch?

Apache Nutch

La Apache Software Foundation ha otorgado una licencia a Apache Nutch, un producto de código abierto. Esta comunidad de desarrolladores tiene acceso a una variedad de herramientas de software Apache capaces de ordenar y analizar datos. Apache Hadoop, una herramienta de análisis de big data muy popular en el sector empresarial, es una de las tecnologías clave. La tarea de Nutch es recopilar y almacenar datos de la web utilizando técnicas de web crawling, junto con herramientas como Apache Hadoop y funciones para guardar archivos, análisis y más. Los usuarios pueden utilizar las instrucciones sencillas de Apache Nutch para recopilar datos de URLs. Generalmente, los usuarios combinan Apache Nutch con Apache Solr, un framework de código abierto que puede servir como repositorio para los datos recopilados con Apache Nutch.

Términos relacionados