Skip to main content
Piloterr

Qu'est-ce qu'Apache Nutch ?

Apache Nutch

Apache Nutch est un produit open source sous licence de la Apache Software Foundation. Cette communauté de développeurs dispose de divers outils logiciels Apache capables de trier et d'analyser des données. Apache Hadoop, un outil d'analyse big data très apprécié dans le monde de l'entreprise, fait partie des technologies clés. Nutch collecte et stocke des données web via des techniques de crawling, aux côtés d'outils comme Apache Hadoop et de fonctionnalités de sauvegarde, d'analyse, etc. Les utilisateurs peuvent exploiter les commandes simples d'Apache Nutch pour collecter des données à partir d'URL. Ils associent généralement Apache Nutch à Apache Solr, un framework open source qui peut servir de dépôt pour les données collectées avec Apache Nutch.