Zum Hauptinhalt springen
Piloterr

Was ist Apache Nutch?

Apache Nutch

Die Apache Software Foundation hat Apache Nutch, ein Open-Source-Produkt, lizenziert. Diese Entwickler-Community hat Zugang zu einer Vielzahl von Apache-Softwaretools, die Daten sortieren und analysieren können. Eine der Schlüsseltechnologien ist Apache Hadoop, ein weit verbreitetes Big-Data-Analysetool in der Unternehmensbranche. Die Aufgabe von Nutch besteht darin, mithilfe von Web-Crawling-Techniken Daten aus dem Web zu sammeln und zu speichern, zusammen mit Tools wie Apache Hadoop und Funktionen zum Speichern, Analysieren und mehr. Benutzer können mit den einfachen Anweisungen von Apache Nutch Daten von URLs sammeln. In der Regel kombinieren Benutzer Apache Nutch mit Apache Solr, einem Open-Source-Framework, das als Repository für die mit Apache Nutch gesammelten Daten dienen kann.

Verwandte Begriffe