A Apache Software Foundation licenciou o Apache Nutch, um produto de código aberto. Esta comunidade de desenvolvedores tem acesso a uma variedade de ferramentas de software Apache capazes de classificar e analisar dados. O Apache Hadoop, uma ferramenta de análise de big data muito popular no setor corporativo, é uma das principais tecnologias. A função do Nutch é coletar e armazenar dados da web usando técnicas de web crawling, juntamente com ferramentas como o Apache Hadoop e recursos para salvar arquivos, análise e muito mais. Os usuários podem usar as instruções simples do Apache Nutch para coletar dados de URLs. Os usuários geralmente combinam o Apache Nutch com o Apache Solr, um framework de código aberto que pode servir como repositório para os dados coletados usando o Apache Nutch.
O que é Apache Nutch?