Apache Hadoop es una plataforma de software basada en Java de código abierto que gestiona el procesamiento y almacenamiento de datos para aplicaciones de big data. La plataforma funciona descomponiendo las enormes tareas de datos y análisis de Hadoop en cargas de trabajo manejables y paralelas, que luego se distribuyen entre los nodos de un clúster de computación. La escalabilidad, la resiliencia y la adaptabilidad son algunas de las principales ventajas de Hadoop. Para protegerse contra fallos de hardware o software, el Hadoop Distributed File System (HDFS) replica cualquier nodo del clúster en los demás nodos del clúster, proporcionando confiabilidad y resiliencia. Hadoop ofrece versatilidad, ya que puede almacenar cualquier tipo de formato de datos, incluyendo datos estructurados y no estructurados.
¿Qué es Apache Hadoop?