Apache Hadoop 3.x

Esperando a que se libere la versión alpha-2 de Apache Hadoop 3.x me ha parecido interesante experimentar con la primera “alfa” de la release 3.x..

La release 3.x de Apache Hadoop trae funcionalidades muy interesantes, como por ejemplo:

  • Soporte para Erasure Coding (Reed-Solomon y XOR) lo que mejora sustancialmente el overhead de capacidad del factor de replicación en HDFS (un 300% con un factor de replicación de 3, que es lo que se suele utilizar por defecto, frente a un 140% del Reed-Solomon), aunque se sacrifica el rendimiento en situación de fallo de un nodo debido a las lecturas remotas que hay que hacer para reconstruir y el coste de CPU de la recomputación. Una buena opción para aquellos datos de mi DataLake mas “fríos” o que se accedan de manera menos frecuente.
  • Optimizaciones en MapReduce que mejoran sustancialmente el rendimiento en jobs con mucha componente de operativa de shuffle.
  • Si ya la release 2.x incorporaba HA transparente para el NameNode, ahora la release 3.x añade soporte para mas de dos NameNodes, lo que permite mejorar sustancialmente la escalabilidad y disponibilidad del namespace.
  • Integración con MSFT Azure Data Lake filesystem mediante un conector específico (el mineralismo va a llegar, como dice Fernando Arrabal).
  • Un mecanismo de balanceo de datos entre los distintos discos que pueda tener el DataNode, algo que hasta ahora no era posible y que provocaba situaciones de descompensación de bloques almacenados en los discos de un DataNode cuando uno de estos había fallado y se había sustituido.
  • Ya no es necesario especificar el tamaño del heap de las tareas de Map y de Reduce y el sistema hace auto-tuning basándose en la cantidad de RAM del nodo.

Un par de Raspberry PI’s son una buena manera de zambullirse en los frameworks de procesamiento en paralelo y aprender algo con un escaso presupuesto.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s