viernes, enero 11, 2008

Más sobre MapReduce

viernes, enero 11, 2008 por Martín

Dándole un repaso a los blogs de escalabilidad que hay en inglés parece que estos días le han estado dando una vuelta de tuerca más al tema de MapReduce. Todo se debe a la publicación en ACM Computing de una nueva versión del artículo sobre MapReduce publicado en el 2004 por Jeffrey Dean y Sanjay Ghemawat. El artículo es de pago pero hay quien lo publica en su blog.

El artículo es muy similar a la versión original. Prácticamente un clon pero mejor formateado y más legible. A mayores incluye nuevas estadísticas sobre el uso de MapReduce en Google durante estos últimos años, que es lo realmente interesante si ya habíais leido el artículo original.



Según se puede leer en el artículo la primera versión estable de MapReduce se publicó en Febrero del 2003 aunque fue ampliamente mejorada en Agosto también del 2003. A día de hoy los autores comentan que se han implementado unos 10.000 programas distintos (aunque en las estadísticas sólo dan unos 6000 sumando implementaciones de map y reduce). Se ejecutan unos 100.000 trabajos de media utilizando este framework que procesan unos 20 petabytes al día. Muy impresionante, desde luego.

Entre las aplicaciones que usan MapReduce, están las que ya comentaron en su momento: problemas de machine learning, froogle y Google News, Google zeitgeist, y alguna otra. Han añadido a mayores Google Trends, el procesado de imágenes por satélite (asumo Google Earth y Google Maps), y el procesado de modelos de lenguaje para traducción (Google Translator?).

Lo más jugoso es la tabla resumen que muestran en el artículo:



Si queréis ampliar conocimientos sobre MapReduce y toda la infraestructura de computación de Google, probablemente el mejor recurso es el curso sobre sistemas distribuidos que se puede encontrar en Google Code, donde hay mucho material interesante.

También puede que sea interesante (no lo he visto) el video sobre MapReduce en sistemas multicore que publicaron en Febrero del año pasado y del que también está disponible la publicación original.

comments

0 Respuestas a "Más sobre MapReduce"