Ensalada de “Big Data”

Si ya lleva siendo difícil en los últimos años asentar y separar conceptos, desde que todo cabe en el saco del “big data” la tarea se ha vuelto aún más complicada.

La presión de los fabricantes para convertir herramientas de visualización y “reporting” en suites de análisis y sistemas de business intelligence, ha desplazado a aplicaciones de análisis estadísticas mucho más complejas y devolviéndolas al entorno académico:

ibm-spss-statistics-43 (IBM SPSS)

minitab

(MiniTab)

Me refiero en este caso a herramientas como Tableau, QlikView o Micorsoft Power BI, frente a IBM SPSS o MiniTab.

1-tableau-drag-and-drop-analysis

(Tableau)

qlik

(QlickView)

powerbi

(Microsoft Power BI)

La figura del “científico de datos”, estadístico de toda la vida que ahora sale del mundo de los seguros para convertirse en la mano derecha de los directivos ha puesto de moda lenguajes tradicionales como R o Python y recientemente Scala, dónde se empieza a desdibujar la frontera entre el análisis de datos y la infraestructura.

r pythonscala

En esta última parte es dónde de verdad ha dado fuerte el big data al convencer a las empresas de que ya no era suficiente con armarse de una serie de herramientas de análisis sino que además había que hacer un cambio revolucionario en la infraestructura y haciendo surgir un sin fin de proyectos Apache encabezados por Hadoop (con toda su corte):

ecosistema_bidoop

Las bases de datos tradicionales, tanto las comerciales como las de software libre, se han visto también desplazadas por la NoSQL, como si no se pudiera calificar legitimamente de “big data” a un proyecto que no esté soportado por una base de datos MongoDB o Cassandra.

mongovue (MongoDB)

cassandradb

(Cassandra DB)

Ahora pensemos por un momento qué beneficios ha traído este cambio de paradigma para extraer, limpiar, almacenar y analizar datos históricos en mercados altamente cambiantes.

Big data debería permitir integrar distintas fuentes de datos y analizarlas de forma conjunta y no simplemente acumular teras de registros históricos para decirnos lo que sabemos desde hace 5 años sino darnos pistas de lo que podría suceder mañana.