Ensalada de Big Data. Formato podcast

En este podcast quiero aclarar en qué consiste el big data, cuáles son sus componentes y qué debe tenerse en cuenta antes de empezar un proyecto de este tipo. También hago un recorrido por cuáles son los perfiles proyesionales que participan en este tipo de proyectos, y por último por qué creo que no son abordables por las PYMES aunque sí pueden beneficiarse del Big Data.

DataCamp: La web para aprender R y Python sin ser programador

Dedico mi primer post del año a un magnífico sitio web que sin duda muchos ya conoceran pero del que quiero destacar varios elementos que lo hacen realmente excepcional: DataCamp https://www.datacamp.com/

DataCamp es una web orientada al aprendizaje de dos lenguajes de programación orientados al análisis de datos, más utilizados hoy en día por matemáticos, “data scientist”, analistas de datos, … ya que contienen multitud de funciones estadísticas incorporadas:

Ambos lenguajes son open source y todo lo necesario para comenzar a utilizarlos está disponible en sus respectivos sitios web, así como editores, compiladores, tutoriales…

  • ¿Qué ventajas ofrece aprender R y/o Python?

Los editores para estos lenguajes hacen que escribir una función en ellos no sea más complicado que lo que lo que hacemos en Excel o Calc, y al mismo tiempo importar datos no quiere ninguna programación (los editories ya contienen su menú para importar/exportar).

Si de verdad te tomas la precisión de cálculo y las pruebas estadísticas en serio estos son los lenguajes que necesitas. Es fantástico lo bien y lo bonito que “pintan” por ejemplo los modelos de predicción aplicaciones comerciales como QlikView o Tableau, pero para análisis complejos estadísticamente hablando se quedan cortas.

En el título del post añado “sin ser programador” ya que estos lenguajes no requieren grandes conocimientos de programación ni están orientados inicialmente al desarrollo de aplicaciones complejas.

  • ¿Por qué aprenderlos en DataCamp?

En mi post “Enseña YouTube más y mejor que el e-learning” http://www.nekosphera.com/2016/10/19/ensena-youtube-mas-y-mejor-que-el-e-learning/ destaco como en YouTube y en blogs especializados puedes aprender por tu cuenta y avanzar más deprisa que en los cursos on line tradicionales.

Lo que me gusta de DataCamp es que realmente aplica el “learning by doing” y es que tienes la posibilidad de dentro del propio entorno del curso poder hacer las prácticas y obtener un feedback inmediato.

Normalmente cuando sigues un curso on line o un tutorial on line lo que vas haciendo es copiar el código de vas viendo en pantalla en tu propio editor. Esto está muy bien al principio porque te vas familiarizando con la sintaxis del lenguaje, pero cuando intentas avanzar un poco más, en muchos tutoriales no ponen el código completo, ya que dan muchas partes por sentado.

En DataCamp puedes empezar desde cero y a partir de ahí avanzar o especializarte en lo que sea más útil para tu trabajo:

Los cursos de iniciación son gratuitos, por lo que puedes limitarte a ellos y luego avanzar por tu cuenta o, si os gusta la metología podéis suscribiros:

Ahora mismo hay una oferta que por 150$ al año tienes acceso a todos los cursos. Aquí os dejo el índice de materias:

Confío que después de leer este post os animéis a adentraros en el análisis de datos de la mano de estos lenguajes y al menos toméis los cursos de iniciación para ver sus aplicaciones.

 

Trump y Rajoy vistos por la Bolsa

Lejos de mi intención hacer un análisis político pero sí que no puedo evitar, por deformación profesional, ponerme a analizar cada gráfico que veo y tratar de extraer alguna conclusión.

En este caso me han llamado poderosamente la atención los índices bursátiles IBEX 35 para España y Dow Jones para Estados Unidos, después de la elección de sus respectivos presidentes.

En el gráfico del Dow Jones se aprecia un repunte a partir del 7 de Noviembre (aunque todos los análisis basados en big data y las igualmente fiables encuestas daban como ganadora a Hilary Clinton) cuando parecía que ya todo el mundo sabía lo que iba a pasar, y si no, la sorpresa ha sido para bien porque la tendencia se ha mantenido alcista a pesar de todas las teorías apocalípticas sobre Donald Trump.

La otra cara de la moneda bursátil la tenemos en el IBEX 35 que, a pesar de la supuesta estabilidad que el nuevo gobierno nos iba a traer, no se puede decir que haya traído ninguna al “parquet“:

En nuestro país la tendencia ya era bajista cuando Mariano Rajoy obtuvo los apoyos necesario para formar gobierno el 30 de Octubre, llegando a quedar el íncide bursátil por debajo de los 9.000 y no recuperándolos hasta Diciembre.

Como ya he dicho al principio del post, no me atrevo a entrar en valoraciones políticas ni quiero generar ningún tipo de polémica pero no quería dejar pasar la oportunidad de hacer esta comparación.

Ensalada de “Big Data”

Si ya lleva siendo difícil en los últimos años asentar y separar conceptos, desde que todo cabe en el saco del “big data” la tarea se ha vuelto aún más complicada.

La presión de los fabricantes para convertir herramientas de visualización y “reporting” en suites de análisis y sistemas de business intelligence, ha desplazado a aplicaciones de análisis estadísticas mucho más complejas y devolviéndolas al entorno académico:

ibm-spss-statistics-43 (IBM SPSS)

minitab

(MiniTab)

Me refiero en este caso a herramientas como Tableau, QlikView o Micorsoft Power BI, frente a IBM SPSS o MiniTab.

1-tableau-drag-and-drop-analysis

(Tableau)

qlik

(QlickView)

powerbi

(Microsoft Power BI)

La figura del “científico de datos”, estadístico de toda la vida que ahora sale del mundo de los seguros para convertirse en la mano derecha de los directivos ha puesto de moda lenguajes tradicionales como R o Python y recientemente Scala, dónde se empieza a desdibujar la frontera entre el análisis de datos y la infraestructura.

r pythonscala

En esta última parte es dónde de verdad ha dado fuerte el big data al convencer a las empresas de que ya no era suficiente con armarse de una serie de herramientas de análisis sino que además había que hacer un cambio revolucionario en la infraestructura y haciendo surgir un sin fin de proyectos Apache encabezados por Hadoop (con toda su corte):

ecosistema_bidoop

Las bases de datos tradicionales, tanto las comerciales como las de software libre, se han visto también desplazadas por la NoSQL, como si no se pudiera calificar legitimamente de “big data” a un proyecto que no esté soportado por una base de datos MongoDB o Cassandra.

mongovue (MongoDB)

cassandradb

(Cassandra DB)

Ahora pensemos por un momento qué beneficios ha traído este cambio de paradigma para extraer, limpiar, almacenar y analizar datos históricos en mercados altamente cambiantes.

Big data debería permitir integrar distintas fuentes de datos y analizarlas de forma conjunta y no simplemente acumular teras de registros históricos para decirnos lo que sabemos desde hace 5 años sino darnos pistas de lo que podría suceder mañana.