Analysis of the evolution of the coronavirus

Inglés

In this post I want to share an analysis that I have done on the evolution of the coronavirus using different tools for data analysis and visualization: Python to obtain historical data from all affected countries: https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_19-covid-Confirmed.csv https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_19-covid-Deaths.csv https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_19-covid-Recovered.csv

KNIME for data manipulation and the creation of a predictive model using Random Forest to analyze the evolution of contagion before showing symptoms:

Facebook Prophet to estimate the behavior of the disease in the next 7 days.

Tableau for displaying the results and publishing the dashboard on your public server where you will find:

Case evolution: Where the evolution of the total cases of the disease from the origin is shown, as well as an adjustment in which deaths and discharges are subtracted. 7 days projected using the Facebook Prophet library are included.

Case incubation: Cases reported vs. probable cases before they can be identified. The model has been built using behavior in all affected countries using the Random Forest algorithm.

Death vs Recover: Cases discharged compared to deaths. A projection is also made for the next 7 days.

Case increment: This graph shows the unique cases identified day by day so that we can identify the spikes or stagnation of the disease depending on the country.

Here is a direct link to the dashboard on the Tableau public server:
https://public.tableau.com/views/coronavirus_analysis/Dashboard1?:display_count=y&publish=yes&:origin=viz_share_link

Análisis sobre la evolución del coronavirus

En este post quiero compartir un análisis que he hecho sobre la evolución del coronavirus utilizando diferentes herramientas para el análisis y la visualización de datos:

Python para la obtención de datos históricos de todos los países afectados:
https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_19-covid-Confirmed.csv
https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_19-covid-Deaths.csv
https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_19-covid-Recovered.csv

KNIME para la manipuación de los datos y la creación de un modelo predictivo utilizando Random Forest para analizar la evolución del contagio antes de mostrar síntomas:

Facebook Prophet para hacer una estimación del comportamiento de la enfermedad en los próximos 7 días.

Tableau para la visualización de los resultados y publicación del cuadro de mandos en su servidor público donde encontraréis:

Case evolution: Donde se muestra la evolución de los casos totales de la enfermedad desde el origen así como un ajuste en el que se sustraen las muertes y las altas. Se incluyen 7 días proyectados utilizando la librería Facebook Prophet.
Case incubation: Casos reportados vs casos probables antes de poder ser identificados. El modelo se ha construido utilizando el comportamiento en todos los países afectados mediante el algoritmo Random Forest.
Death vs Recover: Casos dados de alta en comparación con las muertes. También se hace una proyección para los próximos 7 días.
Case increment: Esta gráfica muestra los casos únicos identificados día a día para que podamos identificar los repuntes o el estancamiento de la enfermedad dependiendo del país.

Aquí os dejo en enlace directo al cuadro de mandos en el servidor público de Tableau:
https://public.tableau.com/views/coronavirus_analysis/Dashboard1?:display_count=y&publish=yes&:origin=viz_share_link

Cómo simular una inversión en Bolsa con Tableau

En este post he querido investigar un poco sobre el “trading” en Bolsa y tratar de comprobar si es cierto eso de que invirtiendo una cierta cantidad en podrías llegar a tener beneficios a muy corto plazo.

También he escuchados varios podcast y artículos en Internet afirmando conocer la “fórmula” para que pequeños inversores pudieran vivir de la Bolsa.

No dudo que haya pequeños inversores que lo hayan conseguido, como no dudo de que haya gente que se ha hecho rica en el casino, pero se de más a los que no le ha salido bien la jugada.

En este post, he creado un modelo utilizando Tableau en el que comparo las cotizaciones reales de Telefónica desde Enero de 2016. He simulado una inversión de 3.000 $ para hacernos una idea más real del rendimiento.

tableau forecast

Puedes simular distintos periodos y compararlos con las cotizaciones reales siguiendo este enlace a mi perfil de “Tableau Public“:

https://public.tableau.com/views/trading_1/actualforecast?:embed=y&:display_count=yes

Mis conclusiones son que incluso invirtiendo en valores considerados “sólidos” como pueda ser Telefónica el tiempo hasta que veamos resultados puede ser largo.
Y la segunda conclusión es que con una previsión alcista podemos tener resultados negativos y viceversa.
He escogido una frase del gran especulador financiero George Soros para concluir mi post:
Los mercados financieros son generalmente impredecibles, entonces, uno tiene que tener diferentes escenarios. La idea de que se puede predecir lo que va a suceder va en contra de mi manera de ver los mercados.

DataCamp: La web para aprender R y Python sin ser programador

Dedico mi primer post del año a un magnífico sitio web que sin duda muchos ya conoceran pero del que quiero destacar varios elementos que lo hacen realmente excepcional: DataCamp https://www.datacamp.com/

DataCamp es una web orientada al aprendizaje de dos lenguajes de programación orientados al análisis de datos, más utilizados hoy en día por matemáticos, “data scientist”, analistas de datos, … ya que contienen multitud de funciones estadísticas incorporadas:

Ambos lenguajes son open source y todo lo necesario para comenzar a utilizarlos está disponible en sus respectivos sitios web, así como editores, compiladores, tutoriales…

  • ¿Qué ventajas ofrece aprender R y/o Python?

Los editores para estos lenguajes hacen que escribir una función en ellos no sea más complicado que lo que lo que hacemos en Excel o Calc, y al mismo tiempo importar datos no quiere ninguna programación (los editories ya contienen su menú para importar/exportar).

Si de verdad te tomas la precisión de cálculo y las pruebas estadísticas en serio estos son los lenguajes que necesitas. Es fantástico lo bien y lo bonito que “pintan” por ejemplo los modelos de predicción aplicaciones comerciales como QlikView o Tableau, pero para análisis complejos estadísticamente hablando se quedan cortas.

En el título del post añado “sin ser programador” ya que estos lenguajes no requieren grandes conocimientos de programación ni están orientados inicialmente al desarrollo de aplicaciones complejas.

  • ¿Por qué aprenderlos en DataCamp?

En mi post “Enseña YouTube más y mejor que el e-learning” https://www.nekosphera.com/2016/10/19/ensena-youtube-mas-y-mejor-que-el-e-learning/ destaco como en YouTube y en blogs especializados puedes aprender por tu cuenta y avanzar más deprisa que en los cursos on line tradicionales.

Lo que me gusta de DataCamp es que realmente aplica el “learning by doing” y es que tienes la posibilidad de dentro del propio entorno del curso poder hacer las prácticas y obtener un feedback inmediato.

Normalmente cuando sigues un curso on line o un tutorial on line lo que vas haciendo es copiar el código de vas viendo en pantalla en tu propio editor. Esto está muy bien al principio porque te vas familiarizando con la sintaxis del lenguaje, pero cuando intentas avanzar un poco más, en muchos tutoriales no ponen el código completo, ya que dan muchas partes por sentado.

En DataCamp puedes empezar desde cero y a partir de ahí avanzar o especializarte en lo que sea más útil para tu trabajo:

Los cursos de iniciación son gratuitos, por lo que puedes limitarte a ellos y luego avanzar por tu cuenta o, si os gusta la metología podéis suscribiros:

Ahora mismo hay una oferta que por 150$ al año tienes acceso a todos los cursos. Aquí os dejo el índice de materias:

Confío que después de leer este post os animéis a adentraros en el análisis de datos de la mano de estos lenguajes y al menos toméis los cursos de iniciación para ver sus aplicaciones.

 

Ensalada de “Big Data”

Si ya lleva siendo difícil en los últimos años asentar y separar conceptos, desde que todo cabe en el saco del “big data” la tarea se ha vuelto aún más complicada.

La presión de los fabricantes para convertir herramientas de visualización y “reporting” en suites de análisis y sistemas de business intelligence, ha desplazado a aplicaciones de análisis estadísticas mucho más complejas y devolviéndolas al entorno académico:

ibm-spss-statistics-43 (IBM SPSS)

minitab

(MiniTab)

Me refiero en este caso a herramientas como Tableau, QlikView o Micorsoft Power BI, frente a IBM SPSS o MiniTab.

1-tableau-drag-and-drop-analysis

(Tableau)

qlik

(QlickView)

powerbi

(Microsoft Power BI)

La figura del “científico de datos”, estadístico de toda la vida que ahora sale del mundo de los seguros para convertirse en la mano derecha de los directivos ha puesto de moda lenguajes tradicionales como R o Python y recientemente Scala, dónde se empieza a desdibujar la frontera entre el análisis de datos y la infraestructura.

r pythonscala

En esta última parte es dónde de verdad ha dado fuerte el big data al convencer a las empresas de que ya no era suficiente con armarse de una serie de herramientas de análisis sino que además había que hacer un cambio revolucionario en la infraestructura y haciendo surgir un sin fin de proyectos Apache encabezados por Hadoop (con toda su corte):

ecosistema_bidoop

Las bases de datos tradicionales, tanto las comerciales como las de software libre, se han visto también desplazadas por la NoSQL, como si no se pudiera calificar legitimamente de “big data” a un proyecto que no esté soportado por una base de datos MongoDB o Cassandra.

mongovue (MongoDB)

cassandradb

(Cassandra DB)

Ahora pensemos por un momento qué beneficios ha traído este cambio de paradigma para extraer, limpiar, almacenar y analizar datos históricos en mercados altamente cambiantes.

Big data debería permitir integrar distintas fuentes de datos y analizarlas de forma conjunta y no simplemente acumular teras de registros históricos para decirnos lo que sabemos desde hace 5 años sino darnos pistas de lo que podría suceder mañana.