Análisis de la evolución de coronavirus (Continuación)

He continuado haciendo análisis sobre cómo va evolucionando el coronavirus en todos los países que están reportando casos.

He tenido que abandonar mi modelo anterior porque me he encontrado con grandes dificultades para encontrar una fuente fiable y constante de datos.

En esta ocasión estoy utilizando como fuente la dirección:

https://www.ecdc.europa.eu/en/publications-data/download-todays-data-geographic-distribution-covid-19-cases-worldwide

El algoritmo sobre el que he construido el modelo predictivo ha sido SARIMA y he considerado un histórico de 15 días, que es lo que llevamos confinados en España.

En este momento la tendencia es al alza y, si las medidas adoptadas están surtiendo efecto, en sucesivas actualizaciones deberíamos empezar a ver un cambio.

Sin embargo no entiendo cómo no hay ninguna entidad que esté reportando el histórico de datos reportando regiones, estados, provincias… y los datos no están segmentados por edad, lo que le resta mucha precisión al análisis.

https://public.tableau.com/views/covid19_15854069811580/Dashboard1?:display_count=y&publish=yes&:origin=viz_share_link

Analysis of the evolution of the coronavirus

Inglés

In this post I want to share an analysis that I have done on the evolution of the coronavirus using different tools for data analysis and visualization: Python to obtain historical data from all affected countries: https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_19-covid-Confirmed.csv https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_19-covid-Deaths.csv https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_19-covid-Recovered.csv

KNIME for data manipulation and the creation of a predictive model using Random Forest to analyze the evolution of contagion before showing symptoms:

Facebook Prophet to estimate the behavior of the disease in the next 7 days.

Tableau for displaying the results and publishing the dashboard on your public server where you will find:

Case evolution: Where the evolution of the total cases of the disease from the origin is shown, as well as an adjustment in which deaths and discharges are subtracted. 7 days projected using the Facebook Prophet library are included.

Case incubation: Cases reported vs. probable cases before they can be identified. The model has been built using behavior in all affected countries using the Random Forest algorithm.

Death vs Recover: Cases discharged compared to deaths. A projection is also made for the next 7 days.

Case increment: This graph shows the unique cases identified day by day so that we can identify the spikes or stagnation of the disease depending on the country.

Here is a direct link to the dashboard on the Tableau public server:
https://public.tableau.com/views/coronavirus_analysis/Dashboard1?:display_count=y&publish=yes&:origin=viz_share_link

Análisis sobre la evolución del coronavirus

En este post quiero compartir un análisis que he hecho sobre la evolución del coronavirus utilizando diferentes herramientas para el análisis y la visualización de datos:

Python para la obtención de datos históricos de todos los países afectados:
https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_19-covid-Confirmed.csv
https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_19-covid-Deaths.csv
https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_19-covid-Recovered.csv

KNIME para la manipuación de los datos y la creación de un modelo predictivo utilizando Random Forest para analizar la evolución del contagio antes de mostrar síntomas:

Facebook Prophet para hacer una estimación del comportamiento de la enfermedad en los próximos 7 días.

Tableau para la visualización de los resultados y publicación del cuadro de mandos en su servidor público donde encontraréis:

Case evolution: Donde se muestra la evolución de los casos totales de la enfermedad desde el origen así como un ajuste en el que se sustraen las muertes y las altas. Se incluyen 7 días proyectados utilizando la librería Facebook Prophet.
Case incubation: Casos reportados vs casos probables antes de poder ser identificados. El modelo se ha construido utilizando el comportamiento en todos los países afectados mediante el algoritmo Random Forest.
Death vs Recover: Casos dados de alta en comparación con las muertes. También se hace una proyección para los próximos 7 días.
Case increment: Esta gráfica muestra los casos únicos identificados día a día para que podamos identificar los repuntes o el estancamiento de la enfermedad dependiendo del país.

Aquí os dejo en enlace directo al cuadro de mandos en el servidor público de Tableau:
https://public.tableau.com/views/coronavirus_analysis/Dashboard1?:display_count=y&publish=yes&:origin=viz_share_link

Ensalada de Big Data. Formato podcast

En este podcast quiero aclarar en qué consiste el big data, cuáles son sus componentes y qué debe tenerse en cuenta antes de empezar un proyecto de este tipo. También hago un recorrido por cuáles son los perfiles proyesionales que participan en este tipo de proyectos, y por último por qué creo que no son abordables por las PYMES aunque sí pueden beneficiarse del Big Data.

DataCamp: La web para aprender R y Python sin ser programador

Dedico mi primer post del año a un magnífico sitio web que sin duda muchos ya conoceran pero del que quiero destacar varios elementos que lo hacen realmente excepcional: DataCamp https://www.datacamp.com/

DataCamp es una web orientada al aprendizaje de dos lenguajes de programación orientados al análisis de datos, más utilizados hoy en día por matemáticos, “data scientist”, analistas de datos, … ya que contienen multitud de funciones estadísticas incorporadas:

Ambos lenguajes son open source y todo lo necesario para comenzar a utilizarlos está disponible en sus respectivos sitios web, así como editores, compiladores, tutoriales…

  • ¿Qué ventajas ofrece aprender R y/o Python?

Los editores para estos lenguajes hacen que escribir una función en ellos no sea más complicado que lo que lo que hacemos en Excel o Calc, y al mismo tiempo importar datos no quiere ninguna programación (los editories ya contienen su menú para importar/exportar).

Si de verdad te tomas la precisión de cálculo y las pruebas estadísticas en serio estos son los lenguajes que necesitas. Es fantástico lo bien y lo bonito que “pintan” por ejemplo los modelos de predicción aplicaciones comerciales como QlikView o Tableau, pero para análisis complejos estadísticamente hablando se quedan cortas.

En el título del post añado “sin ser programador” ya que estos lenguajes no requieren grandes conocimientos de programación ni están orientados inicialmente al desarrollo de aplicaciones complejas.

  • ¿Por qué aprenderlos en DataCamp?

En mi post “Enseña YouTube más y mejor que el e-learning” https://www.nekosphera.com/2016/10/19/ensena-youtube-mas-y-mejor-que-el-e-learning/ destaco como en YouTube y en blogs especializados puedes aprender por tu cuenta y avanzar más deprisa que en los cursos on line tradicionales.

Lo que me gusta de DataCamp es que realmente aplica el “learning by doing” y es que tienes la posibilidad de dentro del propio entorno del curso poder hacer las prácticas y obtener un feedback inmediato.

Normalmente cuando sigues un curso on line o un tutorial on line lo que vas haciendo es copiar el código de vas viendo en pantalla en tu propio editor. Esto está muy bien al principio porque te vas familiarizando con la sintaxis del lenguaje, pero cuando intentas avanzar un poco más, en muchos tutoriales no ponen el código completo, ya que dan muchas partes por sentado.

En DataCamp puedes empezar desde cero y a partir de ahí avanzar o especializarte en lo que sea más útil para tu trabajo:

Los cursos de iniciación son gratuitos, por lo que puedes limitarte a ellos y luego avanzar por tu cuenta o, si os gusta la metología podéis suscribiros:

Ahora mismo hay una oferta que por 150$ al año tienes acceso a todos los cursos. Aquí os dejo el índice de materias:

Confío que después de leer este post os animéis a adentraros en el análisis de datos de la mano de estos lenguajes y al menos toméis los cursos de iniciación para ver sus aplicaciones.