Introducción
La Covid-19 es una enfermedad viral respiratoria (Cruz, Santos, Cervantes, y Juárez, 2020) causada por el nuevo coronavirus SARS-CoV-2 (Phan, 2020), este nuevo brote se notificó por primera vez en Wuhan (China) el 12 de diciembre del 2019 (Lu y cols, 2020). Desde entonces se han notificado decenas de miles de casos y el brote se ha extendido a nivel mundial (Bwire y Paulo, 2020; Lai, Shih, Ko, Tang, y Hsueh, 2020), por lo cual la Organización Mundial de la Salud (OMS) la declaró como pandemia (Mahase, 2020).
El 6 de marzo del 2020 Colombia confirmó su primer caso de la enfermedad por Covid-19 y hasta la fecha se han confirmado más de 3 millones de casos positivos y más de 80 mil decesos. A lo largo de la actual pandemia de Covid-19, los gobiernos han recopilado amplias bases de datos con información sobre las personas infectadas. Los datos sobre casos positivos y muertes en Colombia son reportados por el Instituto Nacional de Salud (INS) (Casos positivos de COVID-19 en Colombia - Datos Abiertos Colombia, s.f.) que son relevantes para rastrear la evolución de la infección en el país.
A partir de estos datos se pueden visualizar cualitativamente 3 intervalos de tiempo en donde las cifras de casos positivos de Covid-19 en Colombia han alcanzado sus máximos relativos, más conocidos como picos. Es allí donde el Ministerio de Salud y Protección Social de Colombia (Minsalud) ha evidenciado que la población de edades más afectada y con mayor probabilidad de muerte a lo largo de la pandemia son las personas mayores a 60 años (Minsalud- información del Coronavirus COVID-19 , s.f.; Ministerio de Salud y Protección Social, s.f.). Por lo tanto, se pretende encontrar si existe una variación en las distribuciones de probabilidad de fallecimientos en los 3 picos de la pandemia en Colombia y verificar si se encuentra una variación de riesgo de muerte por edad hasta la fecha. Lo anterior, a partir del análisis estadístico de las bases de datos reportadas por el INS por medio del lenguaje de programación interpretado Python, usando las librerías Pandas, Numpy, Scipy, Matplotlib y Seaborn (Dey, Rahman, Siddiqi, y Howlader, 2020) obteniendo las distribuciones de probabilidad de muertes y contagios por departamento en relación a la edad.
El presente trabajo se desarrolla de la siguiente manera: en la metodología se encuentra la descripción de los datos utilizados y los criterios de selección llevados a cabo para el análisis correspondiente de probabilidades a estudiar. Posteriormente se encuentran los resultados obtenidos a partir de las comparaciones y análisis realizados por medio de distribuciones de probabilidad y finalmente se encuentran las conclusiones más relevantes encontradas en el estudio.
Metodología
Datos
El conjuntos de datos para el análisis realizado se obtuvo de los reportes publicados por el INS (Casos positivos de COVID-19 en Colombia - Datos Abiertos Colombia, s.f.), los cuales se actualizan todos los días y dan a conocer los casos positivos de Covid-19 en Colombia (ver figura 1). La base de datos proporcionada contiene los siguientes campos: la fecha de reporte web del caso, la fecha de notificación, ID del caso, departamento, municipio, edad, sexo, tipo de contagio, estado actual del paciente (recuperado o fallecido), fecha de inicio de síntomas, fecha de muerte, fecha de diagnóstico y fecha de recuperación. El trabajo centró la atención en el número de casos positivos por departamento y la cantidad de personas fallecidas por edad, reportadas desde el 6 de marzo del 2020, día en el que se presenta el primer contagiado, hasta el 8 de mayo del 2021. Cabe resaltar que al conjunto de datos se le aplicaron diferentes métodos de exploración y análisis estadístico, haciendo uso del lenguaje de programación interpretado Python, particularmente de las librerías Pandas, Numpy, Scipy, Matplotlib y Seaborn (Dey y cols., 2020).
Selección de fechas por picos
Hasta el momento se pueden evidenciar cualitativamente tres picos en el nu'mero de casos positivos en Colombia, como se muestra en la figura 1, sin embargo, es preciso obtener el rango de tiempo específico de estos picos a partir de métodos analíticos; por tal motivo, se encontró una función que se ajustara a los datos reportados a partir de un modelo de regresión de procesos Gaussianos (GPR), utilizando la función gaussian filterld de la librería Python: SciPy, la cual permite tener una precisión mayor en la selección de rangos de fechas a estudiar por pico y facilita la visualización de los mismos (Garcia Chilan y Viteri Paredes, 2010). Una vez obtenida la función de ajuste (línea azul continua en la figura 1) se obtuvieron las fechas de inicio y fin de los picos así:
Fecha inicial: Se hallaron los puntos de inflexión de la función obtenida por el modelo GPR a partir de su segunda derivada. Estos puntos son los valores para los cuales la función cambia de concavidad, particularmente, se interesó únicamente por las concavidades que presentan puntos máximos relativos (Gu, Zhu, Sun, Zhou, y Gu, 2020). Los tres puntos de inflexión obtenidos corresponden a las fechas: 9 de julio del 2020, 12 de octubre del 2020 y 21 de marzo del 2021, fechas que determinarán el inicio de cada pico para este trabajo.
Fecha final: Se toma nuevamente la función obtenida por el modelo GPR y se aplica el criterio de la primera derivada, con el fin de obtener los puntos máximos relativos que pueden existir (Peng, Yang, Zhang, Zhuge, y Hong, 2020). De esta manera se identificaron las fechas donde cada uno de los picos ha alcanzado el máximo de casos positivos, las cuales son: 10 de agosto del 2020, 1 de enero del 2021 y 19 de abril del 2021.
De esta manera, los picos de la pandemia para este trabajo fueron definidos como: Primer pico (comprendido entre el 9 de julio del 2020 hasta el 10 de agosto del 2020, está demarcado por una región azul y líneas horizontales en la figura 1), segundo Pico (comprendido entre el 12 de octubre del 2020 hasta el 1 de enero del 2021, está demarcado por una región roja y líneas verticales en la figura 1), tercer Pico (comprendido entre el 21 de marzo del 2021 hasta el 19 de abril del 2021, representado por la región de color amarillo y líneas diagonales en la figura 1).
Distribución de probabilidad
Una vez definidos los intervalos de tiempo para los tres picos de la pandemia en Colombia, se obtuvieron las distribuciones de probabilidad del número de casos positivos en cada uno de dichos picos, en función de las edades de los pacientes contagiados. Estas distribuciones permiten conocer la probabilidad de casos positivos dentro de un rango de edades definido, lo anterior, a partir de la integral de la función de distribución obtenida en un intervalo finito, o en otras palabras, el valor del área bajo la curva de la función de distribución en este mismo intervalo. Para obtener dicha función de distribución se utilizó la función distplot, la cual combina la función hist de la librería Python: Matplotlib con las funciones kdeplot y rugplot de la librería Python: Seaborn (Waskom, 2021) (Irvine y Hollingsworth, 2018). Dicha función distplot genera un histograma a partir de los datos reportados por el INS, y es a éstos a los que les calcula la distribución de probabilidad a partir de la estimación de la densidad Kernel, también conocido como KDE por sus siglas en inglés (Terrell y Scott, 1992). En la figura 2 se puede ver el resultado de la aplicación de la función distplot, cuyos valores de entrada son el número de fallecidos por Covid-19 en función de las edades, para los tres diferentes picos de la pandemia en Colombia. En esta figura se puede identificar cómo varía la función de distribución obtenida a partir de la KDE para los tres diferentes picos en relación al histograma respectivo.
Letalidad
La letalidad es una medida de la gravedad de una enfermedad estimada desde el punto de vista poblacional, y se precisa como la proporción de casos de una enfermedad que surgen mortales con respecto al total de casos en un periodo determinado (Gómez-Gómez, Danglot-Banck, y Velásquez-Jones, 2001), (Pinzón, 2020), (Moreno-Altamirano, 2007) y se deduce de la siguiente manera:
donde M representa el número de muertes por una enfermedad en un periodo determinado y C el número de casos diagnosticados de la misma enfermedad en el mismo periodo.
Resultados y Discusión
El número de casos positivos por día en Colombia, desde 6 de marzo del 2020 (día cero) hasta el 8 de mayo del 2021 (día 428), se pueden ver en la figura 1. Asimismo, se muestran con regiones sombreadas los intervalos de tiempo en los que se presentan los diferentes picos de la pandemia en este país. Como se mencionó en la metodología, dichos intervalos fueron obtenidos a partir del análisis de la función de ajuste por modelo GPR aplicado a los datos reportados por el INS. Las distribuciones de probabilidad en los tres picos tienen un comportamiento con ligeras diferencias para cada grupo de edad de estudio (ver tabla 1), manteniéndose como grupo con mayor porcentaje de casos positivos, independiente del pico, el de los colombianos entre 30 - 39 años edad, por otro lado, se tiene como grupo con menor porcentaje el de los colombianos entre 90 - 99 años de edad. Lo anterior está mostrando cómo la edad productiva y social está relacionada directamente con el porcentaje de casos positivos (Goldstein, Lipsitch, y Cevik, 2020) (Monod y cols., 2021), en donde los colombianos con edades entre los 20 y 60 años corresponden al 65 % de los casos confirmados para Covid-19.
DPC (%) | |||
---|---|---|---|
Edad (años) | 1er Pico | 2do Pico | 3er Pico |
0-9 | 3.215 | 2.444 | 2.838 |
10-19 | 5.813 | 6.04 | 6.884 |
20-29 | 19.092 | 19.925 | 17.4 |
30-39 | 22.028 | 20.712 | 19.434 |
40-49 | 15.363 | 14.784 | 15.047 |
50-59 | 11.592 | 12.356 | 13.119 |
60-69 | 6.712 | 7.672 | 8.826 |
70-79 | 3.804 | 4.081 | 4.213 |
80-89 | 1.781 | 1.919 | 1.725 |
90-99 | 0.359 | 0.408 | 0.344 |
En la figura 2-(a,b,c) se pueden ver los histogramas para los casos de los pacientes fallecidos por Covid-19 reportados por el INS en los tres diferentes picos, adicionalmente, se presentan sus respectivas distribuciones de probabilidad, mostrando cómo los pacientes con edades mayores a los 60 años manifiestan una mayor probabilidad de fallecer dentro del grupo total de fallecidos. Particularmente, en la figura 2d se observa la comparación de las tres distribuciones de probabilidad correspondientes a cada pico, en donde se puede evidenciar cómo se tienen mayores probabilidades de fallecer en personas con edades entre los 20 y los 69 años en el primer y tercer pico, comparadas con las pertenecientes al segundo pico. Asimismo, Se puede notar un corrimiento hacia edades menores en el máximo de la distribución del tercer pico, dejando un indicio de que la población con mayor riesgo pueden empezar a ser colombianos menores a los 70 años, estando en contraposición con lo que se presenta en el primer y segundo pico en Colombia y en otros países de Lationamérica (Undurraga, Chowell, y Mizumoto, 2021).
Las probabilidades de fallecer por Covid-19 para diferentes grupos de edades en los tres picos de la pandemia se presentan en la tabla 2, allí se evidencia con mayor precisión, cómo los colombianos entre los 20 y 69 años de edad fallecidos por Covid-19 en el primer y tercer pico presentan un mayor porcentaje dentro de esta distribución, en comparación con los colombianos en este mismo rango de edades pertenecientes al segundo pico. Cabe resaltar, como lo mencionan Rosselli (Rosselli, 2020) y Mathwe (Mathew, 2020), que los fallecidos dentro de los primeros días no solo son consecuencias fatales del virus, sino parte de la inexperiencia mundial frente al nuevo virus, centrando la atención en las dinámicas de las probabilidades entre el segundo y tercer pico, pues es allí donde se conocen los protocolos para tratar al virus de manera más homogénea. Es importante evidenciar que no se está obteniendo una redistribución de probabilidad debido a una disminución de muertes en un grupo específico, por el contrario, se presentan aumentos en las tasas de letalidad de los colombianos mayores a 20 años (ver tabla 3).
DPC (%) | |||
---|---|---|---|
Edad (años) | 1er Pico | 2do Pico | 3er Pico |
0-9 | 0.139 | 0.1 | 0.036 |
10-19 | 0.163 | 0.129 | 0.057 |
20-29 | 0.977 | 0.754 | 1.061 |
30-39 | 2.741 | 1.916 | 2.805 |
40-49 | 5.988 | 4.017 | 6.508 |
50-59 | 13.046 | 10.354 | 13.507 |
60-69 | 21.13 | 20.291 | 21.948 |
70-79 | 23.295 | 25.138 | 24.076 |
80-89 | 17.843 | 21.728 | 14.644 |
90-99 | 4.356 | 5.898 | 4.472 |
Letalidad (%) | ||
---|---|---|
Edad (años) | 2do Pico | 3er Pico |
0-9 | 0.1 | 0.038 |
10-19 | 0.045 | 0.013 |
20-29 | 0.09 | 0.171 |
30-39 | 0.212 | 0.37 |
40-49 | 0.631 | 1.206 |
50-59 | 1.923 | 2.836 |
60-69 | 6.096 | 7.18 |
70-79 | 14.483 | 16.221 |
80-89 | 24.798 | 25.854 |
90-99 | 32.644 | 33.471 |
0-100 | 2.298 | 2.779 |
En la tabla 4 se compararon las distribuciones de probabilidad entre el segundo y tercer pico en cada departamento (distrito) de Colombia para tres grupos de edades (Primer grupo: personas entre los 20 y 44 años de edad, segundo grupo: personas entre los 45 y 69 años de edad y tercer grupo: personas entre los 70 y 100 años de edad). Se puede notar que los únicos departamentos que presentan disminución en las probabilidades entre el segundo y tercer pico para el primer grupo de edades son: Huila, Norte de Santander, Cauca, Cesar, Córdoba, Chocó, Amazonas, Caquetá y Arauca, por el contrario, departamentos (distritos) como: Cartagena, Meta, Casanare, Magdalena, Guajira y Putumayo presentan aumentos de más del 5 % en el porcentaje de fallecidos por Covid-19 en este grupo de edades; el caso más crítico está en el departamento de Putumayo, el cuál presenta un aumento de más del 15 %. Las distribuciones de probabilidad para el segundo grupo de edades presenta una situación un poco más crítica, ya que más del 45 % de los departamentos (distritos) presentan aumentos en sus probabilidades de más del 5 %, alertando a estos departamentos a tomar medidas que prevengan estos porcentajes en edades de 45 a 69 años. Los casos con un aumento mayor al 10 % en la probabilidad de pacientes fallecidos para el segundo grupo son: Antioquia, Cauca, Córdoba, Amazonas y Caquetá. Por último, se puede evidenciar que para el tercer grupo de edades son pocos los departamentos que presentan aumento entre el segundo y tercer pico, siendo los más afectados: Huila, Norte de Santander y Sucre.
Distribución de probabilidad % | ||||||
---|---|---|---|---|---|---|
Departamento | 20 - 44 (años) | 45 - 69 (años) | 70 - 100 (años) | |||
2do Pico | 3er Pico | 2do Pico | 3er Pico | 2do Pico | 3er Pico | |
Bogotá | 4.031 | 5.849 | 34.799 | 38.848 | 56.777 | 51.31 |
Valle | 3.821 | 5.878 | 33.514 | 34.383 | 60.432 | 55.379 |
Antioquia | 3.84 | 7.066 | 32.034 | 42.889 | 61.529 | 46.174 |
Cartagena | 3.956 | 10.238 | 36.666 | 44.412 | 55.15 | 41.206 |
Huila | 7.437 | 1.406 | 38.864 | 38.779 | 49.735 | 56.369 |
Meta | 5.471 | 11.009 | 42.732 | 43.984 | 48.006 | 40.534 |
Risaralda | 3.762 | 5.497 | 33.977 | 31.745 | 57.959 | 58.427 |
Norte Santander | 7.368 | 3.586 | 46.453 | 37.467 | 43.084 | 55.011 |
Caldas | 2.973 | 7.075 | 30.919 | 36.009 | 62.297 | 51.423 |
Cundinamarca | 5.242 | 7.965 | 35.0 | 40.898 | 56.485 | 47.34 |
Barranquilla | 4.142 | 7.853 | 36.716 | 42.693 | 53.856 | 45.373 |
Santander | 4.565 | 6.895 | 37.379 | 38.447 | 54.351 | 48.527 |
Quindío | 3.457 | 3.907 | 31.847 | 36.107 | 60.732 | 54.922 |
Tolima | 4.582 | 6.51 | 32.767 | 39.728 | 58.57 | 47.192 |
Cauca | 4.855 | 0.25 | 25.58 | 40.133 | 65.653 | 56.238 |
Sta Marta D.e. | 6.273 | 10.1 | 44.645 | 45.67 | 45.066 | 40.264 |
Cesar | 8.647 | 7.835 | 38.038 | 46.77 | 49.19 | 41.173 |
Casanare | 8.309 | 16.243 | 49.663 | 47.732 | 37.932 | 32.278 |
Nariño | 5.975 | 6.005 | 35.029 | 41.926 | 54.587 | 47.513 |
Atlántico | 7.118 | 7.497 | 37.075 | 46.586 | 51.006 | 42.155 |
Boyacá | 5.197 | 7.019 | 34.175 | 29.114 | 56.121 | 57.629 |
Córdoba | 10.069 | 5.817 | 28.952 | 41.012 | 54.08 | 46.85 |
Bolivar | 6.866 | 7.494 | 27.943 | 32.552 | 59.433 | 52.077 |
Sucre | 5.402 | 5.653 | 37.569 | 31.369 | 51.902 | 57.937 |
Magdalena | 5.459 | 10.525 | 40.566 | 43.975 | 49.851 | 42.092 |
Guajira | 9.079 | 14.13 | 37.151 | 46.132 | 48.725 | 34.512 |
Chocó | 11.372 | 5.026 | 41.908 | 43.032 | 42.576 | 46.758 |
Amazonas | 35.948 | 16.657 | 39.842 | 54.758 | 19.084 | 24.061 |
Caquetá | 6.258 | 2.053 | 40.422 | 51.073 | 48.412 | 42.522 |
Putumayo | 7.626 | 23.321 | 39.991 | 37.503 | 49.385 | 27.781 |
Arauca | 4.316 | 3.08 | 38.383 | 43.933 | 54.131 | 48.834 |
Conclusiones
En este trabajo se presenta una comparación de las distribuciones de probabilidad tanto de los casos positivos por Covid-19 como de los casos fallecidos por la misma enfermedad para los tres diferentes picos de la pandemia. Se evidenciaron cambios insignificantes en las distribuciones asociadas a los casos positivos entre los tres diferentes picos, y se confirma que los colombianos con mayor probabilidad de contagio presentan edades entre los 20 y los 60 años. Asimismo, se obtienen aumentos en las probabilidades de fallecer de los pacientes con edades entre 20 y 69 años y disminuciones en la misma probabilidad en pacientes mayores a los 70 años, lo anterior a partir del análisis de las distribuciones de probabilidad y las letalidades en el tercer pico.
Adicionalmente, departamentos (distritos) como: Cartagena, Meta, Casanare, Magdalena, Guajira y Putumayo presentan un aumento de más del 5 % en la probabilidad de fallecer en el tercer pico, para los pacientes entre los 20 y los 44 años edad, siendo el departamento más crítico el del Putumayo, con un aumento de más del 15 %. De igual forma, se muestra que Antioquia, Cauca, Córdoba, Amazonas y Caquetá presentan un aumento de más del 10 % en la probabilidad de fallecer en el tercer pico para los pacientes con edades entre los 45 y los 69 años. Por último, los únicos departamentos que no han presentado disminución en la probabilidad de fallecer en pacientes mayores a 70 años para el tercer pico son: Huila, Risaralda, Norte de Santander, Boyacá, Sucre, Chocó y Amazonas.
Para finalizar, se espera que se pueda seguir una ruta eficaz para la vacunación en Colombia (Gomez Marín y cols., 2021), pues hasta ahora se ha alcanzado una disminución en los porcentajes de pacientes fallecidos mayores a 70 años, pero estas disminuciones se han distribuido en otros grupos de edades, afectando en mayor medida a colombianos entre los 45 y 69 años de edad en diferentes departamentos de Colombia.