Introducción
Para que un resultado de un ensayo clínico sea válido éste no debe tener errores sistemáticos ni aleatorios. Para esto, desde hace décadas se viene tomando el valor de p < 0,05 como punto de corte para hablar de significancia estadística, lo cual implica la probabilidad de obtener los resultados bajo la hipótesis nula 1,2. Se ha venido cuestionando este valor cuando hay pocas diferencias en el valor de p (ejemplo, P= 0,051 y 0= 0,049) 3, e incluso han propuesto valores menores para obtener una evidencia más fuerte 4, además de sus múltiples limitaciones ya que este valor puede ser influenciado por un pequeño cambio en el número de eventos 1,3,5-8, es por esto que no debe ser la única medida para hablar de la significancia estadística de un resultado 9.
Se ha visto que inicialmente muchos Ensayos Clínicos Aleatorizado (ECA) muestran efectos estadísticamente significativos pero posteriormente se demuestra que son inefectivos, es más, existen reportes que hasta el 16% de los resultados tendrían efectos mucho menores a los reportados 10. Es por eso, que es natural preguntarse: ¿Qué pasaría si los números observados fueran levemente modificados?.
Existen muchos factores en un ECA que pueden cambiar desenlaces estadísticamente significativos a no significativos, tales como errores de datos, pérdida en el seguimiento, retiro temprano, sesgos en la evaluación, entre otros, y que a pesar de mínimas variaciones en estos datos, el resultado seguirá siendo estadísticamente significativo y con similar magnitud del efecto, este concepto se conoce como robustez de los resultados 11.
Para valorar la robustez de los resultados, se ha propuesto una herramienta llamada el Índice de Fragilidad (IF), la cual se define como el mínimo número de pacientes que se tienen que cambiar de “No eventos” a “Eventos” en el grupo de intervención para cambiar un resultado estadísticamente significativo a no significativo, evidenciado en que el valor de p sea igual o mayor a 0,05 en el test exacto de Fisher, mostrando que entre un menor Índice de Fragilidad, los resultados de este ensayo serán menos robustos o más frágiles (1, 3, 9, 12-14) .
La idea de reportar el IF no es reciente. Feinstein propone en 1990 la unidad del IF 15 y posteriormente Walter perfecciona el concepto en 1991 6. Se ha visto un renovado y creciente interés sobre este concepto en los últimos años debido a su fácil realización e interpretación.
Diferentes autores han encontrado que la significancia de los resultados de muchos ECAs dependen de muy pocos eventos y esto ha sido estudiado en distintas áreas como cardiología 16, cuidado intensivo 3, ortopedia 7,11, otorrinolaringología 17 y urología 18. Y recientemente oncología, trauma, cirugía de cadera y uso de esteroides en COVID 9,12,19,20.
Nuestro objetivo es evaluar el IF de los ensayos clínicos controlados en diabetes mellitus en cinco de las revistas médicas generales con mayor factor de impacto a nivel mundial e identificar características de los ensayos clínicos que pueden estar relacionado con los valores del Índice de Fragilidad.
Metodología
Identificación de los estudios
Se realizó una búsqueda electrónica en PubMed, para identificar ensayos clínicos aleatorizados en cinco revistas de alto factor de impacto a nivel mundial: Annals of Internal Medicine, British Medical Journal, The Lancet, The New England Journal of Medicine (NEJM) y Journal of the American Medical Association (JAMA) con los siguientes términos de búsqueda.
"diabetes mellitus"[MeSH Terms] AND ("The New England journal of medicine"[Journal] OR "Lancet"[Journal] OR "JAMA"[Journal] OR "BMJ"[Journal] OR "Annals of internal medicine"[Journal]) AND "Randomized Controlled Trial"[Publication Type] AND ("2006/01/01"[PDAT] : "2016/12/31"[PDAT] AND "humans"[MeSH Terms]).
Se revisaron ensayos clínicos involucrando humanos dentro del periodo de tiempo en los últimos diez años, correspondiendo entre el 01 de enero de 2006 hasta el 31 de diciembre de 2016. Dos revisores independientes evaluaron todos los resúmenes identificados, incluyendo todos los artículos con los siguientes criterios de inclusión y exclusión:
Criterios de inclusión:
Pacientes con Diabetes mellitus o prediabetes.
Desenlace como variable dicotómica.
Desenlace primario debe ser estadísticamente significativo con valor de P <0,05, e intervalo de confianza que excluya al valor nulo.
Propósito del ensayo clínico de superioridad.
Grupos paralelos con aleatorización 1:1 a tratamiento y control.
Criterios de exclusión:
Datos
Los datos fueron extraídos para cada ECA por dos revisores por una tabla estandarizada en Excel 2016. Se compararon y se intentó llegar a un acuerdo por consenso, de no lograrse, se revisaron con un tercer autor.
Los datos extraídos de cada estudio fueron: el nombre de la revista, fuente de financiación, el valor de p, el tamaño de la muestra, el número de eventos, si el grupo control es placebo o fármaco activo, el tiempo de seguimiento y tipo de cegamiento de la intervención.
Índice de Fragilidad
El Índice de Fragilidad para cada desenlace fue calculado según el método descrito por Walsh et al 1, usando tablas de contingencia 2x2. Luego se añade un valor en el grupo expuesto o de intervención de “No eventos” a la celda de “Evento” (y substrayendo un “no evento” del mismo grupo para mantener el número total de pacientes constante) si el desenlace es negativo y se recalcula el valor de p del test exacto de Fisher (2 colas), se añaden sucesivamente eventos hasta que el valor de p sea mayor o igual a 0,05. Si el desenlace es positivo se resta un valor en el grupo expuesto de “Eventos” y se suma a la celda de “No evento” volviendo a recalcular el valor de p hasta que este deje de ser significativa (Figura 1). Para la evaluación de los valores del test exacto de Fisher y el IF se realizó un algoritmo en R Studio que permitía visualizar la totalidad de las iteraciones de los valores de p hasta encontrar el IF (Figura 2). De existir discordancia se volvía a correr el algoritmo y se buscaba de forma conjunta el valor en el cual a+f y b-f tenía un valor de p(0,05.
El número mínimo de eventos totales que se tuvieron que añadir para lograr un valor de p mayor o igual a 0,05 es el Índice de Fragilidad.
La Figura 2 representa en la abscisa (eje x) el número de iteraciones (a+f) y en la ordenada (eje y) cada círculo representa un valor de p según la prueba exacta de Fisher. La línea roja corresponde a p=0,05, el primer corte sobre la gráfica, cuando sobrepasa el valor de p=0,05, es el número de iteraciones en que deja de tener significancia estadística o índice de fragilidad, el segundo corte muestra el número de iteraciones al cual vuelve a haber significancia con el desenlace contrario.
Análisis estadístico
Se emplearon estadísticos descriptivos para resumir las características de los estudios y el IF y CF de los ECA. Se reportaron las variables continuas como medias y medianas con desviaciones estándar y rangos intercuartílicos (IQRs) respectivamente. Se calculó el valor de la prueba de Kolmogorov-Smirnov para medir la distribución de las variables. Se planeó a priori usar el coeficiente de correlación de Spearman para evaluar la correlación directa entre el Índice de Fragilidad y el tamaño de la muestra, el número de eventos, el valor de p y el tiempo de seguimiento. Se evaluó la significancia de todos los resultados con un valor de p<0,05 con dos colas considerándolo significativo. Todos los análisis se realizaron usando Excel 2016 y SPSS V.26.
Se realizó coeficiente Kappa de Cohen para evaluar la concordancia entre los dos revisores para la búsqueda y calcular el IF. Un Kappa de 0 a 0,2 representa acuerdo leve, 0,21 a 0,4 acuerdo justo, 0,41 a 0,60 acuerdo moderado, y 0,61 a 0,80 acuerdo sustancial. Un valor por encima de 0,8 es considerado un acuerdo casi perfecto 21.
Resultados
Selección de estudios
Inicialmente la búsqueda de datos arrojó 250 artículos, luego cada autor aplicó criterios de inclusión y exclusión a los resúmenes obteniendo 48. Los autores revisan el texto completo encontrando que cinco de ellos eran sub-estudios sobre desenlaces secundarios y en dos ensayos clínicos no mencionan significancia estadística o el número de pacientes con el desenlace entre los grupos. Se obtiene una inclusión final de 41 desenlaces a evaluar (Figura 3). Se encuentra un Índice de Kappa de la búsqueda de 0,78 (IC 0,67; 0,88) y del cálculo del IF 0,91 (IC 0,83; 0,98).
La Tabla 1 resume las características de los estudios. La mediana del tamaño de la muestra fue de 278 (IQR 101-2456,5), la mayoría de los artículos encontrados fue del NEJM (51,2%), no se encontró ningún ECA que cumplieran con los criterios de inclusión en BMJ. La mediana del seguimiento fue de 3 años (IQR 1,26-4,6), Encontrándose muy pocas pérdidas de pacientes analizados con una mediana de 0 (IQR 0-5,5). El 73% de los ensayos fueron financiados por la industria, el 78% tuvo tratamiento activo en el grupo control y el 61% de los estudios no tuvieron enmascaramiento.
Índice de fragilidad
La mediana del Índice de fragilidad fue de 11, y en tres estudios (7,3%) se encontró que el resultado no era estadísticamente significativo después de recalcular la p con el test exacto de Fisher, resultando en un Índice de Fragilidad de cero. No hubo diferencia en los valores del IF entre revistas; el NEJM tiene una mediana de 9 al igual que Lancet, mientras que Annals tiene una mediana del IF de 12 y JAMA de 13. No hubo diferencia del IF entre estudios financiados y no financiados. Se encontró aumento de los valores del IF entre mayor número de desenlaces se reportará, con una mediana del IF de 8 (IQR 2-11) cuando había menos de 26 eventos, y una mediana de 32 (IQR 3-84) si había un número de eventos mayor a 425. También se observa diferencias en el valor del Índice de Fragilidad entre estudios con valores de p cercanos a 0,05 y valores de p más bajos, con una mediana del IF de 3 en los estudios con p más cercano a 0,05 y de 14 en los valores más bajos de p. Se resumió las características del IF entre subgrupos en la Tabla 2.
En la prueba Rho de Spearman se encontró una relación directa leve entre el número de eventos y el Índice de Fragilidad (Rho= 0,343, p= 0,02) y se observó una correlación moderada inversa entre el valor de p y el IF (Rho= -0,632, p= 0,000) 22.
No se encontró correlación estadísticamente significativa entre el tamaño de muestra, tiempo de seguimiento y pérdidas con el IF (Tabla 3).
Discusión
Actualmente dentro de la epidemiología clínica, viene en discusión el valor de p como única medida para valorar significancia estadística. Basados en la discrepancia de resultados entre ensayos clínicos controlados y que la significancia depende de muy pocos eventos dentro del estudio, se esta estudiando cada vez mas el índice de fragilidad, como medida objetiva para valorar la robustez de los ensayos clínicos.
En 41 ECAs sobre diabetes publicados en las revistas de mayor factor de impacto a nivel mundial se encontró que añadiendo pocos eventos al desenlace eliminaba la significancia estadística del estudio, evidenciado en que la mediana del IF fue de 11, y en un 7,3 por ciento el Índice de Fragilidad fue de cero cuando se recalculaba la p mediante la prueba exacta de Fisher.
Además de esto, encontramos que el IF tenía una asociación moderada negativa con el valor de p, y una asociación directa leve con el número de eventos. Resultando que el factor independiente que contribuye a una mayor robustez en los ensayos clínicos es un bajo valor de p calculado con el test exacto de Fisher.
Relación con artículos previos
Nuestro estudio muestra que en un 7,3% de los ensayos clínicos el IF es cero, Walsh et al. 1 reporta un IF de cero en un 10%. Esto evidencia que aproximadamente 1 de cada 10 ensayos clínicos no tienen significancia estadística después de recalcular el valor de p. También hay similitud en la mediana del IF. Se evidenció una mediana de 11 en el IF comparada con la de Walsh et al. Que reportó 11. Además, se encontró relación directa entre el número de eventos y el IF, sin embargo, la asociación de este estudio fue leve y la del estudio de comparación, moderada. No se encontró asociación entre el IF y el tamaño de muestra comparado con otros estudios.
Ridgeon et al. 3, Khan et al. 11 y Evaniew et al. 7 realizan el cálculo del IF en ECAs sobre cuidado intensivo, cirugía deportiva y cirugía de columna, respectivamente, encontrando mayor fragilidad en estos estudios con una mediana del IF de 2, y un IF de cero entre 17% y 20%. Ridgeon et al. asocian este índice al tamaño del ensayo, levemente al número de centros que fue realizado, y negativamente al valor de p tal cual como nosotros hemos encontrado. No encontraron relación si hubo cegamiento al igual que nosotros. Mientras que Khan et al. y Evaniew et al. encuentran una asociación fuerte y moderada respectivamente con los valores bajos de p y el IF, sin encontrar relación con el tamaño de la muestra al igual que nosotros. Estos resultados subrayan la discrepancia en el tamaño entre los estudios de esos campos con los evaluados en el presente estudio.
Docherty et al. 16 evalúa ECAs en falla cardiaca, siendo el estudio que ha evaluado ensayos clínicos más robustos con una mediana del IF de 26, encontrando un artículo con IF de 0. Ellos encuentran asociación moderada con el valor de p y el valor del IF, sin encontrar relación con el tamaño de muestra, número de eventos, el número de pérdidas y el tipo de desenlace.
Nuestro estudio cae en una zona especial descrita por Walter 6, refiriéndose a ella como Zona 2, en donde los ensayos clínicos son estadísticamente significativos, cuantitativamente significativos pero frágiles. En estos casos se recomendaría dudar del veredicto de la significancia estadística a pesar de lo que aparenta el valor de p o el intervalo de confianza. Mostrándonos que los clínicos están basando las decisiones de la práctica clínica en pocos eventos debido a su alta fragilidad, lo que podría explicar la dificultad en reproducir los resultados de los ensayos 4,10.
Las principales limitaciones del índice de fragilidad: son la necesidad de aleatorización 1:1 y el hecho de que deba ser usado en variables dicotómicas, excluyendo de esta manera, variables continuas y asignaciones de 2:1 o mayores 12,17. Por otro lado, en la actualidad no se cuenta con puntos de corte o valores que sugieran fragilidad o robustez en el resultado arrojado12.
Implicaciones
Es probable que muchos clínicos no tengan entrenamiento sustancial en estadística y que la interpretación de los valores de p y de los intervalos de confianza sea limitada y hecha de manera intuitiva 3. Por lo cual se creó una nueva aproximación que demuestra que tan fácil puede cambiar la significancia de un resultado basado en únicamente el valor de p 2. El Índice de Fragilidad es un estadístico que ha evolucionado con el tiempo y se ha destilado a una forma sencilla y fácil de usar que permite al lector de forma rápida evaluar la robustez de los resultados, en los cuales pequeños cambios entre los pacientes no cambian la magnitud del estimado ni su significancia. Es por esto por lo que consideramos que el IF es un estadístico simple y práctico de realizar con una fácil interpretación que permite ayudar a analizar la confiabilidad de la significancia estadística de los resultados.
Por otro lado, la validez de un resultado también depende de la precisión de este, y para mejorar la precisión en un ECA se requiere aumentar el número de eventos o desenlaces, y es por esto que, los investigadores aumentan el tamaño de la muestra como medida indirecta, para elevar el número de desenlaces y así hallar una diferencia significativa, sin embargo, el cuándo el número de pérdidas es mayor que el IF, también se vería la fragilidad de los resultados 23. Sin embargo incluso en ECAs con muestra numerosa se ha encontrado fragilidad como es el caso de LIMIT-2 3. Además en este estudio encontramos ECAs con valores altos del IF en estudios con muy poca muestra pero con importante número de desenlaces, como el caso de los ensayos clínicos de cirugía bariátrica, lo que nos corrobora que más importante que el tamaño de la muestra es el número de eventos. Es por eso que aconsejamos que se deba visualizar todo el panorama al evaluar los resultados de un estudio, que hayan ocurrido suficientes eventos en vez del tamaño de la muestra, que se realice el IF en los estudios que se pueda calcular y que el valor de p sea el menor posible como es sugerido por algunos autores, debido a la creciente evidencia que el límite de 0,05 del valor de p no provee evidencia fuerte ni conclusiva en contra de la hipótesis nula 4.
Los resultados de este articulo nos dan una herramienta adicional para interpretar el valor de p de forma más dinámica además del valor por sí sólo, permitiéndonos tomar en cuenta otros factores que en ocasiones son pasados por alto, tales como el número de eventos y de la muestra. La moderada asociación del IF con valor de p nos dice que en un futuro puede ser necesario tener como referencia un menor valor de p para aumentar la robustez de los resultados y así aumentar su confiabilidad para disminuir la necesidad de otros ensayos clínicos de confirmar o desmentir los desenlaces.
Teniendo en cuenta todo esto, nos añadimos a lo que muchos autores refieren sobre recomendar el uso de este estadístico para los ECA 1,3,7,9,11,12,17,24, debido a su utilidad para asistir al clínico en determinar la confianza del resultado, mejorar el entendimiento de los resultados de los ensayos y de los valores de p, evidenciar que aunque haya un estimado de mayor magnitud estos pueden ser frágiles como por ejemplo en los ensayos clínicos pequeños, pudiendo de esta manera resolver dudas que no son intuitivas 3,24.
A su vez, encontramos como cada vez son más los estudios que sugieren la inclusión del IF en los resultados de los RCT y ahora también, en las GPC y metaanálisis, de las distintas áreas y especialidades en el área de la salud 12,14,24.
Limitaciones
El uso del IF tiene limitaciones importantes, una de estas es la no aplicabilidad en desenlaces continuos, por lo cual no se puede generalizar su uso teniendo en cuenta que en diabetes muchos estudios tienen desenlaces continuos tales como el nivel de la hemoglobina glicosilada, o desenlaces de funcionalidad.
En nuestro estudio hemos analizado una moderada cantidad de ensayos, debido a esto no se puede realizar una clara asociación entre las características de los estudios y el IF.
Carter 5 realiza una crítica al Índice de fragilidad, y afirma que debido a su asociación al valor de p y al número de eventos, este Índice puede ser más robusto únicamente con aumentar el tamaño de la muestra; y refieren que no en todos los ensayos se puede aumentar el tamaño de la muestra para tener un IF adecuada debido a que hay recursos limitados y estos están destinados para una muestra balanceada con la eficacia esperada, por lo tanto es esperable que los resultados dependan de unos pocos eventos. Sin embargo Stern (4) afirma que no es necesario un gran cambio en el tamaño de la muestra para disminuir el valor de p de 0,05 a 0,001.
Otra de las críticas realizadas al IF es que no se puede caer en el error de caracterizar un ensayo de robusto o no robusto únicamente con el valor del IF sin tener en cuenta otros factores tales como el diseño del estudio, la mitigación de sesgos, la magnitud del estimado puntual, entre otros (5, 25) .
Conclusiones
En nuestro estudio encontramos en los ensayos clínicos controlados sobre diabetes, en 5 de las revistas con mayor factor de impacto que los resultados estadísticamente significativos dependen de unos pocos eventos, evidenciado por un bajo valor en el Índice de Fragilidad; y que los valores de esta medición están relacionados con el número de eventos y negativamente con el valor de p.
El presente artículo adiciona evidencia para el uso del IF como un estadístico práctico y fácil de interpretar que ayuda a valorar la robustez y la confiabilidad de los resultados de un ensayo clínico. Sin embargo se deben hacer estudios adicionales para aclarar: ¿cómo se debe interpretar el IF?, ¿Cómo se interpretaría si el IF es de 3, 40 o de 100?, ¿Qué punto de corte debemos tomar para valorar un ensayo clínico como robusto o frágil? Y ahora también, ¿se iniciará la implementación del IF en variables continuas? y ¿esto aportará solidez en la evidencia actual?.