Introducción
La Enfermedad Renal Crónica (ERC) representa una alta carga de enfermedad y un aumento considerable de los costos de los sistemas de salud para su atención 1, además del deterioro de la calidad de vida y la pérdida de años de vida ajustados por discapacidad 2. En los últimos años, la ERC ha sido la segunda enfermedad, después del VIH/sida, con mayor aumento en la mortalidad debido principalmente a la falla renal (ERCT) o causas asociadas. Adicionalmente, los costos de las complicaciones continúan en aumento y su diagnóstico más tardío 3. La identificación de los pacientes con mayor riesgo de progresar a ERCT, es fundamental para la planeación del tratamiento en ERC, pero no ha podido hacerse consistentemente 4-7.
Disponer de métodos efectivos para estratificar el riesgo individual, permitiría tomar decisiones más informadas sobre el manejo y ayudaría a la racionalización del uso de recursos en salud 8. Los modelos de predicción podrían ser una herramienta útil para la progresión a falla renal 9-12. La estratificación del riesgo facilitaría la planeación del tratamiento y ayudaría a la optimización de recursos 13-15. Sin embargo, la usabilidad de los modelos de predicción en la ERC es muy baja, debido quizás en parte, a que requiere un proceso metodológico complejo 16-18.
La dificultad en anticipar la ERCT conlleva un incremento progresivo del impacto de la ERC, el cual ha estimado que podría haber más de un 50% de subpoblaciones en alto riesgo 19-23. Por ello, es relevante mejorar la comprensión de los retos que entraña la usabilidad de la predicción en el ámbito clínico, sobre todo en escenarios complejos y heterogéneos como el cuidado de la ERC. El objetivo de esta revisión fue identificar los factores y las limitaciones que han dificultado la usabilidad de modelos de predicción o reglas de pronóstico de ERCT en la práctica clínica.
Métodos
Tipo de estudio y criterios para la selección
Se desarrolló una revisión de alcance de la literatura disponible sobre modelos predictivos o reglas de pronóstico de ERCT en pacientes con ERC 24. La pregunta en formato PICO orientó las búsquedas 25. Se seleccionaron artículos cuyo objetivo fue desarrollar y validar algún modelo predictivo o pronóstico para ERCT en adultos con ERC. Se incluyeron artículos con validación interna y con alguna medida de validez externa de los modelos. Se excluyeron los estudios con poblaciones con VIH/SIDA, cáncer, mujeres embarazadas y glomerulopatías primarias como causa de la ERC, lo cual incrementa la incertidumbre sobre la validez de los resultados y el riesgo de inadecuada clasificación 20.
Métodos de búsqueda para la identificación de estudios
Se realizaron búsquedas sistemáticas en Cochrane, Embase y Medline, libres y manuales de los estudios referenciados. La búsqueda se desarrolló hasta mayo de 2022. No se restringió por idioma ni por tipo de estudio. Algunos de los términos usados para la búsqueda fueron: Renal Insufficiency, predicts kidney, End Stage Renal Disease (ESRD), (eGFR) Glomerular Filtration Rate, probability individual risk, Prognosis, Prognostic Model, Prediction Rule, Disease Progression, risk prediction, risk score, GFR risk stratification.
Extracción de datos y análisis
Los artículos fueron inicialmente identificados por título y resumen de manera independiente por dos evaluadores. Se retiraron los duplicados y fueron secuencialmente revisados para la inclusión (Figura 1). Cuando fue necesario, se revisó el texto completo de los artículos antes de decidir su inclusión. La notificación de las medidas cuantitativas del rendimiento predictivo global de las herramientas era preferible, pero no necesario para la inclusión. Estas métricas son reconocidas y utilizadas para la evaluación de modelos de predicción 26,27. Los estudios incluidos conformaron la síntesis cualitativa.
Evaluación de la calidad de los estudios
Se utilizó el sistema GRADE 28 para la evaluación de la calidad de los estudios, incluidos los secundarios o de síntesis. La evaluación se hizo con base en dos criterios: el riesgo de sesgos y la calidad global de la evidencia o grado de certeza. De cada estudio, se buscó extraer datos sobre el diseño, las características de la población, el número de pacientes, el número de participantes con el resultado de interés, el número de variables candidatas y evaluadas como predictores, las variables incluidas en el modelo final, y el modelo estadístico utilizado, cuando fue posible.
Resultados
Selección de los estudios
Se encontraron 1279 artículos, 1221 derivados de las búsquedas sistemáticas y 58 a partir de la búsqueda libre y manual. Luego de retirar los duplicados, quedaron 688 estudios y se excluyeron 576 por título. Se revisaron 112 resúmenes, 40 artículos completos y finalmente fueron incluidos 19 estudios para la síntesis cualitativa. La mayoría de los estudios eran primarios, con diseños observacionales retrospectivos y unos pocos correspondieron a revisiones sistemáticas. No se encontraron guías de práctica clínica (Figura 1).
Descripción de los estudios
El 42% de los estudios incluidos (8/19) correspondieron a estudios observacionales, de los cuales 3 eran cohortes prospectivas, 3 de cohorte retrospectiva y los 2 restantes, un ensayo clínico y un estudio de casos y controles anidados en cohortes. El 37 % (7/19) de los artículos eran revisiones sistemáticas de la literatura, principalmente de estudios observacionales tipo cohorte, 2 revisiones se derivaron de bases de datos o registros poblacionales y solo una revisión fue sobre ensayos clínicos. Dos estudios basados en registros y dos documentos de análisis crítico (Tabla 1).
Síntesis cualitativa de la evidencia
Los estudios observacionales 29-35,41,44 incluyeron 606 806 pacientes, con un seguimiento promedio de 4 años. La mayoría de los modelos incluyeron la edad, el sexo, la tasa de filtración glomerular (TFGe), el calcio, el fósforo y la microalbuminuria como predictores. Se reportaron incidencias aproximadas de 2% y las medidas de la capacidad predictiva fueron reportadas solo en 2 estudios, con valores que superaban el 0.75 de exactitud. Ninguno desarrolló la validación externa del modelo (Tabla 1).
Las revisiones sistemáticas 27,36-40 presentaron heterogeneidad en el diagnóstico, las causas de la ERC y las variables. La mayoría de las evaluaciones no fueron explícitas y, aunque reportaron haber usado el análisis de supervivencia de Cox, no fue explícito el desarrollo metodológico para valorar el rigor y la validez. Tampoco reportaron medidas de validación externa para uso en la práctica clínica. Las propiedades discriminatorias reportadas por algunos fueron aceptables, no así las propiedades de calibración, las cuales casi no fueron reportadas (Tabla 1).
Los estudios basados en registros 42,43 y otros artículos 45,46 mostraron las limitaciones de los estudios retrospectivos con respecto a la calidad de los datos. El hecho de no ser diseñados para el desarrollo de modelos conllevó gran variabilidad en los factores para el desarrollo de los modelos, el tiempo de seguimiento, los criterios diagnósticos y de inclusión y los desenlaces eran compuestos en muchos casos, combinados con resultados cardiovasculares (Tabla 1).
Evaluación de la calidad de la evidencia
Los estudios observacionales presentaron riesgo de sesgos moderado a alto, debido principalmente a sesgos de selección por inapropiada clasificación, sesgos de medición por limitaciones metodológicas importantes y la falta de validación externa. La calidad global, fue de baja a moderada. Las revisiones sistemáticas tuvieron riesgo alto de sesgos en 5 de 7 estudios, debido a la inconsistencia entre estudios, limitaciones metodológicas de los estudios primarios y algunos con evidencia indirecta. La calidad global de la evidencia fue de baja a muy baja. Los estudios basados en registros también presentaron riesgo moderado a alto de sesgos y la calidad de la evidencia aportada es de baja a muy baja. Estos aspectos, junto con la heterogeneidad, indican la persistencia de incertidumbre importante frente a la utilidad de los modelos (Tabla 1).
Discusión
Esta revisión de alcance logra aproximarse a la comprensión de las limitaciones que tiene el uso de modelos predictivos o de pronóstico en la ERC. Como lo expresó Echouffo-Tcheugui y cols en 2012, la predicción en nefrología se encuentra en su infancia 27,47. Muchos estudios no pasan de hacer análisis de asociación de factores de riesgo y se ha observado que puede haber confusión entre el desarrollo de modelos explicativos frente a los de predicción 48-50. A pesar del número considerable de estudios publicados, la calidad es altamente variable, lo cual podría explicarse por la subestimación de la metodología de la investigación predictiva 15,17. Por ejemplo, aunque los métodos estadísticos más usados son la regresión logística y el análisis de supervivencia mediante la regresión de Cox, no es frecuente que se validen los supuestos 51.
Adicionalmente, el carácter retrospectivo de casi todos los estudios dificulta el acceso a medidas repetidas que permitan mejorar la exactitud de las predicciones. Como ejemplo, el estudio de 2012 por Turin y cols 31, mostró que una declinación de al menos un 25% en la función renal, podría indicar un aumento en el riesgo de progresión a falla renal y concluyó que varias mediciones pueden aportar información del pronóstico más exacta. Sin embargo, no es adecuado evaluar la utilidad de modelos predictivos en la práctica clínica solo con las propiedades operativas y estadísticas del desarrollo 27.
Varios factores estadísticos o clínicos pueden conducir a que un modelo de pronóstico tenga mal desempeño durante la validación externa 15. Las predicciones del modelo pueden no ser reproducibles debido a deficiencias en los métodos de diseño o modelado para derivarlo. El problema más frecuente es el sobreajuste, o la ausencia de variables importantes en el modelo 17,26. El bajo rendimiento de un modelo en los nuevos pacientes puede reflejar la falta de ajuste a las nuevas mediciones, incluyendo las diferencias en los sistemas de salud, los métodos de medición y las características clínicas de los pacientes 15,32,37.
Aunque esta revisión tuvo limitaciones importantes, debido principalmente a la alta heterogeneidad entre los estudios y los sesgos previos a la inclusión, se pudo establecer un estado actual de la aplicabilidad de modelos predictivos de falla renal. Varios autores han corroborado que la mayoría de los modelos que hay actualmente publicados, no han sido adecuadamente validados y, por tanto, se consideran de uso limitado para el pronóstico individual del paciente con ERC 36-38,49,52. Por lo tanto, se concluye que se requieren esfuerzos adicionales para centrar el desarrollo e implementación de modelos predictivos en la validez externa y la usabilidad y disminuir la brecha entre la generación, la síntesis de evidencia y la toma de decisiones en el ámbito del cuidado del paciente.
Conclusión
Esta revisión sirve como una herramienta que contribuye a identificar las principales propiedades que determinan la aplicabilidad de un modelo predictivo en la práctica clínica y algunas de las limitaciones más comunes para su utilización. En ese sentido, se requiere una mayor discusión y consenso acerca del significado y alcance del constructo de “usabilidad”.