Introducción
Las neoplasias mieloproliferativas (MPN) son un grupo heterogéneo de enfermedades caracterizadas por la proliferación clonal de las células madres hematopoyéticas de las líneas eritroides, mieloides y megacariocíticas, y de células maduras en sangre periférica. Las MPN comprenden: la policitemia vera (PV), la trombocitemia esencial (TE) y la mielofibrosis primaria (MFP), incluidas dentro de la clasificación de neoplasia mieloide por criterios clínicos, histológicos y moleculares.
En las MPN las opciones de tratamiento son reducidas y se han orientado principalmente hacia la paliación de los síntomas. Con el descubrimiento de la mutación JAK2 V617F en 2005, se sugiere una patogénesis común en las MPN negativas para el cromosoma Filadelfia, que se constituyó en un nuevo blanco terapéutico, cuya eficacia de manera general se manifiesta en la reducción del tamaño del bazo, la disminución de síntomas constitucionales, mejoría en la tolerancia al ejercicio y la ganancia de peso 1,2.
Si bien la TE, la MF y la PV son enfermedades diferentes, comparten muchos síntomas, por lo cual, en el año 2007 Mesa et al. aplicaron una encuesta a 1179 pacientes con MPN con el fin de registrar los síntomas más significativos de estas tres enfermedades 3.
A partir de la evidencia obtenida, el mismo grupo investigador creó la escala MF-SAF (Mye-lofibrosis Symptom Assessment Form), en la que estableció una medida de la calidad de vida y de los síntomas específicos de la MF, que evolucionó en la MPN-SAF (Myeloproliferati-ves Neoplasm Symptom Assessment Form) al considerar que podían mejorar su utilidad ampliando su espectro de acción al ámbito del conjunto de MPN 4,5.
Una escala, para ser aplicable en la práctica clínica, debe caracterizarse por ser breve, clara y fácil de usar; estos criterios evidenciaron la necesidad de realizar ajustes a la escala MPN-SAF cuando se utilizó en el ámbito clínico, por lo cual se creó una escala abreviada autoaplicable enfocada a los síntomas clínicos más relevantes y característicos de las MPN -la escala MPN-SAF-TSS-, que evalúa solamente 10 ítems 6.
Con la llegada de nuevos fármacos no curativos pero sí capaces de cambiar el curso de la enfermedad, se impone la necesidad de contar con criterios uniformes de valoración, en cuanto a respuesta se refiere, que permitan la evaluación precisa de la eficacia de las nuevas terapias; es por esto, que a partir de la evidencia provista por ensayos clínicos recientes la RWG-MRT (International Working Group for Myelofibrosis Research and Treatment) en conjunto con la ELN (European Leukemia Net) establecieron como criterios de respuesta, entre otros, la mejoría de acuerdo a la evaluación con la escala MPN-SAF TSS, que la instauraron a nivel internacional como una herramienta muy útil en la práctica clínica para el monitoreo de la sintomatología del paciente y la evaluación de la respuesta al tratamiento 7.
Es claro que para tener la posibilidad de elaborar estudios entre diferentes países o culturas lo mejor es adaptar y validar un instrumento ya aceptado; por ello, el objetivo del presente estudio es validar una versión en español de la escala abreviada de síntomas más representativos de MPN en Colombia, con el fin de disponer de una herramienta con adecuada validez y confiabilidad, que permita el desarrollo de la investigación y que sea fácilmente interpretable y aplicable a nivel clínico.
Materiales y métodos
La presente investigación es de tipo instrumental y se orienta a verificar la confiabilidad y las evidencias de validez basadas en la estructura interna, que son las propiedades psicométricas de la escala MPN-SAF-TSS, objeto del proceso de validación. Para conseguir el objetivo se realizaron distintos análisis estadísticos en el programa R, usando para todas las pruebas un nivel de significación del 0,05 como regla de decisión 8,9.
El tamaño de la muestra fue determinado para cada propiedad psicométrica, considerando para el análisis factorial inicial lo recomendado por Norman y Streiner: cinco pacientes por ítem. Los tamaños muéstrales para la confiabilidad y validez se calcularon de acuerdo a lo propuesto por Donner, los cálculos se realizaron con la ayuda del software Study Size 2.0.5.4. Para la consistencia interna, se asumió un error tipo I de 0,05, un poder de 0,80, un valor del coeficiente de correlación alfa de Cronbach igual a 0,83 para la hipótesis alterna, un valor del coeficiente de correlación alfa de Cronbach igual a 0,7 para la hipótesis nula y, teniendo en cuenta que el número de ítems de la escala es 10, se estimó un tamaño de la muestra de 53 pacientes 6,10,11.
Para la confiabilidad prueba-reprueba se asumieron los mismos valores de error tipo I y II, un coeficiente de correlación y concordancia de Lin de 0,7 para la hipótesis alterna y un valor de 0,6 para la hipótesis nula, donde se estimó un tamaño de muestra de 33 pacientes. Para la validez de criterio concurrente se estimó un tamaño de muestra de 30 pacientes, con los mismos valores asumidos para error tipo I y II, un valor del coeficiente de correlación poblacional igual 0,5 para la hipótesis alterna -como el encontrado por Robyn- y un valor del coeficiente de correlación igual a 0 para la hipótesis nula 6.
Instrumento
La escala MPN-SAF-TSS es una herramienta autoaplicada abreviada que se enfoca en evaluar los 10 síntomas más característicos de las MPN. Los síntomas seleccionados fueron fatiga, concentración, saciedad temprana, inactividad, sudoración nocturna, comezón/rasquiña, dolor en los huesos, molestia abdominal, pérdida de peso y fiebre a los cuales se les asigna un puntaje entre 0 (ausente/ lo mejor posible) hasta 10 (lo peor imaginable/ tan malo como puede ser) en una escala de autoevaluación análoga lineal para cada ítem (tabla 1) 6.
Los creadores de la escala designaron los síntomas como: ausente (valor 0), leve (entre 1 y 3), moderado (entre 4 y 6) y severo (mayor o igual a 7). Para pacientes que han diligenciado por lo menos seis de los ítems de la escala, el puntaje se computa como la media de los ítems observados multiplicado por 10 para obtener un rango posible entre 0 y 100. Para el puntaje de calidad de vida, cada síntoma se definió como clínicamente deficiente si el puntaje obtenido es como mínimo 4 de los 10 posibles 6.
Adaptación transcultural
Se realizaron dos traducciones de la versión en español neutro, suministrada por el grupo de investigación del Mayo Clinic Cáncer Center, al español hablado en Colombia. Dos expertos hematólogos clínicos generaron sus respectivas versiones teniendo en cuenta la utilización de palabras no técnicas que resulten fácilmente entendibles para los pacientes en quienes se iba a llevar a cabo la medición. Cada experto hizo su tarea de manera independiente.
Bajo la coordinación de uno de los autores y con la presencia de los dos expertos, se compararon las versiones elaboradas por ellos. En los casos de concordancia entre los cambios propuestos por ellos, se tomó la modificación sugerida. Cuando no hubo concordancia se llegó a un consenso para una versión única. En esta etapa se obtuvo una versión preliminar en español colombiano del instrumento.
La versión preliminar fue autoaplicada a 10 pacientes que aceptaron participar en la prueba piloto; con el uso de la técnica de grupo focal dirigida por cada ítem se indagó acerca de los aspectos recomendados por el grupo de calidad de vida EORTC: dificultad para responder, confusión, dificultad para entender y molestia generada por la pregunta. Posteriormente los autores, junto con los expertos clínicos, ajustaron la versión definitiva teniendo en cuenta las dificultades presentadas en la prueba piloto (tabla 1). Finalmente, la versión en español colombiano definitiva se tradujo al inglés para evaluar su concordancia con la escala original.
Procedimiento
Para la totalidad de los instrumentos autoaplicados se llevó a cabo el análisis de la consistencia interna mediante el uso del coeficiente alfa de Cronbach, con el que se pudo establecer qué ítems tenían una medida de homogeneidad entre 0,7 y 0,9. Partiendo de la consideración de que el comportamiento de los ítems de una escala debe examinarse teniendo en cuenta su capacidad discriminativa, es adecuado realizar un análisis de grupos contrastados 12.
Para el análisis de contenido se utilizó el análisis factorial, en el que se consideró en primera instancia la conveniencia del mismo, mediante una inspección visual de la matriz de correlación de Pearson, en la que se consideró la detección de un número sustancial de coeficientes de correlación superiores a 0,6 como un buen indicador. Luego se comprobó si la correlación entre las variables analizadas era lo suficientemente grande para justificar la factorización de la matriz de coeficientes de correlación, por medio del test de esfericidad de Barkletty el índice de Káiser-Meyer-Olkin (KMO).
Para la evaluación de la concordancia entre las mediciones prueba-reprueba se usó el coeficiente de correlación de Lin 13, donde se consideraron fuertemente correlacionadas si el valor era mayor de 0,6. Se evaluaron 37 pacientes de un subgrupo de los incluidos en el estudio (62 pacientes), los cuales se autoaplicaron la escala entre cuatro y siete días después de la medición inicial.
Para verificar la validez de criterio recurrente, 59 pacientes de los incluidos en el estudio se autoaplicaron en una sola ocasión simultáneamente las escalas FACIT-Fatigue y Fact-Lym. Dadas las características de las variables determinadas por la prueba de Iglewicz, se calculó el coeficiente de correlación de Spearman, en el que se consideró que estaban fuertemente correlacionadas si el valor del coeficiente era superior a 0,7. El uso de la escala Fact-Lym y la escala FACIT-Fatigue en español fue autorizado de forma gratuita por la institución Functional Assessment for Chronic Illness Therapy (FACIT).
Resultados
La población incluida en el estudio fue de 62 sujetos con diagnóstico de MPN: 14 (22,58%) con diagnóstico de MF, 14 (22,58%) de PV y 34 (54,84 %) con TE. Predominó el sexo femenino con 36 (58,06%) sujetos versus 26 (41,94%) de sexo masculino, con una edad promedio de 59,01 años (DE=15,21).
De acuerdo con los métodos descritos se encontraron las siguientes propiedades psicométricas.
Consistencia interna
En la tabla 2 se muestran los resultados del análisis de consistencia interna realizado, usando el coeficiente alfa de Cronbach. La consistencia de la escala en general fue un alfa de Cronbach de 0,8552, lo cual denota una buena consistencia interna.
Síntomas | Correlación ítem-test | Correlación ítem-resto | Covarianza interítem | Alfa de Cronbach |
Fatiga o astenia | 0,6338 | 0,5464 | 4,01516 | 0,8433 |
Saciedad temprana | 0,7522 | 0,6842 | 3,793437 | 0,8324 |
Molestia abdominal | 0,7460 | 0,6681 | 3,722854 | 0,8324 |
Inactividad | 0,8077 | 0,7390 | 3,526103 | 0,8248 |
Problemas de concentración | 0,6607 | 0,5712 | 3,926406 | 0,8410 |
Sudoración en las noches | 0,5841 | 0,4651 | 3,989732 | 0,8501 |
Comezón/rasquiña | 0,5571 | 0,4311 | 4,034873 | 0,8533 |
Dolor de huesos o músculos | 0,7877 | 0,7037 | 3,472589 | 0,8276 |
Fiebre | 0,5218 | 0,3980 | 4,129003 | 0,8553 |
Pérdida de peso | 0,5538 | 0,4332 | 4,062151 | 0,8525 |
Total del Test | 3,867231 | 0,8552 |
Como se puede observar, el puntaje de la escala tiende a la baja en caso de eliminarse cualquiera de los ítems que la integran con excepción del síntoma comezón/rasquiña, cuya eliminación lo aumenta en un valor poco representativo, por lo que puede afirmarse que el alfa de Cronbach global se modifica al eliminar cualquiera de los ítems y por lo tanto todos deben permanecer.
Se aplicó el estadístico r de Pearson con el fin de correlacionar el puntaje global con el específico obtenido en cada ítem 14, los coeficientes se pueden observar en la tabla 3 y, como puede verificarse, todos los ítems se correlacionan de manera positiva con el puntaje global de la escala; se determina que fueron estadísticamente significativos, ya que todos los valores p son cero.
Síntomas | r de Pearson | Nivel significación p |
Fatiga o astenia | 0,7154 | 0 |
Saciedad temprana | 0,6492 | 0 |
Molestia abdominal | 0,7641 | 0 |
Inactividad | 0,7286 | 0 |
Problemas de concentración | 0,6675 | 0 |
Sudoración en las noches | 0,5782 | 0 |
Comezón/ rasquiña | 0,4577 | 0 |
Dolor de huesos o músculos | 0,7326 | 0 |
Fiebre | 0,5481 | 0 |
Pérdida de peso | 0,5777 | 0 |
Para contrastar los grupos y establecer el poder discriminativo de los ítems se usó el estadístico t de Student de diferencia de medias para dos muestras independientes, con el objetivo de definir si los sujetos con menor presencia de síntomas (25 % inferior: primer cuartil) tenían una diferencia significativa en la manera en que respondían a cada uno de los ítems, en comparación con aquellos sujetos que reportaron una mayor presencia de síntomas (25% superior: cuarto cuartil).
Los resultados del análisis de grupos contrastados se pueden ver en la tabla 4, donde se puede determinar que todos los ítems permiten discriminar entre un paciente que registra un nivel bajo en la presencia de síntomas y uno que registra un nivel alto de los mismos.
Síntomas | Valor de T | Grados libertad | Nivel de significación |
Fatiga o astenia | -6,67 | 29 | 0 |
Saciedad temprana | -6,03 | 29 | 0 |
Molestia abdominal | -9,86 | 29 | 0 |
Inactividad | -7,38 | 29 | 0 |
Problemas de | -7,50 | 29 | 0 |
concentración | |||
Sudoración en las noches | -4,64 | 29 | 0,0001 |
Comezón/ rasquiña | -2,79 | 29 | 0,0092 |
Dolor de huesos o músculos | -10,20 | 29 | 0 |
Fiebre | -3,04 | 29 | 0,0049 |
Pérdida de peso | -3,71 | 29 | 0,0009 |
Confiabilidad
Para establecer la confiabilidad de la escala MPN-SAF-TSS se utilizó el popular método prueba-reprueba, con un coeficiente de correlación de concordancia de Lin (rh0) de 0,765 (IC95%: 0,631 a 0,898), que fue significativamente distinto de cero (p<0,000), lo cual expresa la coherencia del test consigo mismo y que la información que ofrece es constante.
Análisis factorial
Se incluyeron 62 pacientes que cumplieron con los criterios de inclusión y cuyo puntaje total en la muestra tuvo una media de 40,56 (DE=21,26), una mediana de 41 y un rango de 2 a 93.
Se consideró conveniente realizar el análisis factorial debido a que la revisión visual de la matriz de correlación de Pearson mostró múltiples valores del coeficiente de correlación por encima de 0,3. Además, el valor de 0,796 de la medida de adecuación muestral de KMO indicó que las variables medían factores comunes y la prueba de esfericidad de Bartlett con un valor estadísticamente significativo (p=0) están a favor de llevar a cabo el análisis factorial para determinar los factores subyacentes en la matriz de correlación.
El análisis factorial realizado sugiere que la escala MPN-SAF-TSS corresponde a una estructura unidimensional tal como se puede observar en la tabla 5, donde los valores propios indican que el 93 % de la varianza total del instrumento se encuentra a cargo de un solo factor, por lo tanto cumple con los criterios definidos para clasificarla como unidimensional al explicar más del 40% de la varianza con el primer factor extraído 15.
Factor | Eigenvalue | Diferencia | Proporción | Acumulado |
1 | 3,98792 | 3,44990 | 0,9291 | 0,9291 |
2 | 0,53802 | 0,21116 | 0,1254 | 1,0545 |
3 | 0,32686 | 0,20760 | 0,0762 | 1,1306 |
4 | 0,11926 | 0,12787 | 0,0278 | 1,1584 |
5 | -0,00861 | 0,04708 | -0,0020 | 1,1584 |
6 | -0,05568 | 0,02457 | -0,0130 | 1,1434 |
7 | -0,08026 | 0,04756 | -0,0187 | 1,1247 |
8 | -0,12781 | 0,02866 | -0,0298 | 1,0950 |
9 | -0,15647 | 0,09468 | -0,0365 | 1,0585 |
10 | -0,25115 | , | -0,0585 | 1 |
Análisis de validez de criterio concurrente
Se determina que la escala MPN-SAF-TSS mide lo que dice que debe medir al obtener un adecuado coeficiente de correlación de Spearman (-0,71) estadísticamente significativo (p=0) al correlacionar el ítem de fatiga con los resultados del patrón de referencia (FACIT-Fatigue), y un adecuado coeficiente de correlación de Spearman (-0,73) estadísticamente significativo (p=0) al correlacionar los ítems de la escala correspondiente a los demás síntomas y su patrón de referencia (síntomas de la escala Fact-Lym). La correlación es inversa teniendo en cuenta que puntajes elevados de la escala MPN-SAF-TSS muestran una pobre calidad de vida, mientras que puntajes elevados en las escalas Fact-Lym y FACIT-Fatigue denotan una mejor calidad de vida.
Discusión
La escala MPN-SAF-TSS se constituye en una herramienta eficiente, sensible y fiable para evaluar la carga de síntomas en poblaciones con MPN y permite mostrar las diferentes respuestas al tratamiento o la progresión de la enfermedad. Por ser una escala abreviada, autoaplicada y de fácil diligenciamiento será sencillamente implementada en el ámbito clínico donde estas características del instrumento son ideales. Esta escala aún no había sido validada en español en el contexto colombiano y permitirá hacer estudios comparativos internacionales, lo cual es un hecho importante para la generación de conocimiento sobre este grupo de enfermedades poco frecuentes. Aunque las MPN han sido ampliamente descritas en la literatura, pocos estudios han evaluado la carga de la enfermedad en la práctica clínica 6,16.
El análisis factorial inicial realizado mostró ser una estructura unidimensional cuando se aplicó en Colombia, la varianza explicada por el primer factor extraíble del 93% coincide con el estudio de creación de la escala abreviada; adicionalmente, en él solo se encontró un valor Eigen mayor a 1 y los rangos de las cargas factoriales fueron de 0,3386 hasta 0,7157. Sin embargo, mientras que en la investigación de Robyn los valores inferiores de unicidad fueron para fiebre y pérdida de peso, en la presente investigación correspondieron a dolor en los huesos e inactividad, y nuestro valor superior fue para fiebre en lugar de inactividad. Una limitación del estudio fue el bajo número de pacientes para el tamaño de muestra dada la complejidad en el reclutamiento de los mismos; sin embargo, la medida de adecuación muestral de KMO y la prueba de esfericidad de Bartlett estuvieron a favor de llevar a cabo el análisis factorial y sus resultados fueron similares a los obtenidos en la muestra internacional de 1433 pacientes 6.
Los valores de la validez de criterio concurrente fueron mayores (-0,71 y -0,73) que los obtenidos en el estudio de creación de la escala MPN-SAF-TSS (6), donde reportaron un máximo de correlación de 0,66. Hay que tener en cuenta que cuando se creó la escala, la validez de criterio concurrente se realizó utilizando escalas europeas, mientras que esta se desarrolló con escalas americanas, ambas validadas y utilizadas ampliamente por la comunidad científica internacional.
La consistencia interna del instrumento evaluada con el alpha de Cronbach fue muy similar a la encontrada por Robyn et al. La confiabilidad prueba-reprueba no fue realizada cuando se creó la escala; en este estudio un valor de correlación y concordancia de Lin de 0,76 denota que la escala MPN-SAF-TSS se desempeña consistentemente a lo largo del tiempo entre evaluaciones sucesivas con relativa estabilidad clínica 6.
En general las pruebas psicométricas realizadas al instrumento fueron satisfactorias, por lo que se puede establecer que la escala MPN-SAF-TSS tiene adecuadas propiedades para la evaluación de los síntomas manifestados en MPN y puede considerarse un instrumento útil en la práctica clínica y para la investigación en Colombia.
Teniendo en cuenta además que el desenlace más importante para evaluar el tratamiento de este grupo de enfermedades es el control de los síntomas, resulta relevante disponer de instrumentos que permitan evaluar la respuesta al tratamiento o evaluación de la enfermedad. Frente a este hecho, la IWG-MRT en conjunto con la ELN establecieron criterios de respuesta al tratamiento o monitoreo de la enfermedad con base en la escala MPN-SAF-TSS, los cuales han sido acogidos por la comunidad científica en recientes ensayos clínicos en curso. Es de anotar que este instrumento ha sido usado como un medio de monitoreo de la respuesta al tratamiento y seguimiento de los síntomas como una forma de evaluar la progresión de la enfermedad, pero no como una herramienta de diagnóstico.
Dentro de las limitaciones del presente estudio se encuentra que por decisiones de tipo técnico, administrativas y económicas no se realizó el análisis de sensibilidad al cambio; se sugiere que este componente se desarrolle en una etapa posterior. Se considera que esta no es una limitante que impida la aplicación de la escala en la práctica clínica.