El cuestionario de salud general (General Health Questionnaire, GHQ) es un instrumento que permite la valoración de la morbilidad psicológica en la población general (1,2). Propuesto por Goldberg en 1972 para la valoración del estado mental de los profesionales de la salud, cuenta con versiones de 60, 30, 23 y 12 ítems (3).
El GHQ-12 es la versión más empleada, ya que permite una evaluación rápida de trastornos mentales comunes tan precisa como la de sus predecesores. Se compone de seis ítems redactados de forma positiva y seis redactados de forma negativa (4). Las preguntas pueden puntuarse mediante la modalidad dicotómica binaria (0-0-1-1) propuesta originalmente para el cuestionario, o mediante una escala del tipo de Likert (0-1-2-3), en la cual los ítems positivos se evalúan de esta forma pero la puntuación se invierte para los negativos (5). Para corregir este efecto, se diseñó el sistema binario corregido (0-1-1-1, para los ítems negativos y 0-0-1-1, para los positivos) (6).
Varios autores han señalado que se trata de una escala que representa un constructo multifactorial, a pesar de que los hallazgos iniciales de Goldberg la planteaban como un constructo unidimensional (1,7). Andrich, et al., (8) determinaron que la escala se componía de dos dominios denominados disforia general (ansiedad y depresión) y disfunción social, y que cada dominio estaba conformado por ítems negativos y positivos, respectivamente. Posteriormente, Graetz (9) determinó que la escala se componía de tres factores: ansiedad y depresión, disfunción social y pérdida de confianza. Algunos autores incluso han evidenciado la presencia de un cuarto factor, la anhedonia (10,11).
En el 2008, Hankins comparó diversos métodos de puntuación y las estructuras de los factores del GHQ-12 mediante un análisis factorial confirmatorio, y determinó que la forma de redacción de los ítems negativos y la ambigüedad en las opciones de respuesta en el cuestionario creaban un efecto conocido como sesgo de respuesta, lo cual podía indicar una naturaleza multidimensional espuria del constructo (12). Concluyó que correlacionar la varianza de los errores de los ítems negativos permitía evidenciar de forma correcta su estructura de factores (13). En este sentido, la mejor forma de puntuación es la propuesta originalmente (0-0-1-1), con lo cual el constructo se evalúa como unidimensional.
Se han hecho múltiples esfuerzos para replicar las estructuras factoriales propuestas por Goldberg, et al., Andrich, et al., y Graetz (14,15). Sin embargo, la inestabilidad del constructo, las características de la población y las particularidades de la redacción de susítems, no permiten conclusiones definitivas sobre los múltiples factores encontrados. Además, en diversos estudios se ha empleado de forma indiscriminada el GHQ-12 con una escala de Likert para la puntuación (16), pero muy pocosde estos estudios se han hecho con el cuestionario en español y utilizando un análisis factorial confirmatorio para determinar su validez, por lo cual la capacidad de determinar la validez real del constructo en la población evaluada y la posibilidad de generalizar los resultados encontrados es limitada (17). En Colombia se han hecho estudios exploratorios sobre la estructura de factores del GHQ-12, pero ninguno ha recurrido al análisis factorial confirmatorio, razón por la cual no existe evidencia científica en el país sobre la validez de esta escala (18).
En este sentido, el objetivo del presente estudio fue comparar la validez de constructo y la consistencia interna de tres estructuras factoriales y dos métodos de puntuación (del tipo de la escala de Likert y dicotómica binaria) del cuestionario de salud general de 12 ítems.
Materiales y métodos
Se hizo un estudio de validación en una muestra anidada de 483 estudiantes de odontología de dos universidades de Cartagena, Colombia. La investigación se desarrolló en el marco de un estudio multicéntrico desarrollado en tres facultades de Odontología de Cartagena, para determinar la presencia de trastornos mentales comunes y los factores relacionados con su aparición (19). Debido a las similitudes sociodemográficas, personales y académicas de los participantes de cada centro, se seleccionó una muestra aleatoria conformada por poco más de la mitad (56,16 %) de los estudiantes.
Los estudiantes respondieron de forma anónima la encuesta que, además del GHQ-12, contenía preguntas que indagaban por la presencia de factores personales y académicos de interés. Se incluyeron estudiantes matriculados, activos académicamente y que voluntariamente desearon participar en la investigación.
El GHQ-12 consta de 12 ítems redactados en forma de pregunta que indagan sobre la presencia de síntomas emocionales (de ansiedad y depresión) en las cuatro semanas anteriores. Seis de estas preguntas están redactadas de forma positiva (ítems 1,2, 7, 10, 11 y 12) y, seis, de forma negativa (3, 4, 5, 6, 8 y 9); las opciones de respuesta fueron las siguientes: nunca, a veces, muchas veces y siempre. Las preguntas del cuestionario se enumeran en el cuadro 1. versión en español empleada en el estudio se tomó de una investigación previamente realizada en Colombia con este instrumento (20).
Para la evaluación de los síntomas, se pueden emplear diversos métodos de puntuación: uno del tipo de la escala de Likert (ítems positivos: 0-1-2-3; ítems negativos: 3-2-1-0), un método dicotómico (ítems positivos: 0-0-1-1; ítems negativos: 1-1-0-0)o un método dicotómico corregido (ítems negativos: 0-1-1-1; ítems positivos: 0-0-1-1). Si se emplea la forma de puntuación del tipo de la escala de Likert, los puntajes varían de 0 a 3; en este sentido, el máximo puntaje posible es 36. Si se emplea una puntuación dicotómica, los puntajes pueden variar de 0 a 12.
Mediante el análisis factorial confirmatorio, se determinó la validez de constructo de las siguientes estructuras de factores: launidimensional, la unidimensional con corrección del sesgo de respuesta (correlación del error de la covarianza de losítems negativos), y la de dos y tres factores. Cada una de estas estructuras se combinó con el método de puntuación dicotómico y el de tipo de la escala de Likert. De esta manera, se determinó la validez de constructo de ocho modelos.
Mediante el método de estimación de mínimos cuadrados parciales con media y varianza ajustada, se obtuvieron los índicesde ajuste para cada uno de estos modelos: ji al cuadrado y grados de libertad (gl), p, raíz cuadrada del error medio de aproximacióny su intervalo de confianza de 90 %, índice comparativo de ajuste e índice de Tucker-Lewis. Empleando los criterios propuestos por Hu, et al., se determinó que el ajuste del modelo era aceptable si presentaba los siguientes valores: p mayor de 0,05; raíz cuadrada del error medio de aproximación de 0,06 o menor; índice comparativo de ajuste e índice de Tucker-Lewis de 0,95 o mayor (21).
La consistencia interna se determinó con el coeficiente alfa de Cronbach para la puntuación del tipo de la escala de Likert y con la fórmula 20 de Kuder-Richardson para la forma dicotómica, y se calificó como aceptable cuando era de 0,70 o mayor (22). El análisis descriptivoy la estimación de la consistencia interna se hicieron con el programa Stata(tm), v. 13.2 para Windows (Stata Corp., College Station., TX., USA) y, el análisis factorial confirmatorio, con el Mplus(tm), v. 7.11 para Windows (Muthen y Muthen, Los Ángeles, CA, USA).
Consideraciones éticas
Este estudio contó con la aprobación del Comité de Ética en Investigación de la Universidad de Cartagena. En cumplimientode las normas nacionales e internacionales para investigación en salud, todos los participantes firmaron un consentimiento informado después de recibir información suficiente y entender los objetivos del estudio.
Resultados
La mayoría de los estudiantes incluidos en la muestra final estaba en los semestres del ciclo básico (53,6 %), más de la mitad eran mujeres (66,2 %) y la edad promedio fue de 20,8 años (desviación estándar, DE=3,01) (cuadro 2).
Validez de constructo
Según los resultados, el mejor ajuste se obtuvo con la estructura unidimensional con corrección del sesgo de respuesta y errores de la covarianza correlacionados para los ítems negativos y la forma binaria de puntuación (gl=36; ji al cuadrado= 52,432; p<0,0001; raíz cuadrada del error medio de aproximación=0,031; IC90% 0,127-0,148; índice comparativo de ajuste=0,982; índice de Tucker-Lewis=0,966). Los índices de ajuste obtenidos para cada uno de los ocho modelos evaluados se presentan en el cuadro 3 y en la figura 1 se muestra el diagrama de vías para el mejor ajuste.
Discusión
El cuestionario de salud general de 12 ítems (GHQ-12) se diseñó como una forma fácil, rápida y económica de evaluar el estado emocional durante las cuatro semanas previas en pacientes o usuarios de servicios médicos, y se utiliza en estudios epidemiológicos (23-25). En investigaciones anteriores, se ha sugerido la existencia de estructuras multidimensionales en el GHQ-12, aunque con datos contradictorios sobre la validez de cada uno de los modelos (26). Los resultados del presente estudio responderían a la interacción de tres fuentes principales de sesgos: categorías de respuesta ambigua para los ítems negativos, múltiples sistemas o formas de puntuación y métodos de estimación inapropiados (27).
Aunque la mayoría de los estudios en psicometría han centrado sus esfuerzos en el análisis factorial exploratorio para hacer inferencias sobre la validez de los modelos derivados de algún constructo, no deben descartarse las técnicas estadísticas basadas en elmodelado de ecuaciones estructurales, o análisis factorial confirmatorio, para la correcta determinación de la validez de constructo. En este sentido, la importancia del análisis factorial exploratorio radica en que de él se derivan las hipótesis que serán puestas a prueba en el análisis confirmatorio (28).
En el presente estudio, dicho análisis se empleó para comparar la validez de constructo de tres estructuras de factores del GHQ-12 y dos sistemas de puntuación mediante el empleo de métodos de estimación apropiados para el tipo de variable evaluada(29). En varios de los estudios de comparación de las estructuras factoriales y los métodos de puntuación del GHQ-12, seha evaluado el método de puntuación sugerido por Goodchild,et al. (0-1-1-1), conocido como GHQ-corregido; no obstante, se ha comprobado que el sesgo de respuesta persistía, por lo cual no se incluyó en la presente investigación. En este método, la puntuación 0-0-1-1 se aplica a los ítems redactados de forma positiva, pero los ítems negativos se puntúan 0-1-1-1, con lo cual se colapsan las categorías 2, 3 y 4. Con el método de puntuación GHQ-corregido debe prestarse atención a las respuestas que a veces se otorgan a un ítem negativo, pues podrían indicar la presencia de un problema en lugar de ser señal de buena salud (14).
Una de las justificaciones para emplear la puntuación del tipo de la escala de Likert es que produce puntajes con una aproximación a la distribución normal y ello permite hacer análisis estadísticos paramétricos (30). Sin embargo, las puntuaciones del cuestionario del tipo de la escala de Likert y del GHQ-corregido se ven afectadas por el sesgo de respuesta, lo cual se evidencia porque, cuando se emplea el método de puntuación dicotómico original, los índices de ajuste derivados del modelo unidimensional son adecuados, como ocurrió con los obtenidos en el presente estudio (gl=36; ji al cuadrado=52,432; raíz cuadrada del error medio de aproximación=0,03; IC90%=0,008-0,048; índice comparativo de ajuste=0,982; índice de Tucker-Lewis=0,966).
Estos resultados son congruentes con lo sugerido por Hankins (12,13) en el sentido de que los puntajes de los ítems redactados de forma negativa contienen un sesgo de respuestaevidenciado por la alta varianza encontrada en ellos. En general, este sesgo se elimina cuando se emplea el método de puntuación original con base en un enfoque conocido como método de efectos o corrección del sesgo de respuesta (correlación de la covarianza de los errores de los ítems negativos). Los resultados obtenidos sugieren que el sesgo de respuesta puede introducir un grado de error de medición inaceptable en la psicometría clínica, el cual no había sido previamente reconocido.
A la luz de los resultados obtenidos en el presente estudio, el ajuste aceptable obtenido en otras investigaciones para los modelos multidimensionales con el sistema de puntuación GHQ-corregido (31), se debe al agrupamiento artificial de los ítems redactados de forma positiva frente a los redactados de forma negativa, situaciónconocida como error de reificación (13,30). Así pues, en futuros estudios sobre la estructura de factores de este instrumento deben tenerse en cuenta los hallazgos del presente estudio, con el fin de evitar conclusiones inapropiadas sobre su dimensión (30).
La separación dimensional entre los ítems positivos y los negativos puede explicarse también por las diferencias en los intervalosentre las categorías de respuesta. Las etiquetas para las opciones de respuesta de los ítems positivos parecen ser bipolares y oscilar entre un polo del atributo ("casi siempre") y el opuesto ("a veces"), mientras que las opciones de respuesta para los ítems negativos parecen ser unipolares y oscilar entre la ausencia del atributo ("nunca") y su presencia ("siempre"). Para los ítems negativos, el formato unipolar parece presentar la opción lógica (por ejemplo, "a veces" para un ítem negativo como "perder la confianza" podría implicar una doble negación que puede confundir al sujeto) (27). Varios autores han sugerido que los formatos de respuesta bipolar pueden causar problemas cuando se trata de hacer mediciones negativas de los constructos (32).
Por otro lado, la consistencia interna fue aceptable para las dos formas de puntuación evaluadas en el presente estudio. Los estimadores convencionales de confiabilidad, como el coeficiente alfa de Cronbach, pueden sobrestimar o subestimar la confiabilidad si los supuestos de la teoría clásica no se cumplen. Dichos supuestos, entonces, deben evaluarse y, en caso de ser necesario, debe emplearse un método alternativo de estimación de la confiabilidad del instrumento.
Los resultados del presente estudio revelaron una sobreestimación de la confiabilidad del GHQ-12 al emplear la forma de puntuacióndel tipo de la escala de Likert (alfa=0,74), dado que el estimador se calculó sin tener en cuenta la correlación de la covarianza de los errores de los ítems redactados de forma negativa (12). En estudios previos en Bucaramanga, se obtuvieronvalores de confiabilidad del instrumento para la forma de puntuación del tipo de la escala de Likert (alfa=0,779) y para la binaria (alfa=0,70) similares a los encontrados en el presente estudio (alfa=0,74 y alfa=0,70, respectivamente) (20). En otro estudio en Medellín en pacientes hospitalizados, los valores del alfa de Cronbach también fueron similares (alfa=0,78) a los obtenidos en el presente estudio (18).
Los resultados de este estudio coinciden con los de otras investigaciones y sustentan el carácter unidimensional del constructo siempre que se aplique la corrección del sesgo de respuesta para los ítems redactados de forma negativa. De todas maneras, es evidente la necesidad de llevar a cabo nuevos estudios para probar la estructura de factores del GHQ-12. Es imperativoque este tipo de enfoques metodológicos se utilice antes del análisis de resultados en los estudios epidemiológicos en los que se empleeel instrumento.