Introducción
Reconocer y denominar expresiones emocionales son habilidades en cuyo estudio existe un creciente interés por parte de la psicología y las neurociencias (Delgado, 2012; Marquez & Delgado, 2012; Mathias & Burke, 2009). El adecuado reconocimiento de expresiones de emoción en otros es clave en la interacción social; existe evidencia de que trastornos tales como el autismo, la esquizofrenia y la depresión se caracterizan por dificultades en reconocer las emociones ajenas (Griffiths & Ashwin, 2016).
Las tareas de reconocimiento emocional habitualmente empleadas suelen incluir ítems de siete «familias» de emociones discretas cuyas etiquetas verbales son alegría, pena, sorpresa, miedo, asco, rabia y desprecio (Delgado, 2009; Marquez & Delgado, 2012; Merten, 2005; Tracy & Randles, 2011) o términos similares. En los ítems de elección múltiple, se incluyen, además, imágenes de expresiones neutrales. Puesto que en el contexto de la investigación de la inteligencia emocional se habla de Percepción Emocional (PE) para describir tareas como la anteriormente descrita (Mayer, Roberts, & Barsade, 2008), ambas denominaciones se emplearán de forma intercambiable a lo largo de este artículo.
Pese a que las tareas de PE son, en general, excesivamente fáciles (Thompson & Voyer, 2014) y poco fiables (Gignac, 2009), un hallazgo robusto y replicado transculturalmente es que existen diferencias en PE favorables a las mujer0065s (Hall, Gunnery, & Horgan, 2016; Merten, 2005; Thompson & Voyer, 2014). Tres revisiones no solapadas han mostrado evidencia indiscutible de la superioridad femenina en la precisión de los juicios afectivos (Hall, Gunnery, & Horgan, 2016). Un metaanálisis más sofisticado estadísticamente que sus predecesores estima que el tamaño del efecto «verdadero» de la diferencia en PE sería d=.23 (Thompson & Voyer, 2014).
La interpretación cuantitativa de esa diferencia asume que las puntuaciones obtenidas de las tareas de PE se encuentran, al menos, en escala intervalar, pero no se aporta evidencia del cumplimiento de ese supuesto que la aproximación basada en el modelo de Rasch sí permite poner a prueba. Por ello, el objetivo de este trabajo fue la construcción y validación inicial de una prueba de PE desde la aproximación Rasch, que cuenta con notables ventajas sobre la teoría clásica de los tests, e. g., si hay suficiente ajuste datos-modelo, entonces la medida de las personas no depende de los ítems empleados, las estimaciones de dificultad de los ítems son independientes de las personas medidas, y es posible construir una escala intervalar conjunta y llevar a cabo análisis paramétricos (Engelhard, 2013; Gómez-Rada, 2010; Prieto & Delgado, 2003; Rasch, 1960).
Método
Participantes
La muestra se compuso de doscientos cuatro voluntarios de lengua materna española, de edades comprendidas entre los 18 y los 65 años, e igual número de varones y mujeres. Se contó con una muestra heterogénea procedente de la población general, aunque el modelo de Rasch no exige muestras representativas (i. e., los valores de localización de los ítems son independientes de las personas medidas).
Procedimiento
El test se aplicó individualmente en un ordenador portátil, sin limitaciones de tiempo y siguiendo los requisitos éticos.
Instrumentos
Se construyó un test informatizado con 28 ítems, 4 para cada una de las 7 emociones discretas: alegría, pena, sorpresa, miedo, asco, rabia y desprecio. La mitad de los ítems para cada emoción constaban de una etiqueta (e. g., sorpresa) de entre las siete mencionadas y ocho opciones de respuesta consistentes en fotografías de la cara de un modelo (la mitad de las veces masculino, la otra mitad, femenino) posando con las siete expresiones emocionales además de la neutral. La otra mitad de los ítems constaban de la cara de un modelo (la mitad de las veces masculino, la otra mitad, femenino) posando con una de las expresiones emocionales y las ocho opciones de respuesta verbales: alegría, pena, sorpresa, miedo, asco, rabia, desprecio, neutral. Las fotografías se seleccionaron de la Radboud Faces Database (Langner et al., 2010). El posible efecto del sexo del modelo y del tipo de ítem sobre la dificultad se controló por inclusión, aunque resultados como los del metaanálisis de Thompson y Voyer (2014) permiten predecir que variaciones de ese tipo no darán lugar a diferencias en la dificultad de los ítems.
El test se programó en LiveCode 4.6 (2011). Los datos de identificación, sexo y edad del participante, así como la opción de respuesta elegida para cada ítem y el acierto/error se almacenan automáticamente en matrices listas para exportar.
Análisis de datos
Para este estudio, de diseño instrumental, se empleó el modelo de Rasch (MR), que pertenece a la tradición de los modelos de medición invariante (Engelhard, 2013). En el contexto de la medida de una aptitud, la probabilidad de que el sujeto n acierte el item dicotómico i es, según el MR:
Los análisis se llevaron a cabo con el programa Winsteps 3.80.1 (Linacre, 2013). El ajuste datos-modelo se valora con los indicadores infit y outfit calculados a partir de los residuos. Según las indicaciones de Winsteps 3.80.1 (Linacre, 2013), valores de infit / outfit entre 0.5 y 1.5 son adecuados; valores entre 1.5 y 2.0 son improductivos, pero no degradan la medición y valores superiores a 2.0 degradarían las medidas. Los análisis del funcionamiento diferencial de los ítems (DIF, siguiendo el acrónimo en inglés) se llevan a cabo para contrastar la validez generalizada de las medidas para distintos grupos, en este caso, para varones y mujeres: las calibraciones de los ítems en ambos grupos se contrastan con el estadístico t de Welch usando niveles alfa de confianza con la corrección de Bonferroni (Linacre, 2013).
Resultados
La menor proporción de aciertos se dio en el caso del desprecio (.71), seguida del miedo (.84), la pena (.92) y el asco (.92), la rabia (.95), la alegría (.98) y la sorpresa (.99). El estimador de la consistencia interna alfa de Cronbach fue .75.
El análisis Rasch no mostró ninguna correlación negativa ítem-medida. El ítem 15 (de alegría) fue acertado por todos, por lo que su dificultad no puede ser estimada; el 19 % de las personas acertaron los 28 ítems.
El ajuste resultó suficiente como para proseguir el análisis. Para los ítems, el valor promedio de infit fue .99 (DT=.09) y el de outfit 1.08 (DT=.50). Para las personas, el valor promedio de infit fue 1.00 (DT =.29) y el de outfit 1.08 (DT =1.16). Ningún ítem o persona mostró infit superior a 2. Dos ítems (de sorpresa) mostraron outfit superior a 2, pero los tests estadísticos asociados no alcanzaron significación.
En cuanto a las puntuaciones de los sujetos, el 13% tuvieron outfit > 2. Para los sujetos con puntuaciones imperfectas, el nivel promedio en unidades logit fue 2.73; rango= -.60 a 4.14. Los indicadores globales de fiabilidad del modelo fueron .93 para los ítems y .51 para las personas. La tabla 1 muestra las características de los ítems y los resultados principales del análisis Rasch.
No se han hallado efectos estadísticamente significativos, sobre la dificultad de los ítems, ni del sexo del modelo fotográfico, t(25)= -.43, p= .67, ni del tipo de ítem, t(25)= .35, p=.73. El mapa de la variable, o mapa Wright, puede verse en la tabla 2.
No se halló DIF asociado al sexo y por tanto las diferencias sexuales en PE pueden contrastarse con confianza: t(202)= 2.57, p=.01. Las mujeres fueron superiores a los varones, M(f)= 3.50, DT= 1.34; M(m)= 2.98, DT= 1.54 , d= -.36. Empleando la fórmula de corrección de la atenuación (dividiendo el tamaño del efecto por la raíz cuadrada del estimador de fiabilidad; Hunter and Schmidt, 1990) se obtiene d= -.50, un tamaño medio.
Discusión
La emoción que ha dado lugar a los ítems más difíciles, a juzgar por la proporción de aciertos, es el desprecio, seguida del miedo, la pena y el asco, la rabia, la alegría y la sorpresa. El estimador de la consistencia interna alfa de Cronbach fue .75, valor que, de acuerdo con los estándares clásicos, resultaría adecuado para las puntuaciones de un test, siempre que no fuera a ser empleado para decisiones de muy alto nivel.
El ajuste de los datos al MR resultó suficiente, aunque se detectaron patrones inesperados en las respuestas de algunos sujetos, lo que en algunos casos puede dar lugar a hipótesis clínicas sobre las posibles razones del desajuste. Las puntuaciones perfectas (i. e., las de sujetos que aciertan todos los ítems) no ofrecen información para la estimación de los parámetros. Para los sujetos con puntuaciones imperfectas, el nivel promedio en unidades logit fue alto, i. e., se trata de un test fácil para la población general, aunque con un rango amplio. En cuanto a los indicadores globales de fiabilidad del modelo fueron .93 para los ítems y .51 para las personas, un valor bajo, pero habitual en este tipo de tarea (Gignac, 2009).
La dificultad de los ítems no se vio afectada ni por el sexo del modelo fotográfico, ni por el tipo de ítem. Tampoco se halló DIF asociado al sexo, lo que indica validez generalizada de los ítems para ambos sexos y permite contrastar estadísticamente las diferencias sexuales en PE sin que la calidad técnica de los ítems pueda servir como hipótesis alternativa plausible.
Como ya se ha señalado en la introducción, existen diferencias por sexo en EP en varias culturas (Merten, 2005) y el hecho de que se hayan replicado en este estudio es un indicador de validez. Que las puntuaciones Rasch tengan propiedades intervalares permite hacer una interpretación cuantitativa de la diferencia. Las mujeres fueron superiores a los varones en EP, como se esperaba a partir de los robustos resultados de estudios previos (Hall, Gunnery, & Horgan, 2016; Merten, 2005; Thompson & Voyer, 2014). Dada la baja fiabilidad de las puntuaciones, habitual en este tipo de tarea que tan fácil resulta en la población general, es recomendable emplear la fórmula de corrección de la atenuación para estimar el tamaño del efecto «real», i. e., el valor que se alcanzaría si se contara con un instrumento que midiera sin error (Gignac, 2009) que es, en este caso, de tamaño medio. No obstante, sería deseable contar con ítems más difíciles en futuras versiones.
Finalmente, una ventaja añadida de los modelos de tipo Rasch, que resulta de especial interés para el diagnóstico neuropsicológico, es que permiten detectar patrones inesperados de respuesta para individuos concretos, e. g., una persona que obtiene una alta puntuación, pero falla todos los ítems de la «familia» asco, aparecería como desajustada, lo que permite plantear hipótesis de interés clínico (Prieto, Delgado, Perea, & Ladera, 2010).