Introducción
La Práctica Basada en la Evidencia (PBE) se define como “la integración de la mejor evidencia disponible con la experiencia clínica en el contexto de las características, cultura y preferencias del paciente” (American Psychological Association [APA], 2006, p. 273). Por definición, la PBE se basa en la utilización de la investigación científica en la toma de decisiones en un esfuerzo por producir los mejores servicios posibles en la práctica clínica (APA, 2005; Babione, 2010; Daset & Cracco, 2013; Frias-Navarro & Pascual-Llobell, 2003; Sánchez-Meca, Boruch, Petrosino, & Rosa-Alcázar, 2002; Vázquez & Nieto, 2003). Por tanto, el enfoque de la PBE requiere de los profesionales nuevas habilidades como la capacidad para evaluar y jerarquizar la calidad de las investigaciones psicológicas (Beyth-Maron, Fidler, & Cumming, 2008; Pascual-Llobell, Frias-Navarro, & Monterde-i-Bort, 2004).
Dentro de ese proceso de valoración crítica de la evidencia científica es crucial conocer y comprender el proceso de contraste de hipótesis estadísticas mediante la ejecución de la prueba de significación de la hipótesis nula (Null Hypothesis Significance Testing [NHST]), sobre todo teniendo en cuenta que en el ámbito de la psicología el procedimiento de la NHST es la técnica por excelencia en el análisis de datos (Cumming et al., 2007). Por tanto, saber interpretar los valores p de probabilidad es una competencia básica del profesional de la psicología y de todas aquellas disciplinas donde se aplica la inferencia estadística.
Sin embargo, el procedimiento de la NHST ha sido criticado desde el principio de su aplicación en psicología y otras ciencias (Berkson, 1938; Cohen, 1994). Una de las cuestiones que más controversia ha provocado es la interpretación correcta del valor p asociado al resultado de la prueba estadística (Frias-Navarro, Pascual-Soler, Badenes-Ribera, & Monterde-i-Bort, 2014; Wasserstein & Lazar, 2016).
El valor p es la probabilidad del resultado observado o un valor más extremo si la hipótesis nula es cierta (Hubbard & Lindsay, 2008; Johnson, 1999; Kline, 2013). La definición es clara y precisa, sin embargo, las interpretaciones incorrectas siguen siendo abundantes y repetitivas (Badenes-Ribera, Frias-Navarro, Monterde-i-Bort, & Pascual-Soler, 2015; Perezgonzalez, 2015a, 2015b; Verdam, Oort, & Sprangers, 2014).
Las cuatro interpretaciones erróneas del valor p más comunes son: (1) Falacia de la probabilidad inversa; (2) Falacia de la probabilidad contra el azar; (3) Falacia del tamaño del efecto y (4) Falacia de la significación clínica o práctica (Badenes-Ribera et al., 2015; Balluerka, Gómez, & Hidalgo, 2005; Cohen, 1994; Cumming, 2012; Falk & Greenbaum, 1995; Kline, 2013; Nickerson, 2000; Téllez, García, & Corral-Verdugo, 2015).
La falacia de la “probabilidad inversa” es la falsa creencia de que el valor p hace referencia a la probabilidad de que la hipótesis nula (H0) sea verdadera dados ciertos datos [Pr(H0|Datos)]. Por su parte, la “falacia de las probabilidades contra el azar” señala que el valor p es la probabilidad de obtener el resultado por azar o la probabilidad de que el resultado ocurra como consecuencia del proceso de la selección de la muestra. Ambas están relacionadas con el mismo problema: confundir la probabilidad del resultado, asumiendo que la hipótesis nula es cierta [Pr(Datos|H0)], con la probabilidad de la hipótesis nula, dados ciertos datos [Pr(H0|Datos)]. Las pruebas de significación estadística no ofrecen información de la probabilidad condicional de la hipótesis nula dados los datos obtenidos en la investigación (Kirk, 1996; Shaver, 1993).
La “falacia del tamaño del efecto” vincula la significación estadística con la magnitud del efecto (Gliner, Vaske, & Morgan, 2001). De este modo, los valores pequeños de p son interpretados como efectos grandes (Kline, 2013). Sin embargo, el valor p no informa de la magnitud de un efecto (Cumming, 2012). El tamaño del efecto solo puede ser conocido estimando directamente su valor con el estadístico adecuado y su intervalo de confianza (Gliner et al., 2001; Wasserstein & Lazar, 2016; Wilkinson, 1999).
La “falacia de la significación clínica o práctica” asocia el valor p con la importancia práctica o clínica de un hallazgo. Sin embargo, un resultado estadísticamente significativo no indica que sea un resultado importante desde el punto de vista clínico, práctico o sustantivo y viceversa (Gliner, Leech, & Morgan, 2002; Kirk, 1996; Palmer & Sesé, 2013; Wasserstein & Lazar, 2016). Bajo esta falsa creencia es posible que efectos sin significación estadística pero con significación clínica o importancia práctica sean rechazados. Y, al contrario, efectos con significación estadística y poca significación clínica o importancia práctica se tomen como significativos o importantes (Frias-Navarro, 2011).
Detrás de estas interpretaciones erróneas hay unas creencias y atribuciones sobre el significado de los resultados. Por ello, es necesario comprender el razonamiento estadístico o la forma de razonar con ideas estadísticas y dar sentido a la información estadística que realizan las personas (Garfield, 2002; Leek, 2014).
Estudios previos han detectado la presencia de este tipo de falacias sobre el valor p de probabilidad en muestras de profesores y estudiantes universitarios de distintas disciplinas (p. ej., Castro-Sotos, Vanhoof, Van den Noortgate, & Onghena, 2009; Falk & Greenbaum, 1995; Frias-Navarro et al., 2014; Haller & Kraus, 2002; Monterde-i-Bort, Frias-Navarro, & Pascual-Llobel 2010; Oakes, 1986; Vallecillos, 2002; Vallecillos & Batanero, 1997). Por ejemplo, en el ámbito de la psicología, Oakes (1986) encontró que el 97 % de los profesores universitarios interpretaron de forma incorrecta el significado del valor p. Haller y Kraus (2002) replicaron el estudio de Oakes (1986) en una muestra de profesores y estudiantes universitarios. Sus resultados revelaron que el 80 % de profesores de Metodología, el 89.7 % de profesores que no enseñaban metodología y el 100 % de los estudiantes cometieron algún tipo de error de interpretación del valor p. Finalmente, en los recientes estudios de Badenes-Ribera et al. (2015) y Badenes-Ribera, Frias-Navarro, Iotti, Bonilla-Campos y Longobardi (2016), en sendas muestras de profesores universitarios, se observó que muchos de ellos, incluidos los profesores del área de Metodología, no sabían interpretar correctamente los valores de p asociados a los resultados de las pruebas de inferencia estadística. En ambos estudios, la “falacia de la probabilidad inversa” presentó los mayores problemas de comprensión. Además, el 35.2 % de los profesores cometieron la “falacia de la significación clínica o práctica” de los resultados, es decir, confundieron la significación estadística de los resultados con la significación clínica o práctica de los mismos (Badenes-Ribera et al., 2015).
El objetivo de la presente investigación es detectar los errores de razonamiento estadístico que estudiantes y profesores universitarios realizan ante los resultados que aporta una prueba de inferencia estadística, pues su visión e interpretación de los hallazgos son un filtro de calidad en su vida profesional que no puede estar sometido a falsas creencias del procedimiento estadístico que representa la herramienta fundamental para obtener conocimiento científico. La competencia de la ‘lectura crítica’ dentro del modelo de la PBE requiere conocer e interpretar adecuadamente la calidad metodológica de las pruebas o evidencias aportadas por la literatura. Del mismo modo, los investigadores deben producir evidencia o pruebas empíricas correctamente interpretadas no confundiendo el alcance de sus resultados. En consecuencia, identificar el tipo de falacia que subyace a las decisiones estadísticas es fundamental para abordar y planificar estrategias de educación estadística dirigidas a intervenir sobre las interpretaciones incorrectas.
Método
Muestra
Se utilizó una muestra no probabilística (conveniencia). La muestra estuvo formada por 161 participantes de la Universidad de Valencia. De ellos, el 26.7 % (n = 43) fueron profesores (n = 43) y el 73.3 %, estudiantes de cuarto curso del grado de psicología que ya habían cursado las asignaturas de Estadística y Psicometría (n = 118). El 39.5 % de los profesores fueron hombres (n = 17) y el 60.5 % mujeres (n = 26). La antigüedad media como profesor fue de 16.7 años (DE = 10.07). Respecto de la muestra de estudiantes, el 19.5 % fueron hombres (n = 23), el 78.8 % fueron mujeres (n = 93) y el 1.7 % no indicó su sexo (n = 2) con una edad media de 21.59 (DE = 1.3).
Instrumento
En la primera sección de la encuesta se recogió información sobre variables sociodemográficas: sexo, edad (estudiantes universitarios), antigüedad como profesor en la universidad.
La segunda sección incluyó la encuesta sobre interpretaciones del valor p de Badenes-Ribera et al. (2015). Este instrumento está compuesto por 10 ítems con una escala de respuesta dicotómica (verdadero o falso) pensados para detectar interpretaciones erróneas sobre el valor p de probabilidad asociadas a las pruebas de inferencia estadística y su interpretación correcta. En el presente estudio, se utilizaron los ítems referentes a falacia de la probabilidad inversa (5 ítems), falacia del tamaño del efecto (1 ítem), falacia de la significación clínica o práctica (1 ítem) y, finalmente, interpretaciones correctas del valor p del procedimiento de contraste de hipótesis (2 ítems). Las cuestiones se plantearon con el siguiente argumento:
“Supongamos que un artículo de investigación señala un valor de p = 0.001 en el apartado de resultados (alfa = 0.05). Señale si las siguientes afirmaciones son verdaderas o falsas”.
A.-Falacia de la Probabilidad inversa:
1. Se ha probado que la hipótesis nula es verdadera.
2. Se ha probado que la hipótesis nula es falsa.
3. Se ha determinado la probabilidad de la hipótesis nula (p = 0.001).
4. Se ha deducido la probabilidad de la hipótesis experimental (p = 0.001).
5. La probabilidad de que la hipótesis nula sea verdadera, dados los datos obtenidos, es de 0.001.
B.-Falacia del tamaño del efecto:
6. El valor p = 0.001 confirma de forma directa que el tamaño del efecto ha sido grande.
C.- Falacia de la significación clínica o práctica:
7. Obtener un resultado estadísticamente significativo indica que el efecto detectado es importante.
D.- Interpretación correcta y decisión adoptada:
8. Se conoce la probabilidad del resultado de la prueba estadística, asumiendo que la hipótesis nula es cierta.
9. Dado que p = 0.001 entonces el resultado obtenido permite concluir que las diferencias no se deben al azar.
Procedimiento
La participación en el estudio fue voluntaria y completamente anónima. Los estudiantes respondieron a la encuesta en horas de clase y no recibieron ninguna compensación por ello. Por su parte, los profesores cumplimentaron las preguntas a través de internet, mediante encuesta online. Para ello, se registraron las direcciones de correo electrónico de los profesores y se les envió un mensaje invitándolos a participar en el estudio sobre cognición y práctica estadística.
En la realización del presente estudio, se siguieron los valores éticos requeridos en la investigación con seres humanos, respetando los principios fundamentales incluidos en la Declaración de Helsinki, en sus actualizaciones y normativas vigentes (consentimiento informado y derecho a la información, protección de datos personales y garantías de confidencialidad, no discriminación y posibilidad de abandonar el estudio en cualquiera de sus fases).
Análisis de datos
Se utilizó el programa estadístico IBM SPSS v. 20 para Windows. Se analizaron las frecuencias y porcentajes de respuestas a los ítems. Además, los análisis incluyeron la estimación del intervalo de confianza para los porcentajes. Para el cálculo de los intervalos de confianza de los porcentajes se utilizó el método score de Wilson (Newcombe, 2012).
Resultados
La Tabla 1 muestra el porcentaje de participantes que estuvieron de acuerdo con las afirmaciones sobre el valor p de probabilidad.
Respecto de la falacia de la probabilidad inversa, se observa que gran parte de los participantes percibieron como verdadera alguna de las cinco interpretaciones erróneas del valor p. Las interpretaciones que mayor respaldo recibieron tanto por parte de los estudiantes como de los profesores fueron “se ha probado que la hipótesis nula es falsa” y “se ha determinado la probabilidad de la hipótesis nula (p = 0.001)”. Además, ninguno de los profesores valoró correctamente las cinco afirmaciones sobre las interpretaciones del valor p, frente al 3.39 % (IC 95% [1.33, 8.39]) de los estudiantes que sí que lo hicieron.
Respecto de las interpretaciones erróneas del valor p relacionadas con la falacia del tamaño del efecto y la falacia de la significación clínica o práctica de los hallazgos, se observa que la mayoría de los participantes, tanto en los estudiantes como en los profesores, valoraron correctamente estas afirmaciones, es decir, no cometieron este tipo de interpretaciones erróneas. Además, en ambas muestras, la afirmación falsa (o interpretación errónea) que mayor respaldo recibió fue “obtener un resultado estadísticamente significativo indica que el efecto detectado es importante”. En consecuencia, los participantes presentaron mayores problemas en discernir entre la significación estadística de los resultados obtenidos y la significación práctica o clínica de los mismos.
Finalmente, respecto de las interpretaciones correctas del valor p de probabilidad, se observa un patrón distinto entre los profesores y los estudiantes en la comprensión del valor p de probabilidad. Mientras que los profesores presentaron mayores problemas con la interpretación probabilística del valor p mejorando notablemente su interpretación cuando se hace en términos de decisión estadística. Los estudiantes presentaron mayores problemas de comprensión con la interpretación estadística del valor p, mejorando su interpretación cuando la misma se hace en términos de probabilidad. Si bien en el caso de los estudiantes, la diferencia entre ambas interpretaciones no es estadísticamente significativa puesto que existe un solapamiento entre los intervalos de confianza de los porcentajes. Finalmente, solo un pequeño porcentaje de participantes en ambas muestras valoraron correctamente las dos afirmaciones como verdaderas, sobre todo en el caso de los profesores universitarios.
Discusión
Los resultados del estudio indican que la comprensión e interpretación de los valores p de las pruebas de inferencia estadística sigue siendo problemática entre los estudiantes universitarios y los profesores universitarios. Confundir el nivel de significación de alfa con la probabilidad de que la hipótesis nula sea cierta, interpretar un resultado estadísticamente significativo como un resultado importante o útil son interpretaciones erróneas o falsas creencias que continúan existiendo entre estudiantes y profesores universitarios de psicología (Falk & Greenbaum 1995; Haller & Kraus, 2002; Kühberger, Fritz, Lermer, & Scherndl, 2015; Oakes, 1986).
Estos resultados son consistentes con estudios previos en muestras de estudiantes universitarios (p. ej., Castro-Sotos et al., 2009; Falk & Greenbaum, 1995; Haller & Kraus, 2002; Kühberger et al., 2015; Vallecillos, 2002, Vallecillos & Batanero, 1997) en muestras de profesores universitarios de psicología (p. ej., Badenes-Ribera et al., 2015; Badenes-Ribera et al., 2016; Haller & Kraus, 2002; Monterde-i-Bort et al., 2010; Oakes, 1986), en muestras de miembros de la American Educational Research Association (AERA) (p. ej., Mittag & Thompson, 2000) y en profesionales de la Estadística (Lecoutre, Poitevineau, & Lecoutre, 2003).
La “falacia de la probabilidad inversa” es la que se observó con mayor frecuencia. Además, un gran número de estudiantes universitarios y profesores de psicología confundieron la significación estadística de los resultados obtenidos con la significación práctica de los mismos. Sin embargo, el valor p no ofrece información de la magnitud del efecto o importancia del resultado (Gliner et al., 2002; Rosenthal, 1993; Shaver, 1993). La significación clínica o sustantiva no se corresponde con el valor de ningún estadístico, ni del resultado de la prueba de inferencia estadística (valor p) ni de la magnitud del tamaño del efecto (APA, 2010; Cumming, 2012; Kline, 2013). La importancia clínica se refiere a la utilidad práctica o aplicada o a la importancia del efecto de una intervención. Es decir, si produce alguna diferencia real (auténtica, palpable, práctica, notable) para los clientes o para otros con los que interactúan en la vida cotidiana (Kazdin, 1999). Por tanto, la presentación de muchos asteriscos junto al valor p de probabilidad o valores p muy pequeños solo señalan que en ese diseño la hipótesis nula es poco plausible, pero de ahí no se puede inferir que el efecto encontrado es importante, que la relación entre las variables es fuerte o que existe una relevancia sustantiva (Frias-Navarro, 2011; Gliner et al., 2001; Palmer & Sesé, 2013; Newcombe, 2012).
Las falacias del tamaño del efecto y de la significación clínica o práctica de los resultados representan una de las críticas más fuertes contra las pruebas de significación estadística y, en gran medida, han provocado el movimiento de la reforma estadística (Cumming, 2012; Kline, 2013; Wilkinson, 1999) que aboga por acompañar los valores p con información del tamaño del efecto y sus intervalos de confianza (Balluerka, Vergara, & Arnau, 2009; Cumming, 2012; Maher, Markey, & Ebert-May, 2013; Newcombe, 2012; Savalei & Dunn, 2015; Téllez et al., 2015; Valera-Espín, Sánchez-Meca, & Marín-Martínez, 2000), tal y como señala el manual de la APA (2010). Sin embargo, estudios previos han mostrado que los intervalos de confianza no están exentos de errores de interpretación (e. g., Hoekstra, Morey, Rouder, & Wagenmakers, 2014; Perezgonzalez, 2015a).
Finalmente, los hallazgos del estudio deben interpretarse con ciertas limitaciones. El procedimiento de muestreo (muestra de conveniencia) limita la validez externa de nuestros resultados. Sin embargo, los resultados son consistentes con estudios previos tal y como ya se ha comentado. Así pues, la presencia de interpretaciones erróneas del valor p entre estudiantes y profesores universitarios indica la necesidad de mejorar la formación o educación estadística de los profesores para evitar la perpetuación de estas falacias (Haller & Kraus, 2002; Kline, 2013) y producir un conocimiento científico válido. También se necesita mejorar el contenido de los libros de estadística para garantizar una formación de calidad a los futuros profesionales de la psicología (Cumming, 2012; Gliner et al., 2002; Kline, 2013). La enseñanza de la estadística no solo debe consistir en cálculos de enseñanza, procedimientos y fórmulas, deberían centrarse mucho más en el pensamiento y la comprensión de los métodos estadísticos (Haller & Kraus, 2002; Perezgonzalez, 2015b).
Para ello, se requiere un enfoque multifacético que implique a los autores de libros de texto, profesores, autores de paquetes estadísticos de software, editores de revistas y manuales de publicación (Balluerka et al., 2005; Kirk, 2001). Por ejemplo, como Gliner et al. (2002) señalan, los autores de libros de texto deberían incluir una sección sobre el debate y críticas del procedimiento NHST que incluyera un apartado sobre su origen. Pues, probablemente, la mayoría de los problemas de interpretación vinculados al valor p radican en que este procedimiento es una fusión entre la prueba de significación de Fisher y la prueba de la hipótesis estadística de Neyman y Pearson (Hager, 2013; Ivarsson, Andersen, Stenling, Johnson, & Lindwall, 2015; Perezgonzalez, 2015b). Además, los libros deberían incluir una sección sobre el cálculo del tamaño del efecto y sus intervalos de confianza y, poner ejemplos sobre la importancia práctica o clínica de un hallazgo. En los dos primeros libros de la colección Reforma Estadística editados en España, se detallan todas estas cuestiones en diferentes capítulos (Frias-Navarro, 2011; Frias-Navarro et al., 2014).
La PBE requiere de profesionales que valoren críticamente los hallazgos de los estudios o investigaciones psicológicas y, para ello, es necesaria una formación en conceptos estadísticos, en metodología de diseños de investigación y en resultados de pruebas de inferencia estadística (Badenes-Ribera et al., 2016; Beyth-Maron et al., 2008). Finalmente, la investigación futura debe ir dirigida ahora a la intervención sobre las falacias vinculadas a la interpretación del valor p de probabilidad.