Pruebas estadísticas en contexto
P. ¿Cuándo dos cosas son estadísticamente diferentes?
R. Primero, la pirámide de diferencias:
¿Cuándo dos cosas son diferentes?
¿Cuándo dos cosas son significativamente diferentes?
¿Cuándo dos distribuciones son estadísticamente diferentes?
¿Cuándo dos distribuciones tienen un parámetro particular diferente?
Antes de realizar los análisis estadísticos, es útil tener una perspectiva filosófica bien orientada de las pruebas estadísticas. Consideremos la prueba t, que compara los promedios de muestra de dos distribuciones para determinar si puede encontrarse entre ellas una diferencia estadísticamente significativa en promedio de población. Las pruebas estadísticas se basan en una pirámide de supuestos y lógica representativa, que se denominará la "pirámide de diferencias". Se basa en el concepto incierto de que la decisión estadística en la base de la pirámide de diferencias es de alguna manera un gran apoyo para responder la pregunta fundamental de "¿Cuándo dos cosas son diferentes?"
La pregunta de cuándo dos cosas son diferentes es una pregunta capciosa. Los métodos estadísticos son completamente innecesarios para responder a esta pregunta. Todo lo que es comparable es diferente, independientemente de su grado de similitud. El tiempo, la entropía, las imperfecciones de copia (fabricación) y los efectos cuánticos determinan esto. ¿Esto vuelve inútil el resto de la pirámide, es decir, las pruebas estadísticas? Un purista filosófico respondería inequívocamente que sí, que no es necesario aplicar una prueba estadística para responder a esta pregunta ni es necesario seguir leyendo. Pero si usted es más pragmático que purista, siga leyendo. La estadística tiene algo que ofrecer en la forma en que observa los datos de una manera muy centrada.
Las estadísticas pueden responder a una versión modificada y más restringida de la pregunta de cuándo dos cosas son diferentes. Esta es una pregunta matizada fundamentalmente diferente, que debe entenderse bien antes de aplicar el método estadístico. Reinicie este examen en la base de la pirámide de diferencias, en el contexto estadístico de la prueba t.1 La buena práctica estadística consiste en determinar cuándo existe actualmente un contexto de diferencia "significativa" entre las dos cosas que se van a comparar. Las pruebas estadísticas no son suficientes para determinar qué es una diferencia "significativa". Una buena práctica estadística requiere saber algo sobre el contexto de la aplicación.2
La prueba t compara los promedios de dos distribuciones muestrales para inferir si es probable que las dos distribuciones poblacionales de las que se han extraído las muestras tengan promedios poblacionales subyacentes diferentes (si se ha encontrado una diferencia estadísticamente significativa) o si no se ha encontrado una diferencia estadísticamente significativa entre los promedios poblacionales. La pregunta "¿Cuándo dos cosas son significativamente diferentes?" se ha reducido sustancialmente a un argumento de representación simplificada. Los métodos estadísticos generalmente comparan un parámetro de distribución como una representación para evaluar si las distribuciones de datos subyacentes son significativamente diferentes. Las distribuciones de datos en sí mismas sirven como representaciones para evaluar las cosas como perceptiblemente o significativamente diferentes entre sí. Las metodologías estadísticas normalmente identifican diferencias de parámetros de distribución estadísticamente significativas, que es diferente de encontrar diferencias significativas. Para una buena práctica estadística, es necesario usar tanto la relevancia práctica (relevancia de contexto significativa) como la relevancia estadística (diferencia estadísticamente significativa).
Se pueden realizar muchas observaciones (mediciones) de "cosas", pero la prueba t limita nuestro enfoque a una propiedad de parámetro de medición único de las cosas que se van a comparar. Las propias mediciones sirven como representaciones para estimar el verdadero valor de la propiedad. ¿Son esta propiedad y la correspondiente hipótesis de prueba estadística relevantes o fundamentales para explicar por qué se analizan los datos? ¿Por qué se analizan estadísticamente los datos? Sabe por qué se analizan los datos, ¿no? ¿Son otras propiedades de prueba observables más relevantes, menos relevantes o irrelevantes para el fin para el cual se lleva a cabo el estudio? ¿Debería compararse estadísticamente algo más que el promedio? Por ejemplo, ¿son también importantes las medidas de variabilidad o probabilidades de que la propiedad exceda un cierto valor? ¿Se han recopilado datos relevantes en cantidad suficiente para los fines del proyecto? ¿Existen observaciones apropiadamente relevantes en los datos actuales? La eficacia de la práctica estadística es mucho más que una simple aplicación mecánica de los métodos estadísticos.
Los resultados más útiles de las pruebas estadísticas se producen cuando las pruebas estadísticas están estrechamente alineadas con el fin para el que se están aplicando. Sin este enfoque, si no sabe a dónde se dirige, cualquier prueba estadística (camino) lo llevará allí. (El gato de Cheshire, en un momento de intensa reflexión estadística, proporcionó esta cita ligeramente modificada).
Los profesionales de la estadística aún deben comprender su papel fundamental como narradores. Suponga que la prueba t ha indicado una diferencia estadísticamente significativa en el promedio. ¿Qué historia se cuenta y cómo es que se hace significativa o más descriptiva esta historia estadística? ¿Podría la diferencia observada deberse total o parcialmente a la observación diferencial (errores inherentes del sistema de medición) y no a una diferencia más fundamental? ¿La inestabilidad temporal de las muestras generó, de forma total o parcial, relevancia? ¿Era representativa la muestra? ¿Juega el criterio del analista cierto papel en la recopilación o medición de datos? ¿Se proporcionaron todos los datos o algunos se retuvieron sistemáticamente ("eliminación de datos"), o quizás se resumieron demasiado ("resumen destructivo")? ¿Pueden las fallas sistemáticas en la observación (sesgo) ser una explicación o no? ¿Podría la no detección de una diferencia deberse a la imprecisión del sistema de medición? ¿Podría la relevancia, o su ausencia, ser un error inherente de los datos que viola los supuestos fundamentales de la prueba estadística? ¿Cuáles son las implicaciones de reducir la relevancia estadística a solo un resultado de sí o no?
El propósito aquí es iluminar las perspectivas de análisis que normalmente faltan o se subestiman en la capacitación estadística básica. La capacitación estadística básica actual proporciona la mecánica estadística y la interpretación estadística resultante, pero generalmente no describe las limitaciones y los atajos conceptuales utilizados en la base de las pruebas estadísticas. Los analistas de datos tienen una fuerte tendencia a saltar prematuramente a conclusiones que no son necesariamente completas o correctas cuando se realizan pruebas estadísticas.
El análisis estadístico eficaz implica pensar en profundidad sobre lo que podría estar sucediendo, así como sobre la posible relevancia y limitaciones de los datos, antes de elaborar la historia de lo que significa o podría significar la relevancia estadística. Las pruebas estadísticas son una herramienta útil para desarrollar la comprensión e interpretación de datos, pero una buena práctica estadística requiere un conocimiento del contexto para escribir una buena historia de los datos (análisis estadístico). Los detalles más importantes se ignoran cuando se utilizan las metodologías estadísticas de forma aislada. Quizás haya escuchado la historia de los tres eruditos ciegos (ciegos = estadísticos sin contexto de datos) y el elefante. Mirar una parte aislada de un problema sin una reflexión más amplia lleva a uno a imaginar una historia incorrecta. El análisis estadístico eficaz implica pensar en profundidad sobre lo que podría estar sucediendo, así como sobre la posible relevancia y limitaciones de los datos, antes de elaborar la historia de lo que significa o podría significar la relevancia estadística.
Referencias:
1. La Práctica para calcular y utilizar estadísticas básicas (Practice for calculating and using basic statistics) (E2586) proporciona información relacionada.
2. Bzik, T. J., "Relevancia de los datos: comprensión de la relevancia estadística y práctica" ("Data Significance: Understanding Statistical and Practical Significance"), Data Points, Standardization News, Vol. 44, N.° 4, julio/agosto 2016.