Reconocimiento de la multiplicidad en las pruebas estadísticas
P: En la última edición de Data Points, los autores conversaron sobre la realización de pruebas de equivalencia múltiples y la necesidad de controlar el riesgo alfa, es decir, el riesgo de rechazar erróneamente las hipótesis nulas.1 ¿En qué otras situaciones es necesario controlar el riesgo alfa de las pruebas múltiples?
R: El riesgo alfa es la probabilidad de que se rechace una hipótesis nula cuando en realidad es verdadera, descrita más comúnmente como la tasa a largo plazo de cometer un error de Tipo I. Por lo general, siempre que se realizan múltiples pruebas de hipótesis simultáneas, el riesgo alfa es elevado y debe tomarse alguna medida correctiva. Piense en cada prueba como un lanzamiento de dados. Cualquier número que desee conseguir o evitar acabará apareciendo.
En la edición anterior de Data Points se abordó la aplicación del principio de la Prueba de intersección-unión (IUT) como método para controlar el riesgo alfa, pero para una persona que no sea estadístico puede no ser evidente que están ocurriendo múltiples pruebas. Por desgracia, el significado matemático de "simultáneo" difiere considerablemente del uso general, y las pruebas no necesariamente se realizan al mismo tiempo. En cambio, simultáneo se refiere a cualquier prueba de hipótesis que se produzca sobre el mismo tema o en el mismo estudio, lo que puede ser difícil de definir e identificar. Aquí se presentan algunas categorías amplias de pruebas de hipótesis simultáneas múltiples para ayudar al no estadístico a identificar las pruebas simultáneas.
Estadísticas múltiples
Un tipo de prueba de equivalencia se utiliza para demostrar que dos procedimientos de prueba son equivalentes al mostrar que varios estadísticos que describen los datos generados por las dos pruebas no son estadísticamente diferentes. Algunos de los cálculos estadísticos más comunes son la media de la muestra, la desviación estándar, el rango y el sesgo. Aunque los estadísticos solo describen dos conjuntos de datos, por el hecho de estar comparando múltiples parámetros, estas son múltiples pruebas de hipótesis simultáneas. Cuantas más estadísticas se comparen para proporcionar pruebas más sólidas de la equivalencia de las pruebas, mayor será la probabilidad de un error de Tipo I.
Variables múltiples
El segundo tipo de prueba de equivalencia se utiliza para demostrar que un procedimiento de prueba es equivalente entre varios laboratorios de pruebas. Suponiendo que solo se compara una estadística (normalmente la media), cada una de estas comparaciones entre laboratorios dará lugar a un gran número de pruebas de hipótesis simultáneas.
Un método común para comparar múltiples variables es el análisis de varianza de una vía (ANOVA), que por sí misma consiste en una prueba de hipótesis única. Por lo tanto, se puede utilizar un nivel alfa no ajustado, normalmente a través de la prueba F, para controlar el riesgo de un error de Tipo I (por ejemplo: alfa = 0.05). Sin embargo, si el ANOVA unidireccional informa de una diferencia significativa, a menudo se realizan múltiples pruebas post-hoc (de seguimiento) para identificar qué grupos de tratamiento (factores) difieren. Estas pruebas post-hoc son pruebas de hipótesis simultáneas, y el riesgo de un error de Tipo I es, de nuevo, elevado. La mayoría del software estadístico que realiza de forma automática las pruebas de comparación post-hoc utiliza un alfa ajustado en esta situación, pero esto debe confirmarse por medio de la documentación del software. Hay que tener en cuenta que Microsoft Excel no realiza de forma automática las pruebas post-hoc, y se debe calcular manualmente un alfa ajustado cuando se utilizan valores-p de pruebas post-hoc de Excel.
El análisis de varianza multidireccional (MANOVA) se utiliza para probar la significancia estadística de dos o más factores diferentes en múltiples variables de resultado. Cuando se utiliza un MANOVA para confirmar una única hipótesis preestablecida, resulta adecuado un alfa no ajustado, pero cuando se utiliza un MANOVA para explorar cualquier posible efecto y/o interacción de los distintos factores, se trata de múltiples pruebas de hipótesis simultáneas, y el riesgo alfa es elevado.
Análisis de subgrupos
Un tipo interesante de prueba de hipótesis simultánea múltiple es el de los análisis de subgrupos, que a veces se denomina comúnmente "rebanado de datos" o "rebanado de salami".2 En este enfoque, se prueban subconjuntos de los datos, por lo general basados en un factor categórico, de uno en uno para comprobar la significancia estadística de una prueba de hipótesis. Esto se ve comúnmente en las encuestas y en el campo de la medicina, donde la demografía tiende a ser un factor importante, pero también puede verse en áreas como pruebas entre laboratorios (donde cada laboratorio individual podría constituir un subgrupo), situaciones de múltiples instrumentos/pruebas y pruebas multigrado.
Los análisis de subgrupos pueden ser una forma estadísticamente válida de analizar los datos, pero al igual que un MANOVA exploratorio, los análisis exploratorios de subgrupos tienen un riesgo alfa elevado que debe corregirse. El riesgo se mantiene, incluso si no se prueban explícitamente todos los subgrupos posibles o si se realiza un análisis de subgrupos significativamente posterior al análisis original de los datos.
Una variante no tan obvia de los análisis de subgrupos es analizar repetidamente las mismas muestras durante un tiempo. Aunque las pruebas físicas se producen en momentos distantes en el tiempo, para los propósitos de la multiplicidad de pruebas, estas se consideran simultáneas. Los gráficos de control y otros procedimientos de monitoreo son ejemplos de ello.
Informe selectivo de las muestras
Un tipo más ingenioso de prueba de hipótesis simultánea múltiple es la inclusión o exclusión de muestras, especialmente cuando se realiza un análisis posterior. Excluir (o incluir) los valores atípicos específicamente para alcanzar un valor-p de una prueba estadística es un es un claro uso indebido de las estadísticas y no debe tolerarse. En cambio, las decisiones sobre el método para identificar y rechazar los valores atípicos deben tomarse a priori, idealmente con el objetivo de limitar la fracción de muestras rechazadas.
De forma similar, detener un experimento porque se han recopilado suficientes muestras para alcanzar el valor-p, o por el contrario, recolectar más muestras porque la prueba de la hipótesis no alcanzó el valor-p, es también una situación con mayor riesgo alfa, y dicho alfa deberá ajustarse como corresponda. Esto puede hacerse correctamente utilizando los métodos del análisis secuencial, pero se trata de un tema bastante avanzado.
Regresión múltiple
La última categoría de esta lista no exhaustiva es la ejecución de múltiples pruebas de hipótesis simultáneas para determinar la importancia de las variables. Esta situación se da habitualmente cuando se hace una regresión lineal múltiple en la que hay que determinar la significancia estadística de cada variable y, en consecuencia, incluir o excluir las variables de la regresión. Aunque en la primera etapa el riesgo alfa no es elevado para determinar si alguna de las variables es significativa, este se eleva en la segunda etapa, donde se determina cuál de las variables (o interacciones de las variables) es significativa y debe controlarse adecuadamente.
¿Menos capacidad o más muestras?
El ajuste por multiplicidad de pruebas siempre implica la reducción de alfa para las pruebas individuales, como en un ajuste de Bonferroni. Sin embargo, la reducción de los alfa de las pruebas individuales incurre en la penalización de reducir la capacidad para detectar desviaciones de las condiciones de sus respectivas hipótesis nulas. Como se comentó en otra columna anterior de Data Points, esta disminución de alfa requiere un aumento en el tamaño de la muestra para mantener la misma capacidad para detectar las desviaciones de las condiciones de las hipótesis nulas.3 Si las pruebas individuales son fundamentales para el proceso de decisión global, el tamaño de la muestra global debe aumentar en consecuencia.
Resumen
Las pruebas de multiplicidad se producen en una gran diversidad de contextos de decisión estadística. Siempre que se aplican pruebas de hipótesis de forma exploratoria o secuencial, aumenta el riesgo de cometer un error de Tipo I... el riesgo alfa. Para realizar un mayor número de pruebas de hipótesis simultáneas manteniendo la misma probabilidad global de cometer un error de Tipo I, se deben utilizar alfas cada vez más pequeños para las pruebas individuales.
La corrección de multiplicidad controla la probabilidad de que una o más de las pruebas simultáneas den un error de Tipo I a costa de reducir la capacidad de las pruebas individuales, a menos que el tamaño de la muestra se incremente lo suficiente para compensarlo. Aunque existen métodos para ajustar el alto riesgo alfa, como se comentó en la anterior edición de Data Points, el autor espera que esta columna ayude a identificar cuándo podría ser necesario aplicar estas herramientas.
Referencias
1 Dobson, J. and Murphy, T.D., “Controlling the Alpha Risk of Multiple Equivalence Tests Using the Intersection-Union Test (IUT) Principle,” Standardization News (julio-agosto 2022).
2 Head, M.L. et al. “The Extent and Consequences of p-Hacking in Science,” PLOS Biology Vol. 13, No. 3 (2015).
3 Parendo, C., “Power and Sample Size, Part 1,” Standardization News (mazo-abril 2022).
La Dra. Katie Daisey es una científica en Arkema Inc. dedicada al apoyo de I+D y fabricación en las áreas de estadística, quimiometría y transformación digital. La Dra. Daisey actualmente es vicepresidente del comité de calidad y estadística (E11).
El Dr. John Carson, de P&J Carson Consulting LLC, es el coordinador de la columna Data Points. Es presidente del Subcomité sobre Control de calidad estadístico (E11.30), forma parte del Comité sobre calidad y estadística (E11) y además es miembro del Comité sobre Evaluación ambiental, gestión de riesgos y medidas correctivas (E50).