Control del riesgo Alfa de las pruebas de equivalencia múltiple utilizando el principio de la prueba de intersección-unión (Intersection-Union Test, IUT)

POR:
Author
Joel Dobson y Thomas D. Murphy

P. Al realizar pruebas de hipótesis estadísticas múltiples simultáneas, los niveles de riesgo α para cada una de las n pruebas componentes suelen ajustarse mediante la corrección de Bonferroni con el fin de alcanzar un riesgo α global para la familia de las pruebas combinadas. Esto se logra dividiendo el riesgo α de cada prueba componente entre n. Por ejemplo, si se realizan cinco pruebas de valores atípicos con un riesgo global de 0.05, entonces cada prueba componente se realiza con α = 0.05/5 = 0.01. ¿Cómo evitan las pruebas de equivalencia esta corrección de multiplicidad utilizando el principio IUT?

R. El principio IUT y su aplicación a los requisitos de pruebas múltiples han sido explicados por Berger para aliviar este problema de multiplicidad, en particular para las pruebas de equivalencia múltiple simultáneas.1 La solución consiste en invertir la hipótesis nula para cada una de las pruebas componentes de manera que su requisito no se cumpla con un riesgo α determinado, por lo que el rechazo de toda hipótesis nula acepta que se cumplan todos los requisitos. La prueba de la hipótesis nula general plantea la no equivalencia para las pruebas combinadas y su alternativa acepta la equivalencia. La prueba global rechaza la hipótesis nula de no equivalencia global, y decide que se cumplen todos los requisitos si y solo si cada una de las pruebas individuales decide que se ha cumplido su requisito. Para ver esto, supongamos que Ri (i = 1, ..., n) es el evento en el que se rechaza la hipótesis nula de la i-ésima prueba estadística. Entonces el evento  para la prueba global es la intersección de todos los eventos Ri, que es el evento en el que se rechazan todas las n hipótesis nulas con riesgo α, aceptando así que se cumplen todos los requisitos. Se debe tener en cuenta que el evento complementario  es la unión de todos los eventos complementarios en los que sus hipótesis nulas no se rechazan con riesgo α. El evento Rc define la hipótesis nula de la prueba global, y se acepta cuando se aceptan al menos una o más hipótesis nulas individuales, rechazando así el cumplimiento de todos los requisitos. La prueba global es una IUT con la hipótesis nula como la unión y la hipótesis alternativa como la intersección. Si las pruebas componentes son todas unilaterales, la prueba global y todas las pruebas componentes tendrán un riesgo α.

Ejemplo La práctica estándar para evaluar la equivalencia de dos procesos de prueba (E2935) utiliza datos numéricos de dos fuentes de resultados de pruebas para determinar si sus verdaderas medias, varianzas u otros parámetros no difieren más allá de los límites predeterminados. A modo de ejemplo, se presentará la evaluación de equivalencia de las diferencias de medias en los resultados de las pruebas entre dos laboratorios. Definamos la diferencia de medias verdaderas entre laboratorios como Δ = m2 - m1, y establezcamos un límite de equivalencia E como la diferencia mínima tolerable. La hipótesis nula para la prueba estadística global es H0: |Δ| ³ E, donde la diferencia de medias verdaderas es igual o mayor que E, y la hipótesis alternativa es Ha: -E < Δ < E, donde la diferencia de medias verdaderas es menor que ±E. Hay que tener en cuenta que esto es lo inverso a la configuración de hipótesis habitual de una prueba estadística para una diferencia nula de medias.

La prueba global consiste en un procedimiento de dos pruebas estadísticas unilaterales (two one-sided statistical tests, TOST) con las hipótesis nula y alternativa de las dos pruebas componentes, como sigue:

                                          Prueba 1                        Prueba 2
Hipótesis nulas                H01: m2 - m1 ³ E               H02: m2 - m1 £ -E 
Hipótesis alternativas      Ha1: m2 - m1 < E               Ha2: m2 - m1 > -E

El procedimiento TOST es una IUT, debido a la forma especial en que se definen las hipótesis nulas para las pruebas componentes.

Se recolectan los datos de los resultados de las pruebas de los dos laboratorios de pruebas 1 y 2 y se calculan los promedios de cada laboratorio. Además, se calcula la diferencia D entre los dos promedios y el error estándar de la diferencia sD. Las estadísticas t son  y  para las pruebas 1 y 2, respectivamente. Ambas hipótesis nulas se rechazan cuando  y , donde t =  es el cuantil (1-a)ésimo superior de la distribución t de Student con f grados de libertad. Si se rechazan ambas hipótesis, se afirma que –E < m1 - m2 < E y se dice que las dos fuentes son equivalentes; en caso contrario, las dos fuentes de datos se consideran no equivalentes. Cada hipótesis se comprueba al nivel α.

El proceso TOST también está en el nivel α porque la región de rechazo (donde se afirma la equivalencia) es la intersección de las regiones de rechazo de estas dos pruebas y, por tanto, tiene probabilidad ≤α bajo ambas hipótesis nulas. En la escala de resultados de prueba de los datos, las regiones de rechazo son:

R1 = (-∞, E - t sD), R2 = (-E + t sD, ∞), y  (-E + t sD, E - t sD).

Cualquier valor de D dentro de la región R aceptará la equivalencia de medias entre los laboratorios 1 y 2. Se puede demostrar que el nivel de la prueba global es exactamente α en condiciones moderadas.2

Un artículo anterior de Datapoints mostraba pruebas de equivalencia de medias en términos de intervalos de confianza de 100 (1 - 2α) % en lugar de pruebas de hipótesis estadística, lo que puede ser más intuitivo porque los intervalos de confianza expresan la incertidumbre del estimado D.3 Para cumplir con la equivalencia de medias, el intervalo de confianza, D ± t sD, tiene que estar completamente contenido en el intervalo (-E, E). Berger y Hsu critican el uso de los intervalos de confianza en la evaluación de equivalencia, pero admiten que el enfoque del intervalo de confianza para el proceso TOST es válido si el intervalo de confianza tiene las mismas colas; es decir, se utiliza la misma alfa para cada semiintervalo.4 El principio IUT puede extenderse a otras aplicaciones de comparaciones múltiples y suele ser más pertinente que la prueba estadística de diferencias nulas.

Referencias
1 Berger, R., “Multiparameter Hypothesis Testing and Acceptance Sampling,” Technometrics, Vol 24, No. 4, 1982, pp. 295–300.
2 Ibid.
3 Murphy, T.D., “Testing for Equivalence,” ASTM Standardization News, Sept./Oct. 2014, Vol. 42, No. 5, pp. 16-17. 2.
4 Berger, R., and Hsu, J., “Bioequivalence Trials, Intersection-Union Tests and Equivalence Confidence Sets,” Statistical Science, Vol 11, No. 4, 1996, pp. 283–319.

Joel Dobson es ingeniero de confiabilidad de Texas Instruments Incorporated, donde es un miembro distinguido del personal técnico. Dobson es un estadístico profesional acreditado por la Asociación Estadounidense de Estadística (American Statistical Association), cinturón verde y cinturón negro certificado en Six Sigma, ingeniero de calidad certificado por la ASQ y miembro del Comité de ASTM sobre Calidad y estadística (E11).

Thomas D. Murphy es un consultor estadístico jubilado y presidente del Subcomité sobre Evaluación de métodos de prueba y control de calidad (E11.20), que forma parte del Comité sobre Calidad y estadística (E11). Fue presidente de E11 de 2002 a 2003 y es Fellow de ASTM.

John Carson, Ph.D., de P&J Carson Consulting LLC, es el coordinador de la columna Data Points. Es presidente del Subcomité sobre Control de calidad estadístico (E11.30), forma parte del Comité sobre Calidad y estadística (E11) y además es miembro del Comité sobre Evaluación ambiental, gestión de riesgos y medidas correctivas (E50).

SECTORES INDUSTRIALES
Issue Month
Julio/Agosto
Issue Year
2022
COMITÉ:
Committees
E11
E50