Pruebas de No Inferioridad
Pruebas de No Inferioridad
Una Forma de Equivalencia Ayuda a Comparar un Nuevo Laboratorio, un Instrumento o un Método de Prueba con otro ya Establecido
P: ¿Qué es la no inferioridad y cómo se relaciona con la equivalencia al comparar dos grupos de resultados de pruebas?
R: Un artículo previo de DataPoints cubrió el concepto de la equivalencia, que se define como la condición de que los verdaderos resultados promedio de las pruebas de medición sobre el mismo material por dos fuentes de pruebas tienen una diferencia inferior a los límites predeterminados.1 La Práctica para la Conducción de Pruebas de Equivalencia en Aplicaciones de Laboratorio (E2935) de ASTM proporciona detalles de cálculo para estudios de equivalencia empleados para calificar a un laboratorio, instrumento o método de prueba nuevo al compararlo con uno ya establecido. Este artículo trata otra forma de equivalencia llamada de no inferioridad que es útil en situaciones donde la equivalencia es necesaria solamente en una dirección.
Será útil dar un rápido repaso de las pruebas de equivalencia antes de tratar la no inferioridad. La equivalencia se admite si los resultados promedio de las pruebas de las dos fuentes de datos difieren por un valor inferior a un límite predeterminado de equivalencia, que se denota como E, con un determinado nivel de certidumbre. El procedimiento estadístico para determinar la equivalencia de los datos del resultado de la prueba se basa en el cálculo de un intervalo de certidumbre para la verdadera diferencia entre medias como D ± t sD, donde D es la diferencia entre las medias de los resultados de las dos pruebas, sD es la desviación estándar de esa diferencia y t es un multiplicador tabulado basado en el número de datos y un nivel preseleccionado de certidumbre. El cálculo de sD se basa en las desviaciones estándar de dos grupos de datos y en el diseño del estudio. Así, la equivalencia se admite si todo este intervalo de certidumbre está contenido por completo dentro del intervalo de equivalencia 0 ± E. Dicho más formalmente, la equivalencia se admite si el límite inferior de certidumbre, LCL = D - t sD, es mayor que el límite de equivalencia inferior, -E, y el límite de certidumbre superior, UCL = D + tsD, es menos que el límite de equivalencia superior, E. A esto se lo conoce como las dos pruebas unilaterales o procedimiento TOST.
La no inferioridad es el caso especial de equivalencia necesaria en una sola dirección. Por ejemplo, la fuente propuesta puede ser ligeramente inferior a la fuente establecida con respecto a una característica de desempeño en particular, como la sensibilidad al ensayo, pero la propuesta puede compensarse mediante ventajas como un costo menor o una entrega más rápida de los resultados. Si el margen de inferioridad parece ser en el peor de los casos menor a alguna diferencia E, entonces se dice que el método propuesto es no inferior al método establecido. Otros términos usados en la práctica para la no inferioridad son equivalentes o mejores o al menos equivalentes.
El procedimiento estadístico para la no inferioridad usa la misma prueba de intervalo de certidumbre como equivalencia, pero la decisión depende solamente del resultado en una dirección. En la situación donde la característica de desempeño se define como más elevado es mejor, como el método de sensibilidad o probabilidad de detección, la prueba estadística admite la no inferioridad cuando LCL -E. Un ejemplo proviene de las pruebas ambientales de contaminación microbiana donde el método tradicional incluye el recuento de colonias microbianas después de la preparación de cultivos en placas y la incubación de la muestra, la cual se puede dar en períodos medidos en días. Existen métodos más nuevos y rápidos que tienen beneficios en la inmediatez y el costo aunque pueden tener una sensibilidad ligeramente menor que el método tradicional. Debido a los resultados de las pruebas que pueden abarcar varios órdenes de magnitud, los microbiólogos a menudo emplean una escala de logaritmos para el recuento con un margen de 0.5 para log10 (recuentos), y esto puede usarse para definir la magnitud de E. En términos de recuentos relativos, este margen equivale aproximadamente a un 30% en la reducción permitida para el margen de no inferioridad.
Por el contrario, cuando la característica de desempeño se define como más bajo es mejor, como la incidencia de los errores de clasificación, la prueba estadística admitiría la no inferioridad cuando UCL < E. Debe tenerse en cuenta que el procedimiento de equivalencia comprende dos pruebas estadísticas unilaterales, mientras que el procedimiento de no inferioridad solamente realiza una prueba estadística unilateral.
Hasta este punto, el parámetro de desempeño tratado se ha basado en diferencias de medias; sin embargo, otro parámetro importante en la evaluación del método de prueba es la precisión de la prueba, medido inversamente como la desviación estándar de la población o la varianza y, para estos parámetros, más bajo es mejor. Debido a que las variaciones son un parámetro de escala, la prueba de no inferioridad usaría la relación R de las dos varianzas en lugar de su diferencia; por lo tanto R = /, donde y son las variaciones calculadas de los resultados de la pruebas de los métodos propuesto y establecido, respectivamente. Un límite superior de certidumbre para R, denota UCLR, para un nivel de certidumbre dado y la cantidad de datos que se pueden encontrar a partir de la distribución tabulada F. El límite de equivalencia E también estaría como un cociente. Por ejemplo, si E = 2, este margen de no inferioridad permitiría que el método propuesto tuviera hasta el doble de la variación del método establecido o hasta 1.4 veces la desviación estándar. La prueba estadística admitiría entonces la no inferioridad si UCLR<E.
Un tema importante en el diseño de procedimientos de no inferioridad incluye la cantidad de datos requeridos para controlar la energía del procedimiento; es decir, la probabilidad de aceptación de la no inferioridad cuando el método propuesto es verdaderamente no inferior al método establecido. Afortunadamente, el cálculo de la energía para el procedimiento de no inferioridad es más simple que el de equivalencia, ya que solamente incluye una prueba estadística unilateral. Desafortunadamente, la cantidad de datos necesarios para una buena potencia en procedimientos de inferioridad de precisión, debe ser mucho más grande (al menos media orden de magnitud más) que aquella para las medias.
Una buena referencia para los procedimientos de no inferioridad es Design and Analysis of Non-Inferiority Trials (Diseño y Análisis de Ensayos de No Inferioridad), aunque su contexto es para ensayos clínicos farmacéuticos.2 Sin embargo, se incluyen muchos ejemplos numéricos, y estos son fácilmente traducibles para la evaluación del método de prueba.
En resumen, el concepto de no inferioridad merece un uso mayor en el campo de la evaluación de métodos de prueba. El trabajo de desarrollo de normas se encuentra actualmente en proceso por parte del Comité E11 de Calidad y Estadísticas para incluir los procedimientos de no inferioridad en ASTM E2935.
Referencias
1. Murphy, T.D., Testing for Equivalence, ASTM Standardization News, sept./oct. del 2014, Vol. 42, N.º 5, pág. 16-17.
2. Rothmann, M.D., Wiens, B.L. and Chan, I.S.F., Design and Analysis of Non-Inferiority Trials, Chapman and Hall/CRC, 2012.
Thomas D. Murphy, consultor estadístico retirado, Fredricksburg, Virginia, es presidente del Subcomité E11.20 sobre Evaluación y Control de Calidad de los Métodos de Prueba, que forma parte del Comité E11 sobre Calidad y Estadística. Fue presidente del E11 durante los años 2002-2003.