El Máximo (O Mínimo) De La Muestra
El Máximo (O Mínimo) De La Muestra
Lo Que Puede Ser
P. ¿Cómo estimamos cuál puede ser el máximo (o mínimo) de una muestra cuando no la conocemos, suponiendo una distribución normal?
R. Supongamos que se nos da una media muestral y una desviación estándar junto con el tamaño de muestra que se usó para calcular esas estadísticas. Supongamos también que los datos son extraídos al azar de una distribución normal. Nada más. La pregunta es: "¿Cómo podemos estimar cuál fue el mayor (o menor) valor de la muestra?" La preocupación puede ser que un valor demasiado grande haya podido escapar a la siguiente operación o haya podido ser enviado a un cliente. Repetimos: no tenemos los datos sin procesar sino solo la media muestral, la desviación estándar y el tamaño de la muestra.
Figura 1 — Distribución de g para n = 101.
1. Se muestran las líneas de referencia para la probabilidad de 95 por ciento (estos son los percentiles 2,5 y 97,5).
Calculemos el máximo de la muestra conociendo el tamaño de la muestra, la media muestral y la desviación estándar, donde se supone que la muestra fue extraída al azar de una distribución normal. Supongamos que n es el tamaño de la muestra, el promedio de la muestra, y Sy la desviación estándar de la muestra. Observe que los subíndices en paréntesis usados abajo denotan las estadísticas de orden.
1. Genere un número grande de muestras, cada una del tamaño n, de una distribución N (0,1); se recomienda al menos 100 000 muestras. Llame a estas variables v.
2. Calcule y guarde la media muestral, la desviación estándar y el v máximo para cada muestra. Observe que v(n) es el valor más grande de la muestra.
3. Calcule el máximo de muestra estandarizado, como se muestra abajo, para cada muestra de n. Observe que esto es similar a la estadística tradicional de Grubbs, usada para probar un solo valor atípico en una muestra de distribución normal. En el escenario de Grubbs, generalmente hay tablas disponibles para valores críticos superiores como 95 y 99 por ciento. Aquí usamos el método de Grubbs como delimitación para el mayor valor de la muestra en n. Los criterios de Grubbs para la detección de valores atípicos se muestran en la Referencia 1, que incluye una tabla de valores críticos de la estadística g de Grubbs para un tamaño de muestra variable (vea la tabla de abajo; si no se otorgó permiso, solicítelo). Es posible encontrar más detalles en relación con el método de Grubbs en el artículo anterior de 1950, Referencia 2.
Guarde g para cada muestra.
4. Los valores de g constituyen la distribución de la distancia estandarizada, respecto a un promedio muestral, a la que puede encontrarse el valor máximo de una muestra de n. Esta distribución es idéntica para cualquier matriz normal, como se puede demostrar fácilmente. Determine dos percentiles empíricos delimitadores de la distribución de g, por ejemplo k1 y k2, de modo que P(k1< g < k1) = C, donde C es la probabilidad deseada, por ejemplo 95 o 99 por ciento. La Figura 1 muestra la distribución de g para n = 10, obtenida mediante la simulación de Monte Carlo y
250 000 ensayos.
5. Sustituyendo como tenemos:
Se determina que:
6. Cuando sustituimos el promedio de la muestra y la desviación estándar reales obtenemos un intervalo de confianza para el máximo de la muestra.
El límite unilateral inferior o superior puede determinarse de forma similar.
Ejemplo
Suponga para una muestra de n = 10 que la media muestral es 162 y la desviación estándar es 12,4. Calcule el mayor valor de la muestra al 95 por ciento de confianza.
Realizando el procedimiento resumido anteriormente, observe de la distribución de g
que k1 = 1,011 (el punto de 2,5 por ciento) y k2 = 2,288 (el punto de 97,5 por ciento). El mayor en n = 10 puede limitarse entonces (según el párrafo 5), con confianza del 95 por ciento, como:
; a un nivel de confianza del 95 por ciento.
Se puede encontrar de forma similar un intervalo del 90 o 99 por ciento. Puede demostrarse que son los siguientes:
; a un nivel de confianza del 90 por ciento.
y
; a un nivel de confianza del 99 por ciento.
Tabla 1 —Tabla de valores críticos para G (prueba unilateral) cuando la desviación estándar se calcula de la misma muestra6
Observe que no estamos prediciendo un valor futuro porque los datos ya existen; tampoco estamos construyendo un intervalo para un parámetro ni un intervalo de tolerancia para toda la distribución. Esto significa que el intervalo que estamos construyendo no es un intervalo clásico del tipo de predicción, confianza o tolerancia. Para ver más detalles sobre estos tipos de intervalos que aparecieron anteriormente en esta columna, consulte las Referencias 3, 4 y 5. El máximo de la muestra es una instancia de una variable aleatoria única no observada sobre la que se pueden hacer predicciones. Podemos usar la tabla de Grubbs para el límite superior del máximo de la muestra o el límite inferior del mínimo de la muestra. La distribución de g no es simétrica. Cuando se aplica la simulación de Monte Carlo, necesitamos usar la distribución real de g a fin de calcular los percentiles que se usan para el nivel de confianza escogido. Es interesante notar que, muy a menudo, la gente usa la media más 3 desviaciones estándar como un estimado para el máximo. En el ejemplo anterior, el valor sería 199,2. Compárelo con los intervalos reales deducidos.
Es posible hacer este tipo de análisis para otros tipos de distribuciones, pero vale la pena recordar aquí que este artículo supone que la distribución originalmente muestreada era una distribución normal y que no había valores atípicos entre los valores de la muestra.
Reconocimiento
El autor agradece a Stanley Shulman, presidente actual del Comité E11 sobre Calidad y Estadística y estadístico del gobierno jubilado, por proponer este problema en una comunicación reciente.
Stephen N. Luko, de UTC Aerospace Systems, Windsor Locks, Connecticut, fue presidente del Comité E11 sobre Calidad y Estadística y es coordinador actual del Subcomité E11.30 sobre Control de Calidad Estadístico y miembro de ASTM International.
John Carson, Ph.D., de P&J Carson Consulting LLC, es el coordinador de la columna Data Points. También es vicepresidente del subcomité E11.30 sobre Control de Calidad Estadístico, parte del Comité E11 sobre Calidad y Estadística, y miembro del Comité E50 sobre Evaluación Ambiental, Gestión de Riesgos y Acción Correctiva.
Referencias
1. Grubbs, F.E., “Procedures for Detecting Outlying Observations in Samples, Technometrics, Vol. 11, No. 1, Feb. 1969, pp. 1-21.
2. Grubbs, F.E., “Sample Criteria for Testing Outlying Observations,” Annals of Mathematical Statistics, Vol. 21, 1950, pp. 27-28.
3. Luko, S.N., y Neubauer, D.V., Statistical Intervals: Nonparametric, Part 1, ASTM Standardization News, Vol. 41, No. 6, Nov./Dic. 2013, pp. 20-21.
4. Luko, S.N., y Neubauer, D.V., Statistical Intervals: Nonparametric, Part 2, ASTM Standardization News, Vol. 42, No. 1, Ene./Feb. 2014, pp. 12-13.
5. Luko, S.N., y Neubauer, D.V., Statistical Prediction Intervals, ASTM Standardization News, Vol. 42, No. 2, Marzo/Abril 2014, 12-14.
6. Tabla parcial de Grubbs, F.E., “Procedures for Detecting Outlying Observations in Samples,” Technometrics, Vol. 11, No. 1, Feb. 1969, reimpresa con permiso de la Asociación Americana de Estadística.