Consideraciones generales para trabajar con datos
Consideraciones generales para trabajar con datos
De elefantes, mediciones y herramientas estadísticas
P: ¿Cuáles son las consideraciones generales antes de recopilar datos?
R: Hay una parábola india de varios hombres ciegos que se encuentran con un elefante. Dice así:
- Un grupo de hombres ciegos oyó hablar de un extraño animal llamado elefante. Por curiosidad, dijeron: "Debemos inspeccionarlo y conocerlo al tacto; podemos hacerlo". Así que lo buscaron y, cuando lo encontraron, lo recorrieron con las manos. El primer hombre, cuya mano se posó en la trompa, dijo: "Este ser es como una gruesa serpiente". Otro hombre, cuya mano estaba sobre su pata, dijo: "El elefante es un pilar como el tronco de un árbol". El ciego que colocó su mano sobre su costado dijo que el elefante "Es como una pared". Otro, que sintió su cola, la describió como una cuerda. El último sintió su colmillo, indicando que el elefante es duro, liso y como una lanza.
Esta parábola cuenta muchas verdades en el área de la estadística y las deficiencias que pueden tener lugar al transformar los datos en conocimiento.
Muestreo
Al igual que los ciegos, solo podemos usar nuestras herramientas para examinar lo que está directamente frente a nosotros. En la parábola teníamos a cinco ciegos que, al tomar cada uno una sola medida, encontraron datos que parecían no estar relacionados. Este es el argumento para tener un tamaño de muestra adecuado. Es posible que al seguir examinando a la criatura comenzaran a construir una imagen más clara de un elefante.
El problema principal en este caso es: ¿cuántas muestras son suficientes? Si sabemos algo sobre qué tipos de animales existen, podríamos ser capaces de decir cuántos ciegos necesitamos antes de tener una imagen completa de cualquier criatura que puedan examinar. Intercambie "distribución" por "tipo de animal", y la aplicación a la teoría general del muestreo se vuelve clara. Esto se ha abordado varias veces, incluso en columnas anteriores de Data Points, por lo que dejo el tratamiento matemático a esos artículos. Pero una mejor comprensión de lo que estamos examinando lleva a una mejor comprensión de lo que contempla un tamaño de muestra adecuado.
También está claro el impacto de una mala planificación de la muestra. Imagine que solo el primer ciego realiza varias mediciones, todas en la misma ubicación general de la trompa del elefante. Estaría convencido, y tendría datos estadísticos sólidos que respaldarían la premisa, de que la criatura que examinó era muy similar a una serpiente. Cualquier intento de aplicar este conocimiento a otra área de la criatura, o al elefante como un todo, fracasaría de inmediato. Esto se observa bastante cuando se miden sistemas cambiantes. Puede haber momentos y lugares limitados para acceder físicamente al sistema, tal vez con un solo medidor ubicado cerca del final de un proceso. Los intentos de representar el comienzo del proceso utilizando solo muestras recolectadas al final de este llevarían por mal camino.
Al decidir si una muestra es representativa o no, se debe tener cuidado, ya que esto también determinará qué tan representativas serán las enseñanzas que se obtengan de esa muestra.
Error (e incertidumbre)
Los conceptos de error sistemático y aleatorio están bien estudiados en la mayoría de los campos cuantitativos, pero deseo profundizar sobre la naturaleza de estos errores. El error sistemático más común es una diferencia, donde el valor verdadero está constantemente desviado (MT + E) en todo el rango de mediciones posibles, pero también existe un error proporcional en el que el valor medido se ve afectado por el valor del valor real (E*MT). Los errores sistemáticos también pueden surgir de la deriva en un sistema (experimental o de medición).
La mayoría de las veces, el error aleatorio será IID (independiente e idénticamente distribuido) y gaussiano, que son términos estadísticos para describir una medición que está distribuida de forma normal y no depende de otra medición. Pero estas no son propiedades obligatorias del error aleatorio. El error aleatorio puede cambiar en función de la magnitud del valor que se mide, y normalmente se distribuye más ampliamente en los valores más grandes. El error aleatorio también puede tener una distribución no normal.
Si bien es importante comprender los tipos de error presentes en nuestras mediciones para poder determinar las pruebas estadísticas apropiadas que se deben aplicar, también es importante comprender el impacto práctico de tales errores. Sabiendo que nuestro sistema de medición tiene un error sistemático proporcional con un error aleatorio más ampliamente distribuido a valores más altos, podríamos estar menos dispuestos a confiar en una sola medición a valores altos que a valores bajos.
Correlaciones
En ciencias y matemáticas de nivel escolar, a menudo hablamos de variables independientes (aquellas que son manipuladas por un experimentador) y variables dependientes (aquellas que se ven afectadas por esos cambios). Estos términos pueden engañarnos y hacernos creer que las variables independientes afectan a la variable dependiente independientemente una de la otra, y lo que es peor, independientemente de todas las otras variables que no medimos.
Considere las observaciones "independientes" de la misteriosa criatura. La confusión surge claramente debido a la variable no medida pero correlacionada de ubicación en el elefante. Sin reconocer esta variable faltante y confusa, los datos recogidos parecen no tener sentido. Las variables dependientes correlacionadas deben verificarse de manera rutinaria, ya que surgen problemas al aplicar modelos estadísticos diseñados para datos no correlacionados y obtener conclusiones incorrectas. Como siempre, la correlación no implica causalidad.
Limitaciones
¿De qué color es el elefante?
Nuestros hombres ciegos actualmente carecen de las herramientas necesarias para responder esta pregunta. Pero si un elefante rosado existiera en la manada, podría causar problemas inmediatos para la supervivencia de esta. Es importante recordar que se extraen conclusiones de acuerdo con la solidez de lo que se mide. A menudo, lo que se analiza es lo que es fácil de medir, ya sea que realmente aborde o no la información de interés.
Con frecuencia, esto es una consecuencia directa de la "operacionalización" de nuestras mediciones. A veces, la información importante es fácilmente medible (cuantitativa o cualitativa), pero puede ser mucho más difícil. Por ejemplo, la textura de nuestro elefante tal como se siente con las manos es difícil de medir directamente. Se podría desarrollar una escala estándar de suave a rugosa y entrenar a los observadores rigurosamente. Quizás la textura sea un parámetro multifacético, y sea necesario incluir la dureza y la temperatura de la superficie (junto con varias variables adicionales). La traducción desde una comprensión individual a datos transferibles requiere atención especial.
Verdad
La moraleja estadística de esta parábola es ser muy cuidadosos y precisos al diseñar y emprender estudios y experimentos. Sin una comprensión sólida de los supuestos y la naturaleza de los datos recopilados, una aplicación ingenua de las herramientas estadísticas puede parecerse bastante a un grupo de ciegos que examinan un elefante.
Katie Daisey es una científica (quimiométrica) de Arkema Inc. Miembro de ASTM International desde 2018, es secretaria de registros del comité sobre calidad y estadística. (E11).
Dean V. Neubauer, es ingeniero adjunto y jefe de estadística de Corning Inc., y el coordinador de la columna Data Points. Es miembro general del subcomité ejecutivo del comité sobre calidad y estadística (E11), miembro de ASTM International y expresidente del comité E11.
--------------------
Fe de erratas
En la columna Data Points de marzo/abril, "The Weibull Model — Building on Reliability" (El modelo de Weibull — Reforzando el concepto de confiabilidad), Stephen Luko y Dean Neubauer responden a la pregunta, "¿Cuál es la distribución de Weibull y cómo se utiliza en el análisis de datos"? En el ejemplo del artículo sobre un dispositivo aeroespacial, Luko y Neubauer escriben, "No se trata de una cuestión de seguridad, y el fabricante ha acordado un tiempo de garantía de 1500 horas. Los valores de la tabla muestran una confiabilidad estimada en t = 1500 ciclos de alrededor de 99,5 %, asegurando al fabricante y al cliente este valor". Donde dice "horas" debería decir "ciclos" en esta oración, aunque los cálculos y los números son correctos (aunque incoherentes en cuanto a coma/no coma) tal como se publicaron.