Entender las poblaciones
Cuando obtuve mi licenciatura en química, jamás pensé que usaría las estadísticas tanto como las uso ahora. El primer trabajo de mi carrera profesional fue en un laboratorio de calidad para un fabricante de productos farmacéuticos. Creía que mi uso de las matemáticas consistiría únicamente en calcular promedios.
Todos los días, iba al laboratorio y añadía un producto químico a una solución de medicamento en fabricación, apenas en la cantidad necesaria para que se tornara de color rosa. Luego, aparentemente para garantizar que no me hubiera equivocado sin querer la primera vez, repetía el proceso otras dos veces. Después, las tres lecturas se promediaban para determinar la concentración exacta del medicamento. ¡Perfecto! Excepto que no tenía idea de cuánto trabajo previo se había llevado a cabo para cerciorarse de que el frasco del medicamento que yo analizaba fuera representativo del lote de fabricación del que se extraía. El frasco era la muestra y el lote de fabricación era la población. ¡Esto es la estadística en acción!
En la década de 1990 e incluso a principios de los años 2000, muchas personas como yo no empezaban sus carreras pensando en que serían especialistas en estadísticas, científicos de datos ni nada por el estilo. Con la revolución digital en pleno auge y los estudios analíticos predictivos llamando a la puerta, es más fundamental que nunca entender cómo definimos las muestras y las poblaciones. Del modo en que se definen estos elementos dependen las conclusiones que pueden obtenerse de manera confiable a partir de ellos. Y estas conclusiones pueden cambiar nuestra manera de entender el mundo e interactuar con él.
Una población es el grupo colectivo de elementos individuales que está en estudio o que es de interés. Para comprender una población (y las muestras y conclusiones que pueden obtenerse), es necesario definir su alcance con claridad. El siguiente paso es hacer preguntas; muchas preguntas. Las siguientes son algunas de mis preguntas favoritas:
- ¿La pregunta está definida de manera clara?
- ¿Estoy respondiendo la pregunta correcta?
- ¿Cuáles son las hipótesis?
- ¿Podría algún factor sesgar el conjunto de datos o su recopilación?
- ¿Los resultados deseados influyen en cómo analizamos los datos?
Sesgo de supervivencia
Usemos un ejemplo clásico. En la Segunda Guerra Mundial, tanto los Aliados como las potencias del Eje se valían de aviones para proporcionar artillería desde el cielo. Llevó tiempo desarrollar las habilidades de los artificieros y pilotos de combate. Los recursos eran limitados porque los aviones no podían construirse tan rápido. Entonces, con los recursos limitados, ¿cómo podía la Fuerza Aérea proteger los aviones y la tripulación de combate que ya tenían? Debía reforzar los aviones. Sin embargo, había una inquietud. Si se añadía demasiado peso, disminuiría la agilidad y aumentaría el consumo de combustible. Si no se añadía el refuerzo suficiente, los aviones (y su tripulación) correrían mayores riesgos.
Para abordar este problema, la Fuerza Aérea hizo lo que continúa haciendo al día de hoy: las tripulaciones de vuelo recabaron datos. Después de una misión, los aviones regresaban llenos de orificios de balas, de modo que las tripulaciones registraban la cantidad y ubicación de los impactos. Los datos recopilados revelaban que era menos probable encontrar orificios de balas en los motores (alrededor de 1,1 impactos por pie cuadrado) y era más probable hallarlos en áreas generales del avión o en el fuselaje donde se encontraba el personal (aproximadamente, de 1,7 a 1,8 impactos por pie cuadrado).
Los pilotos y las tripulaciones deben de haber sentido algún tipo de alivio al ver que los datos mostraban que el fuselaje presentaba uno de los índices más altos de impactos. Después de todo, estaban intentando comprobar dónde concentrar el refuerzo.
Como resultado de estos datos, la Fuerza Aérea usó la hipótesis de que la población de interés eran los aviones que regresaban de sus misiones, probablemente porque ese grupo era el más disponible y visible. Consideraron que se podía utilizar una muestra de los aviones que regresaban para recabar la información necesaria sobre la cantidad de impactos y su ubicación.
Abraham Wald, un especialista en estadística que trabajaba para EE. UU., fue famoso por cuestionar no solo los datos en sí mismos, sino las hipótesis en torno a los datos y la población que representaban. ¿Realmente era más probable que las balas impactaran en una parte del avión más que en otra? ¿Por qué era el índice de daños en el área alrededor del motor tanto menor?
Su respuesta fue sugerir que era probable que el índice de impactos fuera homogéneo para todas las áreas de un avión. Los impactos “ausentes” en los motores no estaban ausentes en absoluto: los orificios de balas podían hallarse en los aviones que nunca regresaron. ¿Hacía esto que la población fuera diferente? En realidad, la población estaba compuesta por todos los aviones que emprendían una misión determinada. Los datos solo se recopilaban de una porción específica de la población: los aviones que podían volver.
Este famoso ejemplo de sesgo en los datos y la población se conoce como el sesgo de supervivencia. Los datos solo se recababan a partir de los miembros “supervivientes” de la población. De esta manera, se excluía al resto de la población que no regresaba a la base.
¿Puede haber una población compuesta solo por estos aviones que volvían de sus misiones? Absolutamente. Pero esa no era la pregunta en cuestión. La pregunta era cómo proteger todos los aviones que partían hacia una misión, no solo los que regresaban. Los datos recabados habían estado sesgados de manera inadvertida por la incapacidad de recopilar información directamente sobre los aviones que no regresaban.
La tripulación pasó a compartir sus datos y confirmar cómo deberían interpretarse. La colaboración con el grupo de investigación estadística permitió que Wald llegara a las conclusiones correctas que, en última instancia, ayudaron a las tripulaciones. Las recomendaciones de Wald con respecto a la colocación del refuerzo en las aeronaves recibieron una respuesta casi inmediata. Parte de la velocidad de la respuesta puede atribuirse a la estructura jerárquica del mando militar. No obstante, las tripulaciones mismas adoptaron sus conclusiones cuando vieron la perspectiva más amplia. Vieron el potencial de seguridad que aportaba proteger la aeronave, y la posibilidad de sobrevivir a los daños para aterrizar en territorio aliado y salvar la vida de la tripulación.
Cuestionar mis hipótesis
En How Not to Be Wrong: The Power of Mathematical Thinking (Cómo no equivocarse: el poder del pensamiento matemático), Jordan Ellenberg observó que los ganadores tradicionales de las guerras eran “por lo general, quienes logran que les derriben un 5 % menos de los aviones, o usan un 5 % menos de combustible, u obtienen un 5 % más de nutrición para sus soldados al 95 % del costo. No es lo que se ve en las películas de guerra, pero sí lo que se ve en las guerras”. Ellenberg llegó a la conclusión de que la capacidad para cuestionar todas y cada una de las hipótesis fue el diferenciador que hizo que Abraham Wald fuera excepcional.1
Aún hoy en día, 80 años después, pueden ocurrir fenómenos similares con la recopilación de datos, las poblaciones y las conclusiones. Si realiza una búsqueda rápida en Internet, puede encontrar una enorme cantidad de ejemplos de conclusiones que se generalizan a toda una población, a pesar de que la muestra no siempre refleja esa población.
Más allá de que usted sea consumidor o generador de datos, tómese el tiempo para entender la población sobre la que se funda una conclusión. Cuestione hasta el cansancio cómo se recopilan los datos, qué representan, si representan a toda la población o solo a una parte de ella, y si representan lo que usted realmente quiere saber.
Cuando estaba en la universidad, me “adoptó” una abuela local, la Sra. Irene Carey Penman. Ella me invitaba a su hogar a lavar la ropa y disfrutar de una comida casera. Con el tiempo, la Sra. Penman me preguntó qué tan común era mi apellido, “Fory”. Había observado que un tal capitán George P. Fory había volado en la Segunda Guerra Mundial en el mismo grupo de bombardeo que su esposo, el capitán Richard A. Carey. Yo sabía que el capitán Fory era mi tío abuelo Philip. Mientras que al capitán Carey lo habían derribado en julio de 1943 y había sido prisionero de guerra antes de regresar a casa, el capitán Fory había tenido la suerte de volver a la base aérea después de sus misiones en 1944. ¿La publicación de las conclusiones de Abraham Wald en septiembre de 1943 salvó a mi tío abuelo de terminar en un campo de prisioneros de guerra? Nunca lo sabré, pero la pregunta sin resolver todavía me impulsa a cuestionar mis propias hipótesis de manera apasionada e incesante.
Puede obtener más información sobre los capitanes Carey y Fory y sus misiones aquí.
Referencias
1 Ellenberg, J. How Not to Be Wrong: The Power of Mathematical Thinking. Nueva York: Penguin Books, 2015.
Jo Ellen Fory Scott es presidenta del subcomité de Control de calidad estadístico (E11.30). Con vasta experiencia en fabricación de productos farmacéuticos y el sector de energía, Scott se centra en sistemas de gestión de calidad y seguridad como directora técnica de ENTRUST Solutions Group.