miércoles, 6 de junio de 2018

La máquina de Galton y algo sobre estadística

La idea de esta entrada surgió por un video que se ha hecho viral en las redes sociales que muestra una máquina que parece separar por color una mezcla de esferas de distintos colores con un resultado visual impresionante. En algunas publicaciones de las redes la "explicación" que hacen del video es que se trata de un efecto cuántico relacionado con las vibraciones específicas del cuarzo; sin embargo no es esto lo que sucede.


Primero que nada el video original:






Lamentablemente la gente que lo suele publicar no suele poner la fuente original del video. Si fuera más difundido el video original podría leerse en la descripción del video cuál es el "secreto" detrás de algo que impresiona a la visa. El usuario escribe "este es un video broma y sólo por diversión, fue realizado para provocar que la gente sugiriera las teorías más locas" y menciona el nombre de un software de animación en tres dimensiones; en particular se trata del software Ardnold para Softimage. Así que esa es la verdad detrás del misterio, originalmente el usuario había publicado el video sin ninguna descripción en JunkinMedia y de alguna manera alguien creyó que la explicación más coherente era que se trataba de un efecto cuántico en los cuarzos y después el video fue difundido.

Retrato de Francis Galton, realizado por Charles Wellington (Wikipedia, )

Una vez resuelto el origen del video es hora de hablar del tipo de máquina que está en el video. Lo que se muestra en el video es una máquina de Galton modificada; la máquina toma el nombre de su creador Francis Galton.

¿Quién fue Francis Galton?
Galton nació en febrero de 1822 en Inglaterra, fue el menor de siete hermanos y fue medio primo de Charles Darwin. Cuando tenía 22 años su padre murió y Galton decidió comenzar a realizar viajes a lo largo del mundo. En 1850 logró que la Real Sociedad Geográfica le financiara un viaje de dos años al este de África; una vez que regresó a Inglaterra escribió dos exitosos libros (The narrative of an explorer in Tropical South Africa en 1853 y The art of travel en 1855). De regreso en Europa comenzó a interesarse en la meteorología y a distinguir distintos en los ciclones y anticiclones. De igual forma, Galton se interesó por la idea de usar las huellas dactilares para identificar individuos e hizo estudios para corroborar si eran marcas que se mantenían constantes a lo largo de la vida de un individuo. En 1869, tras leer el Origen de las Especies de su medio primo, Galton comenzó a escribir sobre la manera en que la genialidad se "propagaba" entre algunas familias y en otras no; esto derivaría en el desarrollo de la eugenesia. Finalmente, Galton murió en 1911 a la edad de 88 años.

Ilustración del libro de Galton, Narrative of an explorer in tropical South Africa. (Wikipedia)


Otro de los rubros en los que Galton se interesó fue en el trabajo de Adolphe Quetelet, científico bélgico que al igual que Galton tuvo aportaciones en diversos temas (desde astronomía hasta sociología). Quetelet trabajó en la idea del "hombre promedio" para estudiar el comportamiento humano colectivo con métodos estadísticos; en específico, el promedio y los valores de los extremos (por ejemplo, si se quisiera estudiar cuánto tiempo se tarda la gente bañándose se tendría que ver lo mínimo que las personas se tarda, lo máximo y el promedio). Esta idea se fue transformando en lo que conocemos como una distribución normal y Galton ideó un dispositivo que permite observar esa distribución. 

Diagrama que Galton realizó (Natural Inheritance, 63)

Acá un video de la máquina de Galton:



Esta distrubición que las bolitas en la máquina de Galton forman desde un comportamiento que parece caótico se conoce como una distribución binomial. Una distribución de éste tipo surge cuando se realiza una prueba un "n" número de veces y en cada prueba hay una posibilidad "p" de que un escenario pueda ocurrir, cada resultado es independiente del resultado anterior y la probabilidad "p" de que el resultado ocurra es la misma para cada prueba. Generalmente lo que a uno le interesa saber con esto es cuántas veces podría ocurrir un escenario "k". Si uno quiere saber cuál es la probabilidad de que algo suceda se necesita saber cuántas posibilidades te llevan a ese resultado en específico y luego dividirlo entre el número de escenarios posibles. 

File:Binomial distribution pmf.svg
Distintas distribuciones normales donde n es el número de pruebas,  "p" es la probabilidad del valor esperado, el eje "x" están el número de observaciones asociadas al valor esperado y en el eje "y" la probabilidad asociada a ese conjunto de observaciones (Wikipedia).

Antes de calcular la probabilidad de que un escenario en específico ocurra en una distribución normal creo que es necesario hacer una pequeña introducción al cálculo de probabilidades. Un ejemplo intuitivo y fácil de imaginar es el lanzamiento de una moneda y supongamos que vamos a lanzar un galeón del universo de Harry Potter. Cada lanzamiento que uno haga va a tener dos posibles resultados, dragón o hechizero, cada uno con chance del 50% de ocurrir; es decir, cada uno tiene una probabilidad p = 0.5 (50% = 50/100 = 0.5). Supongamos que queremos saber cuál es la probabilidad de que, de cuatro lanzamientos, nos salgan tres dragones y un hechicero, para eso hay que saber cuántos distintos escenarios pueden ocurrir en cuatro lanzamientos y cuántos de esos escenarios nos llevan a que salgan tres caras. 


Imagen de un galeón, la moneda de mayor valor en el universo ficticio de Harry Potter (Harry Potter Wiki)


Primero calculemos cuántos posibles escenarios hay en cuatro lanzamientos. Si sólo lanzáramos la moneda una vez pues sólo va a ver dos posibles escenarios (hechicero o dragón) si la lanzamos dos veces, cada uno de los dos posibles escenarios del primer lanzamiento va a tener otros dos posibles escenarios, entonces ahora van a existir cuatro posibles escenarios. Esto se repite conforme aumenta el número de lanzamientos, cada nuevo lanzamiento va a duplicar el número de posibilidades, es decir que es como multiplicar por dos cada vez que hay un nuevo lanzamiento: para el primer lanzamiento hay 2 escenarios, para el segundo hay 2 del inicial por 2 de cada uno = 4, en el segundo hay 8 y así sucesivamente, en otras palabras el número de posibles escenarios puede expresarse como 2^(número de lanzamientos "n"). Por lo tanto, para cuatro lanzamientos vamos a tener 2⁴ = 16 escenarios posibles.

Los posibles escenarios de 4 lanzamientos y sus "rutas" (imagen creada por el autor del artículo).

Ahora lo interesante es conocer cuántos de esas 16 posibilidades van a dar tres dragones y un hechicero, cabe mencionar que no nos importa en qué orden aparecen, sólo nos interesa que de cuatro lanzamientos tres caigan con dragón y uno con hechicero. Cuando queremos saber el número total de posibles combinaciones, es decir las permutaciones o arreglos posibles de cierto conjunto de objetos utilizamos números factoriales (n!, 3!=3x2x1, 4!=4x3x2x1, 0!=0, etc.); por ejemplo, si queremos saber el número de arreglos que podemos hacer de tres objetos en línea recta, como tres lápices de colores distintos, entonces el número de arreglos posibles va a ser 3!= 1x2x3 = 6, van a existir 6 arreglos distintos. Si queremos saber el número de posibles arreglos cuando tenemos un número "n" de objetos pero queremos distribuirlos en subgrupos que tengan "nₓ" elementos se usa la expresión n!/(n₁!n₂!...nₓ!) y hay que hacer notar que n₁ + n₂ + ... + nₓ = n. Por ejemplo, supongamos que tenemos 10 dulces distintos y queremos darle 3 a un amigo, 2 a un familiar y 4 nos los comemos y 1 lo vamos a guardar, y queremos saber cuántas posibles combinaciones hay. El número total de combinaciones va a ser 10!/(3!2!4!1!) = 12,600 combinaciones distintas; como puede verse, el número de combinaciones puede llegar a ser muy alto a pesar de que sólo son diez objetos.

El ejemplo de los arreglos posibles entre tres lápices de colores; hay 3! arreglos (es decir, 1*2*3=6 arreglos). (Imagen creada por el autor del artículo)

Regresando al ejemplo de los cuatro lanzamientos, nuestra "n" va a ser el número de lanzamientos, y como queremos saber el número de escenarios donde vamos a tener un arreglo con tres caras, podemos usar la misma expresión de los dulces para saber en cuántos escenarios van a salir tres caras; en este caso es como tener un subgrupo con tres elementos y otro con uno. Entonces, el número total de combinaciones esta dada por n!/(n₁!n₂!) y como n₁ + n₂ = n entonces n₂ = n - n₁ y podemos reescribir la expresión como n!/(n₁!(n-n₁)!); esto nos va a dar 4!/(3!(4-3)!)= 4!/(3!1!) = 4, eso quiere decir que si hacemos 4 lanzamientos hay cuatro escenarios donde nos van a salir 3 caras (también puede analizarse desde el punto de vista de las cruces, es decir el número de escenarios donde vamos a tener sólo una cruz = 4!/(1!(4-1)!) = 4!/(1!3!) = 4). Finalmente, para calcular la probabilidad de que nos salgan 3 caras en cuatro lanzamientos sólo hay que dividir el número de escenarios donde nos salen tres caras y el número de escenarios de 4 lanzamientos; esto es, 4/16 = 0.25 = 25% entonces tenemos una posibilidad del 25 por ciento de que eso nos ocurra.

Los posibles resultados de cuatro lanzamientos, en amarillo se muestran las cuatro "rutas" que tienen tres dragones y un hechicero (imagen creada por el autor del artículo).

Ya que se hizo esta pequeña introducción sobre la determinación de probabilidades es hora de hablar de la distribución binomial. Como se dijo anteriormente, esta distribución surge de escenarios donde hay dos posibles resultados y cada uno tiene una probabilidad de ocurrir (como el lanzamiento de la moneda). Una de las cosas interesantes es que la probabilidad de que uno de sus eventos ocurra se puede determinar con una expresión sencilla: n!/(n₁!(n-n₁)! que representa el número de escenarios donde n₁ ocurre (y es la misma que la expresión de la moneda!) y eso se multiplica por [p^n₁]x[(1-p)^(n-n₁)], donde p es la probabilidad de que en cada intento ocurra lo que queremos (en el caso de la moneda es la probabilidad de que en cada lanzamiento individual caiga cara) y 1-p es la probabilidad de que no ocurra lo que queremos en cada intento.

En el caso de la máquina de Galton, cada intento es cada fila, ya que cada vez que una bolita pase a la siguiente fila va a tener que enfrentarse a la posibilidad de irse a la derecha o irse a la izquierda (es decir, existen dos posibilidades), se asume que la bolita tiene una posibilidad del 50% de irse hacia la derecha o a la izquierda. En el caso de la función de probabilidad para una distribución binomial, la parte de [p^n₁]x[(1-p)^(n-n₁)], se puede simplificar. Como p es 0.5 entonces 1-p va a ser también 0.5 y [p^n₁]*[(1-p)^(n-n₁)]  sería igual a [0.5^n₁]x[(0.5)^(n-n₁) y eso es igual que 0.5^n, lo cual, curiosamente es como decir (1/2)^n y eso es igual que decir 2^(-n); esto se parece mucho al número de posibles escenarios al lanzar una moneda un "n" número de veces. De hecho, es el inverso del número de posibles escenarios según el número de lanzamientos (1/2^n). En otras palabras se está dividiendo al número de posibles escenarios con el resultado que queremos analizar (n!/(n₁!(n-n₁)!) entre el número de posibles escenarios totales (2^n).

Con respecto al número de escenarios con nuestro resultado, la expresión n!/(n₁!(n-n₁)! está relacionado con el triángulo de Pascal. El triángulo nos puede servir como una representación del número de posibles resultados. Generalmente se representa como una especie de triángulo formado por hexágonos y a cada hexágono se le asigna un número, comenzando con la punta del triángulo que tiene un valor de 1, cada triángulo de abajo tima su valor al sumar a los triángulos de arriba con los que está en contacto; de la siguiente manera:
File:PascalTriangleAnimated2.gif

Esto, a su vez, se relaciona con la expresión n!/(n₁!(n-n₁)! En este caso, n₁ comenzando por 0 va a ser el primer hexágono de la fila "n" que queramos analizar; entonces supongamos que queremos saber cuántas combinaciones hay para que una sola bolita caiga en medio si hay cuatro niveles. El valor n₁ va a ser el valor que esté en medio de 0 y 4, esto es 2, si sustituímos en la expresión  n!/(n₁!(n-n₁)! = 4!/(2!(4-2)!) = 4!/(2!2!) = 6; que es lo mismo que aparece en el triángulo de pascal. Y si le queremos asociar una probabilidad solamente hay que dividir nuestro resultado entre el número total de resultados que es 2⁴ y es 0.375 o 37.5%. Cabe mencionar que los otros dos cuatro son lo mismo que en el ejemplo de la moneda; es decir, el número de escenarios donde hay tres caras o donde hay tres cruces cuando se hacen cuatro lanzamientos y su probabilidad es del 25%. Es por eso que la distribución binomial muestra esa forma de campana.

Los puntos rojos representan los lugares donde las bolitas de la máquina de Galton pueden cambiar de dirección; la gráfica es la distribución de probabilidades como porcentajes (imagen obra del autor). 

En el caso del aparato mostrado en el video broma, hay un primer "parte aguas" que hace que las bolitas formen dos cascadas lo que provoca que haya dos distribuciones binomiales sobrepuestas. Cuando se sobreponen las dos distribuciones, las bolitas se distribuyen más y es por eso que en ese video no se forma la forma de campana; un caso más realista sería el siguiente:





Referencias
Francis Galton (William Revelle)
- Chitty, Clyde. "The educational legacy of Francis Galton". History of Education 42 núm. 3 (2013): 350 - 364 https://doi.org/10.1080/0046760X.2013.795619
- Galleon (Harry Potter Wiki)
- Mosselmans, Bert. "Adolphe Quetelet, the average man and the development of economic methodology". History of Economic Though 12 núm. 4. (Diciembre 2015): 565 - 582.   https://doi.org/10.1080/09672560500370177
- Wackerly, Dennis, William Mendenhall y Richard L. Scheaffer. Mathematical Statistics with Applications. Estados Unidos, California: Thomson Learning Inc., 2008.
-

Otras curiosidades
- Simulación de una máquina de Galton (Mathisfun.com)
The Galton Board (video de Vsauce)
- The narrative of an explorer in Tropical South Africa (Galton.org)
- The art of travel (Galton.org)
Natural Inheritance (Galton.org)

No tiene mucho que ver con el tema, pero este es un instrumento musical construido casi por completo con madera y que utiliza canicas para tocar música:

No hay comentarios:

Publicar un comentario