domingo, 8 de junio de 2008

El hombre anumérico

Paulos, John Allen.
El Hombre Anumerico. El analfabetismo matemático y sus
consecuencias.
Tusquets Editores. Metatemas 20.
Barcelona, 1ªEdic. feb.1990
pp 208


[fragmentos]

[p 100] *QUINE El filósofo Willard van Orman Quine va más lejos y afirma que la experiencia nunca puede obligar a rechazar ninguna creencia concreta. Considera que la ciencia es un tejido integrado de hipótesis, procedimientos y formalismos interconectados, y sostiene que cualquier impacto del mundo sobre este tejido se puede distribuirse de muchos modos distintos.

(...) Menos controvertida es la aseveración de que no hay una separación clara ni algoritmos fáciles que nos permitan distinguir la ciencia de la seudociencia.


[pag 171] *MUESTRAS Así pues, más difícil que hacer cálculos estadísticos es decidir que fiabilidad nos merecen los mismos. Si la muestra es grande, podemos confiar más... Si la distribución de la población no es demasiado dispersa...podemos tambien confiar más...

[173] *CONFIANZA La anchura del intervalo de confianza es inversamente proporcional a la raíz cuadrada del tamaño de la muestra... En realidad, el nº de encuestados generalmente es mayor que el que sería necesario en teoría. Lo hacen así para compensar problemas relacionados con la dificultad de escoger una muestra aleatoria.

[175] *DIARIOS Es escandalosa la inclinación de los diarios y revistas a publicar resultados sesgados basados en respuestas a cuestionarios que vienen en el mismo periódico. Estas encuestas informales rara vez van acompañadas de los intervalos de confianza u otros detalles de los métodos seguidos, con lo que el problema de las muestras autoseleccionadas no siempre está claro.

[177] *POBLACION La madre del cordero de la estadística está en deducir información sobre una población grande a partir de las características de una muestra pequeña seleccionada al azar.

[a continuación se desarrollan varios métodos, basados en probabilidades, para deducir información a pesar de la no-colaboración parcial de los encuestados]

[180] *GRANDES NUMEROS...a la larga, la diferencia entre la probabilidad de cierto suceso y la frecuencia relativa con la que éste ocurre tiende a 0.

[ej-]En el caso especial de una moneda no trucada, la ley de los grandes números enunciada por primera vez por jean Bernoulli en 1713, dice que la diferencia entre 1/2 y el cocienciente del nº total de caras dividido por el nº de tiradas se aproxima a 0 tanto como queramos, a medida que aumenta el nº de tiradas

[181] *CURVA NORMAL El teorema del límite central dice que la suma o la media de un gran conjunto de mediciones sigue una curva normal, incluso en el caso de que cada medición por separado no lo haga. [183] Entre otras cantidades que tienden a seguir una distribución normal tenemos: los pesos y estaturas para una edad determinada, el consumo de agua de una ciudad en un dia dado, el grosor de unas piezas mecanizadas, el CI (independientemente de lo que éste signifique), el número de ingresos en un gran hospital en un día dado, las distancias de los dardos al blanco, el tamaño de las hojas, el tamaño del pecho, o la cantidad de refresco servida por una máquina de venta automática. Todas estas cantidades pueden considerarse como suma o media de muchos factores ( genéticos, físicos, o sociales) y por tanto el teorema del límite central explica su distribución normal. Resumiendo: las medias (o las sumas) de cantidades tienden a seguir una distribución normal, aún cuando las cantidades de las que son media (o suma) no la sigan.


[184] *CORRELACIÓN Correlación y causalidad son dos palabras con significados completamente distintos, pero los anuméricos tienen una tendencia muy fuerte a confundirlas. Es muy frecuente que dos cantidades estén correlacionadas sin que una sea la causa de la otra. Un modo bastante común de que esto pueda ocurrir es que los cambios de ambas cantidades sean consecuencia de un tercer factor. Ej, consumo de leche y cancer; puede suceder que ambas tengan que ver con la prosperidad relativa de una sociedad avanzada. Otro ejemplo de conexión incorrecta es en las islas Nuevas Hébridas donde los piojos eran considerados causa de buena salud. Cuando la gente tenía fiebre los piojos se marchaban de su huesped. Los piojos y la buena salud tenían una variable interviniente, la fiebre. Otra causa de error son los factores enmascarados [185] que no aparecen en el análisis como la correlación entre mujer soltera/universidad. Y otras correlaciones son puramente accidentales.


[187] *ERRORES ESTADISTICOS SIMPLES Una de cada once mujeres contraerá cáncer de mama. Esta cifra puede inducir a error porque sólo vale para una muestra imaginaria de mujeres que vayan a llegar a los 85 años y para las que la tasa de riesgo de c.m. sea igual no importa la edad. Sólo una minoría llega a los 85 años y las tasas de incidencia son variables, siendo mayores con la edad. Es como decir que 9 de cada 10 personas le saldran manchas en la piel con la edad, cosa que no debe preocupar a quien tenga 30 años.

[188] Otro dato mal interpretado es que en USA las enfermedades cardíacas y el cancer son los principales asesinos. Es verdad, pero las muertes accidentales son la causa de más años de vida potencial perdidos pues la media de edad de las victimas es muy inferior.

Con porcentajes: El precio de un art. que sufre un aumento del 50% y luego un recorte del 50%, experimenta una reducción neta del 25%. Un art. que se ha rebajado el 40% y luego otro 40%, tiene una rebaja en total del 64%, no del 80%.

Siempre es conveniente preguntarse ¿Porcentaje, de qué?

Errores tambien suceden muy a menudo con las fracciones [190].

Supongamos que un hombre es atracado y afirma que fue por un "negro". Sin embargo, cuando se reconstruyen las circunstancias la victima identifica correctamente la raza del asaltante en un 80% de las veces ¿Cual es la probabilidad de que el asaltante fuera efectivamente negro en similares condiciones de luz?

El error más común es establecer la p. en el 80%. Pero supongamos que el 90% de la población es blanca, y el 10% negra, y que el barrio donde se cometió el atraco mantiene esa proporción en ambas razas. Supongamos que no hay una raza más atracadora que la otra y que es igualmente probable que la victima se equivoque en una dirección o en la otra (blanco por negro, o negro por blanco).

Dados los supuestos en 100 asaltos la victima identificara como negros al 26% de los asaltantes (dado un % de aciertos del 80%, identificará como negros a 18 blancos (de 90 blancos en total, identificará como blancos a 72 (80%) y como negros a 18 (el 20%)), y en caso de los negros identificará a 8 como tales (de 10 de la población identificará como negros a 8 y a dos como blancos), o sea que de una población de 100 identificará a 26 agresores como supuestos negros. Lo que determina que la proporción real sea de 8/26, aproximadamente ¡el 31%! de los casos reales, y no el 80%!.

Segun el gob. USA [191], en 1980 una mujer gana el 59% de lo que gana un hombre. No queda claro que conclusiones están justificadas sin más detalles: ¿estaban desempeñando exactamente el mismo empleo? ¿tiene el % en cuenta el creciente número de mujeres en el mercado, su edad y su experiencia? ¿Tiene en cuenta los empleos mal pagados de muchas mujeres? ¿tiene en cuental el hecho de que el empleo del marido determina el lugar de residencia de una pareja? ¿tiene en cuental el alto % de mujeres que trabajan para un obj. a corto plazo?

Datos sin contexto o con pocos detalles [192] son habituales como afirmar que el x% de la población tiene el y% de riqueza del país. Los datos contables son muy complejos ya que constituyen una "combinación peculiar de realidades y procedimientos arbitrarios". El análisis es muy complejo.

Sumar no siempre es corrrecto [193]. Si cada uno de los 10 arts. de un producto aumenta el 8%, el precio total ha aumentado sólo en un 8% y no en un 80%. Tampoco es correcto afirmar que si hoy hace 10º y mañana 20º, hace el doble de calor. Un ejemplo gracioso es afirmar que a los niños no les quedan dias para ir a la escuela. 1/3 se lo pasan durmiendo, lo que da 122 dias. 1/8 comen (3 horas diarias) lo que representa 45 dias. las vacaciones de verano y las otras que hay a lo largo del año representan 1/4 del tiempo, unos 91 dias. Y 2/7 del año, 104 dias, son fin de semana. La suma da aproximadamente un año, con lo cual no les queda tiempo para asistir a la escuela.

Cuando se suma el coste total de una huelga o por otra razón siempre hay una tendencia a añadir todo lo que se le ocurre a uno [194], aunque ello determine que algunas cosas se cuenten varias veces con diferentes nombres, o que no se tengan en cuenta ciertos ahorros derivados de la situación.

Si se desea impresionar [194] sobre la gravedad de una situación, al hablar de un fenómeno raro se sigue la estrategia de hablar de nº absolutos y no de probabilidades. Es la falacia de la "base extensa". Como ej. titulares del tipo "500 muertos en un puente de 4 dias" (que puede ser aproximadamente igual al nº de personas que se matan en cualquier otro período). Otro caso es el dato de adolescentes que se suicidan por la influencia de un juego [195], sin tener en cuenta la tasa de suicidios esperables según la tasa anual de suicidio.


[197] *ERRORES SACANDO PROMEDIOS. La mayoría de cantidades no tienen una curva de distribución en forma de campana, y su valor medio tiene una importancia limitada si no va acompañado de alguna medida de la variabilidad de la distribución y de una apreciación de la forma aproximada de dicha curva de distribución.


[199] *AZAR-ORDEN ALEATORIO "obtener muestras aleatorias es un arte difícil y el encuestador no siempre lo consigue. Ni tampoco el gobierno (...) Tampoco es fácil obtener la aleatoriedad cuando se juega a las cartas, pues barajar un mazo de cartas dos o tres veces no es suficiente para destruir cualquier orden que pudiera haber previamente. Como ha demostrado el estadístico Persi Diaconis, normalmente es necesario barajar por completo de seis a 8 veces (...) La mejor manera, aunque poco práctica, de ordenar una baraja al azar sería usar un ordenador para generar un ordenamiento aleatorio de las cartas (...) Además de garantizar apuestas no trucadas, encuestas no sesgadas y un buen trabajo en el contraste de hipótesis, la aleatoriedad es esencial también cuando se trata de hacer un modelo de una situación que tenga una fuerte componente probabilística (...). En la mayoría de los casos los números seudoaleatorios generados por ordenador son suficientemente buenos, Pero, aunque son aleatorios para la mayoría de fines prácticos, en realidad son generados por una fórmula determinista que impone demasiado orden en ellos, cosa que hace que no nos sirvan para otras. Una de esas aplicaciones es la teoría de la codificación, que permite a los funcionarios del gobierno, los banqueros y otros, pasar información secreta delicada sin temor a ser descifrada. En estos casos se mezclan números seudoaleatorios procedentes de varios ordenadores, y luego se le añade la indeterminación física de la fluctuación aleatoria del voltaje suministrado por una fuente de "ruido blanco".

Poco a poco va emergiendo la extraña idea de que la aleatoriedad tiene valor económico".

[206] *VALOR DE LA PROBABILIDAD. En un mundo cada vez más complejo, lleno de coincidencias sin sentido, lo que hace falta en muchas situaciones no son más hechos verídicos -ya hay demasiados- sino un dominio mejor de los hechos conocidos, y para ello un curso sobre probabilidad es de un valor incalculable. Los tests estadísticos y los intervalos se confianza, la diferencia entre causa y correlación, la probabilidad condicional, la independencia y la regla del producto, el arte de hacer estimaciones y el diseño de experimentos, los conceptos de valor esperado y de distribución de probabilidad, así como los ejemplos y contraejemplos más comunes de todo lo antrior, deberían ser más conocidos y divulgados. La probabilidad, como la lógica, ya no es algo exclusivo de los matemáticos. Impregna nuestra vida.