domingo, 25 de mayo de 2008

Estadística

[leído en un foro de FIDO. 1994]

Extremos:

"Dos aristócratas salen a cabalgar y uno desafía al otro a decir un número más alto que él. El segundo acepta la apuesta, se concentra y al cabo de unos minutos dice, satisfecho "Tres". El primero medita media hora, se encoge de hombros y se rinde.

Una vez, el matemático G.H.Hardy visitó en el hospital a su protégé, el matemático indú Ramanujan. Sólo por darle conversación, señalo que 1729, el número del taxi que le había levado, era bastante soso, a lo que Ramanujan replicó inmediatamente: "¡No, Hardy! ¡No! Se trata de un número muy interesante. Es el menor que se puede expresar como suma de dos cubos de dos maneras distintas"".

(de J.A.Paulos."El Hombre Anumérico".Tusquets.Metatemas 20.Bcn, 1990. Pag.15)

Como supongo que nosotros estamos entre estos dos extremos (yo... muy cerca de los aristócratas) es que pienso que nos podemos ayudar mutuamente proporcionandonos algunos elementos para pensar en "estadística".

Según parece el término se usaba antiguamente para "designar el conjunto de de indagaciones realizadas por el Estado para elaborar un censo" (1) y luego en los siglos XVII y el siguiente se ensanchó con algunos estudios, al que tenían acceso pocos privilegiados, sobre los juegos de azar. En particular los dados.

Recién en el siglo XIX empieza a aplicarsela al estudio de problemas sociales. Emile Durkheim, el gran maestro de la Sociologia Francesa, la aplicó para estudiar los suicidios y ver las correlaciones con fenómenos sociales muy generales.

Actualmente abarca diversas ciencias (casi todas, sino todas) y yo pretendo... que la incluyaís en vuestra vida diaria como ejemplo para todos la masa de lectores de Casi Nada :-)

En realidad mi motivación es puramente egoísta, sé que si me rodeo de gente que va en la dirección que yo quiero ir, *yo también no tendré más remedio que ir*.

Por eso se me ha ocurrido hacer una mini campaña de mentalización en este tema en nuestro modesto foro (que los ha habido, sin duda, más pequeños).

Hay dos grandes clases dentro de la Estadística, la descriptiva y la probabilística (o inferencial). Como su nombre lo indica la primera trata de que los estudiosos puedan entender algo cuando estan sumergidos en una masa de números; y la segunda, de sacar conclusiones cuando llegan a la triste conclusión que a pesar de tener muchos datos... no son suficientes.

Pero nadie da duros a cuatro pesetas. A sí que la estadística inferencial no puede sacar conclusiones de cualquier masa de datos insuficiente... sino sólo de aquella cuyos datos han sido extraídos al azar, en forma aleatoria (como se dice tecnicamente). Una verdadera pena porque en la realidad nos solemos encontrar con agrupaciones de datos que ni son suficientes, ni son aleatorios. Lo cual deja amplio campo para que teoricen los periodistas (que todo el mundo sabe que vienen a ser los "mercenarios" de la información).

He pensado que podríamos repasar algunos conceptos de estadística descriptiva y ver en que medida el Excel y el SPSS puede ayudarnos a descubrir cosas interesantes.

ESTADISTICA DESCRIPTIVA:

Se trata de resumir "grandes cantidades de datos en unos pocos números que nos proporcionen una idea, lo más aproximada posible, del comportamiento de todos los elementos de una población con relación al carácter que deseamos estudiar. Estos números se conocen con el nombre de *parámetros*" (1)

El párrafo anterior viene a decir que cuando estamos muy liados viendo largas listas de números... antes de tirarlos por la ventana tenemos la posibilidad de resumirlos. Y que esos resúmenes (unos pocos números) pueden ser (si estan bien sacados) representativos de la gran masa ingobernable. Nestros benefactores (los llamo así porque nos salvan de la locura o la confusión) reciben el nombre genérico de "parámetros".

Y como en toda buena familia siempre hay divisiones (los que trabajan en casa, y los que trabajan fuera; los que discuten y los que se callan), en este caso tambien los hay: son los

1. Parámetros centrales, y 2. Parámetros de dispersión.

La idea es sencilla. Los parámetros centrales agrupan o centralizan "los datos correspondientes a toda la población en un solo valor numérico, representante del conjunto total". Y los parámetros de dispersión dan una idea de la "proximidad o lejanía del valor que hemos tomado como "central". (1)

Para entendernos con un ejemplo sencillo. Si suponemos nuestra Rueda, y ponemos en orden las edades (que desconozco) tendremos 4. Bueno, no es problema, pero si tuvieramos 40 sería ya una buena lista, y si tuvieramos 4.000 (Dios no lo quiera) serían demasiados números. Podemos sacar (y todo el mundo lo hace) un promedio (sumando todas las edades y dividiendo el total por 4) ¿Cuanto sale? (podriamos hacer la cuenta, yo tengo 56... así que faltan tres datos más).

Este promedio (que desde ahora llamaremos "Media Aritmética")indica algo. Por ejemplo que el grupo tiene una media de 44 años. Pero se puede obtener la misma media con diferentes grupos (imaginemos uno donde haya un niño y tambien un octagenario). Así que una forma de saber si el grupo es homogeneo es conocer tambien uno de los parámetros de dispersión (que nos indicará la heterogenidad de edades del grupo).

Paro aquí.

Sé que alguien no entenderá y que otro se aburrirá. Pero al primero... paciencia, y al segundo... no está mal repasar en clave sencilla conceptos muy manidos.

Carlos.

(1) lo que está entrecomillado pertenece al libro "Hacer Estadística" de C.Sanchís y otros. Biblioteca de Recursos Didácticos Alhambra. Madrid. 1986.