lunes, 26 de mayo de 2008

Problemas de Estadística

[Hipótesis Nula]

From: "Antonio M. Salcedo"
Contrastación de hipótesis
--------
En contrastación de hipótesis, la hipótesis nula representa la hipótesis que se mantiene a no ser que los datos indiquen lo contrario (y por tanto debe ser entendida como "neutra"). La metodología para la contrastación de hipótesis tiende a primar la hipótesis nula (de modo que siempre es más "tranquilizador" rechazar que no rechazar). En caso de tener que elegir entre dos hipótesis que, a priori, son equivalentes, esta metodología resulta discutible y si las consecuencias de los errores son cuantificables un enfoque más adecuado es la Teoría de la Decisión.

[Error Tipo I y Tipo II]

El ejemplo que sigue me parece muy gráfico para ilustrar los errores tipo I y II: Supongamos que hay una epidemia de una enfermedad muy contagiosa y queremos contrastar si una persona está enferma o no en función de los resultados de una serie de pruebas. Si planteamos el contraste:

H0: Enferma H1: No enferma

los errores son:

Tipo I: Decir "no enferma" estando "enferma" (esto es muy grave si tenemos en cuenta que la enfermedad es muy contagiosa) Tipo II: Decir "enferma" estando "no enferma"

Siempre el error tipo I es más grave que el error tipo II. Lo ideal en un contraste de hipótesis es encontrar una regla de decisión que nos permita minimizar ambos errores. Sin embargo, al reducir la probabilidad de un tipo de error generalmente aumenta la probabilidad del otro. El procedimiento que se utiliza es limitar la probabilidad del error tipo I, por ser el más grave (esto equivale a fijar un nivel de confianza) y bajo esta restricción minimizar la probabilidad del error tipo II ( o, lo que es lo mismo, maximizar la potencia del contraste)

Soly Santiago Pérez
Servicio de Información sobre Saúde Pública Dirección Xeral de Saúde Pública Avda. Camiño Francés nº 10, baixo 15771, Santiago de Compostela

[Lineal]

[empezando por el final]

En la línea de lo que decía Erik Cobo, la variable edad en principio sería continua. Pero si en el análisis en el que se utiliza su comportamiento no es lineal, e incluso la respuesta tiene un orden distinto al propio de la edad, muy a menudo es preferible tratarla como discreta e incluso como categórica. Por ejemplo: número de horas trabajadas con relación a la edad. Evidentemente la relación no es lineal. Se podría pensar en una relación cuadrática o algo así, pero si no es posible establecer ese tipo de relación, considerarla categórica nos permite tener en cuenta las diferencias de comportamiento existentes según la edad.
---
Una pregunta clave es si se cumplen las premisas. No sólo la linealidad en una regresión (mismo incremento en la respuesta para cada cambio de una unidad en la edad), sino también las implícitas en la unidad de medida: ¿supone lo mismo pasar de 30 a 31 años que de 0 a 1 año?. Pensad en el ejemplo de los cigarrillos/día. Para las ventas de Tabacalera, supone lo mismo vender 1 cigarrillo más a quien consumía 20 que a quien consumía 0. Pero para la salud pública, la diferencia entre 0 y 1 es mucho más relevante que entre 20 y 21. Así, trabajar para clientes diferentes, implica usar medidas resumen diferentes . Ya sabéis, alguien puede dudar, al recordar, si ha tenido once o diez parejas, pero no si ha tenido una o ninguna (¡qué pocas cosas son lineales!).

Saludos, Erik

Metodología estadística wrote:

>La variable edad puede ser utilizada como variable cuantitativa pero también como variable cualitativa. Por ejemplo, cuando queremos estimar la edad media de las madres al tener su primer hijo, la variable edad es cuantitativa, pero si nos interesa la proporción de parados de 16 y más años la variable edad sería cualitativa. Otra versión de la edad como variable cuantitativa/cualitativa sería cuando utilizamos 'grupos de edad', es decir, parece lógico que tener entre 0 y 4 años es una cualidad aunque, si se rebusca un poco, también se pueda entender como una cantidad.

---fin [Lineal]---

[Tasas de Respuesta]

From: Vicente Manzano Arrondo Manuel Trujillo indica que:

1. Parece que, en efecto, las tasas que se publican son en la práctica inútiles.

2. Las mejores condiciones de campo las poseen los estudios oficiales de estamentos como el INE, con acceso a banco de datos con identificación completa. Éstas llegan al 75% sin contabilizar las sustituciones por unidades vacías. 3. Se observa que los mismos encuestadores consiguen tasas sensiblemente diferentes, en función de las condiciones del trabajo de campo.

-------------------------

Algunos investigadores hemos puesto en marcha algunas experiencias en Sevilla para optimizar las respuestas. Tengamos en cuenta que la mayoría de las encuestas se realizan desde equipos de investigación privados o de universidades que coinciden en contar con marcos muy imperfectos o que tienen dificultades de acceso a bancos de datos actualizados y completos. En la práctica, la mayoría de las encuestas recurren a procedimientos aleatorios (al menos en su concepción teórica) que, en el caso de las "cara a cara" se concretan en las rutas.

Las conclusiones que extraemos de estas experiencias son:

1. Comprobamos que la tasa de respuesta puede aumentar un 20% o más mediante un "aviso" previo a la población. De todos los que probamos, el más exitoso con diferencia fue anunciar el estudio mediante carta, sin destino, en el buzón de los domicilios seleccionados.

2. Comprobamos varios mensajes desde los porteros automáticos. Los que mejor funcionan no son aconsejables éticamente puesto que implican "mentir" al encuestable, se trata de mensajes tipo "publicidad", "correo", "propaganda de una gran superficie", etc. Dentro de los "legales", el mensaje más exitoso es el que se apoya en la universidad.

3. En otras experiencias, se han controlado aspectos relativos a la apariencia de los edificios, zonas, horarios, días de la semana, etc. No hay datos tan concluyentes como los anteriores. Sí que se observa la importancia de la zona, como indicador de poder adquisitivo. Los habitantes de las zonas más "favorecidas" son más difícilmente accesibles.

No obstante, a pesar de estos estudios, las tasas que conseguimos son usualmente muy bajas (en torno al 50%). Nuestros datos son muy fiables, puesto que los encuestadores participan de los objetivos de la investigación y tienen una motivación de lujo. ¿Qué cabe esperar, por el contrario, cuando los encuestadores son contratados?
---

[Regresión Logística]

From: Irene Moral Subject: Re: [ESTAD] variables de interacción en lasregresiones

El modelo de regresion logistica , siguen una especie de "normas", una de ellas es el principio jerarquico.

Definicion de modelo jerarquico:

"Una familia de modelos jerarquicos se define como una familia tal que si se elimina un termino cualquiera (coeficiente nulo), todos los terminos de mayor orden en los que intervenga tambien deben ser eliminados. Y a la inversa, si se incluye un termino cualquiera (con coeficiente no nulo) todos sus terminos de menor orden tambien deberan estar presentes en el modelo" (Bishop, Fienberg y Holland, 1975; p.34)

Es decir si la interaccion a*b es significativa el modelo por este principio, incluira los terminos a, b y a*b o si se diera el caso de que la interaccion a*b*c fuera significativa,deberiamos incluir en el modelo a, b, c, a*b, a*c, b*c y a*b*c.

¿Que ventajas tiene estimar un modelo jerarquico?

El grado de significacion de los coeficientes de los modelos de regresion varia segun el metodo de codificacion de las variables categoricas. Sin embargo, si el modelo es jerarquico, los terminos de orden mas alto no dependen del metodo de codificacion, aunque los terminos de niveles mas bajos continuan dependiendo del metodo de codificacion (Kleinbaum, 1994 pag. 172-173)
...............
Vaya en resumen, yo incluiria tambien los terminos independientes de los componentes de la interaccion, si la interaccion resulta significativa. Creo que lo mejor es empezar por el modelo saturado y luego ir jugando con las variables, valorando interacciones, factores de confusion...etc
Irene.

Magda Ruiz escribió:

> Estimados colisteros: aunque soy estadistica, hace tiempo que no trabajo modelos de regresion, por esta razon prefiero consultar la siguiente duda que me han planteado:

>"Duda con respecto al uso de las He realizado un modelo de regresión logística que estima la probabilidad de que una mujer se case con un hombre de su mismo nivel educativo (homogamia matrimonial). Entre las variables independientes he incluido la edad de la mujer y la interacción de edad mas nivel educativo. Así pues, la variable de educación por sm sola, como efecto principal, no la he incluido. Mi razonamiento es que, desde el punto de vista teórico, la probabilidad de casarse según el nivel educativo esta estrechamente ligado al factor edad, por lo tanto las variables las introduzco en el modelo como una variable expresada en términos de interacción.

> La duda existencial es si eludir la variable independiente de 'nivel educativo' e introducir el término de interacción 'educación+edad' conlleva a errores en la estimación del modelo".