lunes, 26 de noviembre de 2007
REGRESIÓN LINEAL Y CORRELACIÓN
Es un estudio que se hace a la relación que existe entre las variables de tal manera que se emplea para medir la intensidad de la asociación entre dos variables. Para lo cual se necesita mostrar los datos en un DIAGRAMA DE DISPERSIÓN, el cual es una gráfica en la que se representa la relación entre dos o más variables.
Dentro de éste análisis, identificamos princialmente dos tipos de variables:
VARIABLE DEPENDIENTE: que es aquella que se predice o ccalcula
VARIABLE INDEPENDIENTE: que es quella que proporciona las bases para el cálculo.
COEFICIENTE DE CORRELACIÓN
Describe la intensidad de la relación entre dos conjuntos de variables de nivel de intervalo.
como se vío en el video presentado la clase anterior; el utilizar los gemelos como mueestra nos sirve como un conjunto dentro del cual contiene las mismas características físicas pero diferentes características intelectuales.
ANÁLISIS DE REGRESIÓN
Se necesita de una ecuación para expresar la relación lineal entre 2 variables. Además hallar el valor de la Variable Dependiente Y en base en un valor de la variable Independiente X; ésta ecuación se llama Ecuación de Regresión.
Con ésta ecuación podemos determinar la pendiente de la línea de Regresión, el Punto donde se intercepta con el eje Y y la forma general:
forma general: Y' = a + bx
Y' = que es Y prima el cual es el valor pronosticado de la variable para un valor seleccionado de X.
a= es la ordenada de la intersección conY donde la recta de regresión que cruza el eje Y cuando X = 0.
b= es la pendiente de la recta o el cambio promedioen Y, donde X es la unidad de cambio en la Variable Independiente X.
x= es cualquier valor seleccionado de la Variable Independiente.
Dentro de éste sistema puede existir un error estándar de estimación, de acuerdo a la medida de la dispersioón, de los valores observados con respecto a la línea de regresión y es calculado mediante una fórmula.
11
La distribución F -
F no puede ser negativa, y es una distribución continua.
F se utiliza para probar la hipótesis de que la varianza de una población normal es igual a la varianza de otra población normal.
Para pruebas de varianzas iguales de dos colas el estadístico de prueba estará dado por una formula respectiva..
Esta distribución es utilizada para comparar simultáneamente si varias medias poblacionales provienen de probaciones con varianzas iguales además comprobar si dos muestras tienes características de varianza iguales.
ANOVA
La distribución F se la utiliza para poder probar si dos o más medias muestrales provienen de la misma o igual población.
Para calcular ANOVA debemos tener en cuenta las siguientes caracteristicas:.
- Las poblaciones están distribuidas normalmente por estándar iguales.
- Las muestras se seleccionan independientemente.
- Las poblaciones tienen desviaciones
De esta manera con el sistema ANOVA podemos comparar las medias de forma simultánea y evitar de ete modo podemos evitar que ocurra un error de tipo I
Tabla de ANOVA= donde podemos encontrar el valor F reemplazando en la misma los valores para encontrar el valor final.
Necesitamos de cinco pasos para probar una hipótesis en este sistema ANOVA ; los grados de libertad del numerador y del denominador son los mismos que se utiliza para encontrar el valor crítico de F.
Los siguientes pasos nos ayudaran a encontrar el valor:
- Primero encontraremos la Suma de Cuadrados Total (SS total)
- La Suma de Cuadrados Debidos al Tratamiento (SST)
- Finalmente la Suma de los Cuadrados del Error (SSE)
y asi de acuerdo con los valores que nos dan en la tabla rechazamos o aprobamos la hipótesis.
lunes, 29 de octubre de 2007
capt.10
- Plantear la hipótesis NULA Y ALTERNATIVA.
- Seleccionar el Nivel de Significancia
- Identificar el estadistico de prueba
- Formular la regla de decision
- Se toma una muestra y se decide
- Se obtiene los resultados donde podemos tener: H0 = No se acepta
- H0 = Se rechaza
- H1 = Se Acepta
HIPÓTESIS NULA, es una afirmación que sirve para edificar la media de la población y de la muestra, cuando los valores no han cambiado; por otro lado tenemos la HIPÓTESIS ALTERNATIVA, que es una afirmación que se acepta si los datos muestrales nos dan la evidencia de que la hipótesis Nula sea Falsa.
Otro dato muy importante es el NIVEL DE SIGNIFICANCIA, el cual es el riesgo o probabilidad de rechazar la hipótesis nula cuando ésta es verdadera dentro de ésto se pueden sucitar dos tipos de errores; un error tipo I, que es la probabilidad de que rechacemos la hipótesis nula cuando esta en realidad sea verdadera; y error de tipo II que es aceptar la hipótesis Nula cuando ésta sea falsa.
Esta varicaion de valores, se debe tomar en cuenta ya que los datos son los de una muestra y no el 100% de una población por lo que existirá la rpobabilidad de fallo, además el investigador debe decidir que nivel de significancia usar, y para hacerlo es necesario tener el Valor Determinado de la Información Muestral, que es un estadistico de Prueba, todo ésto antes de formular la regla de decisión, la cual establece las condiciones específicas en las que se rechaza o no una hipótesis Nula, y en la gráfica se representa dicha regón de rechazo, que se encuentra dividida por el Valor Critico.
PRUEBAS DE SIGNIFICANCIA DE UNA Y DOS COLAS
Es de una cola cuando la Región de Rechazo está solo en la cola derecha superior de la curva, y es de dos colas cuando la Región de Rechazo está en la cola izquierda inferior de la Distribución Normal; de éste modo la región de rechazo será positiva y negativa respectivamente.
martes, 23 de octubre de 2007
Capitulo 9
Una estimaciòn puntual no nos proporciona mucha informaciòn como para saber que tan cerca se esta del paràmetro poblacional; y es donde utilizamos el INTERVALO DE CONFIANZA, el cual es un conjunto de valores obtenido a partir de los datos muestrales.
Existe otro tèrmino muy importante el NIVEL DE CONFIANZA, que se refiere a la probabilidad que existe de que los valores de la muestra se encuentren dentro del intervalo, y se lo mide en porcentaje.
En èste tema se trata la Desviaciòn Estàndar a aquella de la distribuciòn muestral, en la mayor parte de los casos, no se tiene la desviaciòn estàndar poblacional, entonces la calculamos a partir de una fòrmula dividiendo la desviación estándar para la raiz del numero poblacional.
Aqui el error estándar está afectado por dos valores:
- Desviación estándar, si es grande o pequeño el error tambien lo es.
- Tamaño de la muestra, si aumenta el error disminuye, ya que tomamos más proporción del total de la poblacion que cuando reducimos el total de la población a una pequeña muestra, la probabilidad de error será mayor.
Existen diferentes formas de calcular un intervalo de confianza, por ejemplo:: para la media poblacional se calcula tomando "t" como variable y dividiendo la desviacion estandar para la raiz del numero de la población; donde consideramos que la muestra proviene de una población Normal, y estimamos la desviación estándar muestral, para todo esto si la muestra es por lo menos de 30.
INTERVALO DE CONFIANZA PARA UNA PROPORCIÓN: Entendemos por proporción al la parte de la muestra o de la población que tiene la característica particular de que se trate; se determina mediante el número de éxitos dividido para el número de observaciones.
Aqui el error muetsral a la proporción se refiere a la variabilidad en la distribución de las proporciones muestrales.Para estimar la media se lo hace expresando el nivel de confianza en "z", un máximo de error permitido; "s" es la variación en la población y finalmente con una fórmula para determinar el tamaño de la muestra para la media.
domingo, 7 de octubre de 2007
Estadistica
Existen algunos métodos de muestreo de probabilidad:
- MUESTRA PROBABILISTICA: todos los integrantes de la población tienen una probabilidad ( posibilidad) de formar parte de la muestra.
- MUESTRA ALEATORIA SIMPLE: (es el más utilizado) todos los integrantes de la poblacion tienen la misma probabilidad de formar parte de la muestra. EJEMPLO: esto se lo realizrá al azar, en la clase de Estadística II existen 48 alumnos si queremos saber la estatura promedio de ellos, tomamos de la lista y que cada uno diga un numero al azar y se ira escogiendo nuestra muestra.
- MUESTRA ALEATORIA SISTEMÁTICA: los integrantes de la población son ordenados en forma sistemática es de cir en forma ordenada, sleccionando luego al azar el punto de partida desde donde vamos a empzar a escoger la muestra y asi dependiendo de que sistema usemos ya sea alfabéticamente o cada 10 elementos etc. EJEMPLO: con el mismo ejemplo usado anteriormente , si la muestra la tomamos de acuerdo a un pat´rón de cada tres estudiantes , por supueto luego de haber seleccionado al azar nuestro punto de partida.
- MUESTREO ALEATORIO ESTRATIFICADO: Aqui la poblacion se divide en subgrupos , y de cada grupo se escoge la muestra , aqui se puede involucrar tambien el muestreo sistemático ya que para un mejor seleccion de la muestra. EJEMPLO: Si en la clase de estadistica de 48 alumnosn dividimos el grupo por sexo hombres y mujeres y de cada grupo tomamos nuestro punto de partida por supuesto esto estara previamente ordenado alfabéticamente para de ahio tomar nuestro punto de partida al azar y luego si escoger la muestra, de tal manera que obtenemos una muestra mas pequeña y mas facil de manejar.
ERROR DE MUESTREO: dentro de todas estos tipos de muestra antes mencionados como no estamos tomando todos los elmentos de la población, puede existir un mergen de error que sera con un porcentaje ´de hasta 5% de error en las encuestas. Este error se deduce de la diferencia entre el estadístico de la muestra y de la población.
DISTRIBUCIÓN DE MUESTREO DE MEDIAS MUESTRALES: consta de todas las medias muestrales posibles de un tamaño de muestra previamente dado, es decir que de cada muestra, se toma media indivual de estas combianaciones , para luego si obtener de todas estas una nueva media.
TEOREMA DEL´LÍMITE CENTRAL: resulta de cuando tomamos todas las muestras de un tamaño determinado, la distriibución de medias nos dará una de tipo normal es decir serán iguales en valor, lo que aumenta en el caso de muestras más grandes.
La media de una población es igual a la media +/- el margen de error posible; pero existe menor variación en la distribución muestral de medias, que en la población.