INTRODUCCIÓN
El objetivo de nuestro tema, es explicar la asociación entre dos variables conocida
también como asociación simple, solo en forma descriptiva también en nuestro
contenido desarrollaremos la aplicación de los métodos a muestras bivariantes
cuantitativas, es decir muestras donde en cada unidad estadística se observan
dos características cuantitativas medibles X e Y por ejemplo salario y gastos
mensuales.
La primera forma del estudio de la asociación entre las variables X e Y es la:
REGRESIÓN:
Que consiste en determinar una relación funcional (recta de regresión)
entre ellas, con el fin de que se pueda predecir el valor de una variable en
base a la otra. La variable que se va predecir se denomina variable
dependiente y la variable que es la base de la predicción se denomina
variable independiente.
La segunda forma del estudio de la asociación entre las variables X es
denominada:
CORRELACIÓN:
Que consiste en determinar la variación conjunta de las dos variables, su
grado de relación, y su sentido (positivo o negativo). La medida del grado
de relación se denomina coeficiente o índice de correlación. El cuadrado del
índice de correlación se denomina coeficiente de determinación.
En el desarrollo del tema haremos un estudio descriptivo de la regresión lineal en
el sentido que, la ecuación de regresión lineal que se determina será válida, si hay
la seguridad de que existe un alto grado de correlación indicado entre las variables
indicadas por el coeficiente de determinación.
1 DATOS Y GRAFICAS DE DISPERSIÓN
1.1. LOS DATOS DE LA REGRESIÓN SIMPLE:
Los n datos en parejas (x1,y1) , (x2,y2)....(xn,yn ) son los valores de la variable
bidimensional ( X ,Y) , observados en una muestra, donde los xi son los
valores de la variable X y los Yi son los valores de la variable dependiente Y.
Los métodos estadísticos descriptivos ya estudiados como la media. La
desviación estándar, etc. Son validos en cada una de las dos variables.
La estadística descriptiva nueva aquí es COVARIANZA q mide la dispersión
o variabilidad conjunta de los valores de la variables (X,Y) con respecto a
las medias (→,→)
𝑋 𝑌
1.2. LA GRAFICA DE DISPERSIÓN:
Es frecuentemente posible visualizar el tipo de relación existente entre las dos
variables (X,Y) analizando la grafía en el plano cartesiano de de los datos
(xi,yi), denominada grafica de dispersión. La grafica indica la tendencia de
relación entre las dos variables.
Por ejemplo, En las figuras:
1a) los datos visualizan una relación lineal con tendencia positiva
creciente entre las variables X e Y.
1b) la relación es lineal con tendencia negativa o decreciente
1c) los datos visualizan una relación, pero, una relación no lineal,
1d) los datos visualizan ninguna relación válida
En regresión entre las variables X e Y.
FIGURA 1 a) FIGURA 1 b)
FIGURA 1 c) FIGURA 1 d)
En el desarrollo de nuestro tema como ya se indicado en la introducción,
haremos regresión lineal descriptiva determinando la ecuación lineal de
regresión
𝒀 = 𝑨 + 𝑩𝑿
Que mejor se ajusta a los n pares de datos (xi,yi) y analizando la validez de
la regresión a partir del coeficiente de determinación.
1.3. LA COVARIANZA
La covarianza de los datos observados en una muestra es la estadística
que mide el nivel de variabilidad (dispersión o concentración) conjunta de
los datos de las variable en pareja (X,Y) con respecto a sus medias
respectivas (→,→).
𝑋 𝑌
DEFINICIÓN.
La covarianza de n valores (x1,y1) , (x2,y2)....(xn,yn ) de una Variable
bidimensional (X ,Y ) es el número real que denotaremos por COVXY que se
define como la media aritmética de los productos de las desviaciones
conjuntas de los datos con respecto a sus correspondientes medias. Esto
es:
∑𝑛𝑖=1(𝑋𝑖 −𝑋̅)(𝑌𝑖 − 𝑌̅)
𝐶𝑂𝑉𝑋𝑌 =
𝑛
El numerador de la covarianza se denota también por Sxy y verifica la
siguiente relación:
𝑆 𝑋𝑌 = ∑𝑛𝑖=1(𝑋𝑖 −𝑋̅)(𝑌𝑖 − 𝑌̅) |
Escriba aquí la ecuación.
𝑛
𝑆𝑋𝑌 = ∑ 𝑋𝑖 𝑌𝑖 − 𝑛𝑋̅𝑌̅
𝑖=1
Luego
𝑆𝑋𝑌 ∑𝑛𝑖=1 𝑋𝑖 𝑌𝑖
𝐶𝑂𝑉𝑋𝑌 = = − 𝑋̅𝑌̅
𝑛 𝑛
LA COVARIANZA A DIFERENCIA DE LA VARIANZA PUEDE SER
NEGATIVA
1.4. EL COEFICIENTE O ÍNDICE DE CORRELACIÓN
Definición: El coeficiente de correlación lineal de Pesaron de n pares de
valores (x1,y1), (x2,y2)....(xn,yn ) de una variable bidimensional (X,Y). Es el
Número abstracto que se calcula por:
𝐶𝑂𝑉𝑋𝑌
𝒓=
𝑺𝑿 𝑺𝒀
Sx es la desviación estándar de X
Sy es la desviación estándar de Y
e! coeficiente de correlación r es un número comprendido entre - 1 y
+ 1 , esto es: — 1 ≤ 𝑟 ≤ 1 .
Interpretación:
Si r = 1, se dice que hay una correlación perfecta positiva.
Si r = — 1, se dice que hay una correlación perfecta negativa.
Si r = 0 , se dice que no hay correlación entre las dos variables
Es obvio, que cuanto más cercano este a 1 el valor absoluto de r, se tendrá
una buena correlación, pero ¿Qué valores de r indican una correlación
lineal buena o aceptable a nivel descriptivo entre las variables X,Y?
El grado de nivel o ajuste de la ecuación de los datos se analiza en forma
descriptiva aplicando el coeficiente o índice de determinación que define
como el cuadrado del del coeficiente de correlación.
1.5. REGRESIÓN LINEAL SIMPLE.
Dados n pares de valores (x1,y1), (x2,y2)....(xn,yn ) de una variable
bidimensional ( X , Y ) . La regresión lineal simple de la variable
dependiente Y con respecto a la variable independiente X , consiste en
determinar la ecuación de la recta:
𝒀 = 𝑨 + 𝑩𝑿
Que mejor se ajuste a los valores de la muestra con el fin de poder predecir
o estimar Y (variable dependiente) a partir de X (variable independiente).
𝒀 = 𝑨 + 𝑩𝑿
El proceso de obtener el modelo de regresión, analizar su
validez y predecir Y dado X es la REGRESIÓN.
Hallar la función lineal 𝒀 = 𝑨 + 𝑩𝑿 , es un proceso que cosiste en determinar
los valores de a y b aplicando los datos de muestra.
Usaremos la notación 𝒚̂𝒊 para representar un valor de Y calculado de la
Ecuación 𝑌 = 𝑎 + 𝑏 𝑋 cuando X es igual a 𝒙 ¡ . Esto es, 𝑦¡ = 𝑎 + 𝑏𝒙𝒊,
Al valor 𝑦¡ se denomina valor estimado o predecido o ajustado de Y cuando
𝑋 = 𝑋¡. Si 𝒙¡ es un valor de la muestra, entonces (𝒙𝒊 𝒚𝒊 ) es un punto de la
recta de regresión 𝑌 = 𝑎 + 𝑏 𝑋.
Definición. Se denomina error o residuo a cada diferencia,(positiva o
negativa )
𝑑¡ = 𝑦¡ − 𝑦¡
̂𝒊 .
Del valor observado 𝒚𝑖 , y el valor pronosticado 𝒚
Un método para determinar la recta que mejor se ajuste a los n datos de la
muestra (𝐱 𝐢 𝐲𝐢 ) es el método de mínimos cuadrados, que se explica a
Continuación: