0% encontró este documento útil (0 votos)
426 vistas296 páginas

Estadistica

Este documento presenta apuntes sobre estadística descriptiva y regresión. Incluye conceptos básicos de estadística descriptiva como distribuciones de frecuencias, medidas de posición, dispersión y forma. También cubre temas de regresión lineal y no lineal, así como series temporales e índices estadísticos. El autor agradece a varios profesores y compañeros por su ayuda en la elaboración de los apuntes.

Cargado por

librosxuntubo
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
426 vistas296 páginas

Estadistica

Este documento presenta apuntes sobre estadística descriptiva y regresión. Incluye conceptos básicos de estadística descriptiva como distribuciones de frecuencias, medidas de posición, dispersión y forma. También cubre temas de regresión lineal y no lineal, así como series temporales e índices estadísticos. El autor agradece a varios profesores y compañeros por su ayuda en la elaboración de los apuntes.

Cargado por

librosxuntubo
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 296

Apuntes de

ESTADISTICA

20 de febrero de 2012

Sixto Sanchez Merino


Dpto. de Matematica Aplicada
Universidad de Malaga

Mi agradecimiento a los profesores del departamento del Matem


atica Aplicada de la Universidad de M
alaga con los que he
compartido asignatura en los u
ltimos cursos academicos y, en
particular, a los compa
neros Carlos Cerezo, Inmaculada Fortes,
Carlos Guerrero, Jose Morones y Agustn Valverde, por sus correcciones y sugerencias en la elaboraci
on de estos apuntes.

Apuntes de Estadstica
2011, Sixto Sanchez Merino.
Este trabajo est
a editado con licencia Creative Commons del tipo:
Reconocimiento-No comercial-Compartir bajo la misma licencia 3.0 Espa
na.
Usted es libre de:
copiar, distribuir y comunicar p
ublicamente la obra.
hacer obras derivadas.
Bajo las condiciones siguientes:
Reconocimiento. Debe reconocer los creditos de la obra de la manera especificada
por el autor o el licenciador (pero no de una manera que sugiera que tiene su apoyo
o apoyan el uso que hace de su obra).
No comercial. No puede utilizar esta obra para fines comerciales.
Compartir bajo la misma licencia. Si altera o transforma esta obra, o genera
una obra derivada, s
olo puede distribuir la obra generada bajo una licencia identica
a esta.
Al reutilizar o distribuir la obra, tiene que dejar bien claro los terminos de la licencia de
esta obra.
Alguna de estas condiciones puede no aplicarse si se obtiene el permiso del titular de los
derechos de autor.
Nada en esta licencia menoscaba o restringe los derechos morales del autor.

Indice general
1. Estadstica descriptiva

11

1.1. Conceptos elementales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

11

1.2. Distribuciones de frecuencias de un caracter . . . . . . . . . . . . . . . . . . . . .

13

1.2.1. Frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

13

1.2.2. Distribuciones discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . .

15

1.2.3. Distribuciones continuas . . . . . . . . . . . . . . . . . . . . . . . . . . . .

16

1.3. Representaciones gr
aficas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

18

1.3.1. Caracteres cualitativos . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

19

1.3.2. Caracteres cuantitativos . . . . . . . . . . . . . . . . . . . . . . . . . . . .

20

1.4. Medidas de posici


on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

22

1.4.1. Media aritmetica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

22

1.4.2. Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

24

1.4.3. Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

26

1.4.4. Cuantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

28

1.5. Medidas de dispersi


on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

30

1.5.1. Rango . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

30

1.5.2. Desviaci
on media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

31

1.5.3. Varianzas y desviacion tpica . . . . . . . . . . . . . . . . . . . . . . . . .

32

1.5.4. Coeficiente de variacion . . . . . . . . . . . . . . . . . . . . . . . . . . . .

35

1.5.5. Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

36

1.6. Medidas de forma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

37

1.6.1. Medidas de asimetra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

37

1.6.2. Medidas de apuntamiento . . . . . . . . . . . . . . . . . . . . . . . . . . .

39

1.7. Relaci
on de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

41

INDICE GENERAL

1.8. Anexo I: Comandos de R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .


2. Regresi
on y correlaci
on

49
53

2.1. Distribuciones bidimensionales . . . . . . . . . . . . . . . . . . . . . . . . . . . .

53

2.1.1. Representaci
on tabular . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

53

2.1.2. Representaciones gr
aficas . . . . . . . . . . . . . . . . . . . . . . . . . . .

57

2.1.3. Distribuciones Marginales . . . . . . . . . . . . . . . . . . . . . . . . . . .

58

2.1.4. Distribuciones Condicionadas . . . . . . . . . . . . . . . . . . . . . . . . .

59

2.1.5. Distribuciones conjuntas: Momentos mixtos . . . . . . . . . . . . . . . . .

60

2.2. Regresi
on y correlaci
on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

64

2.2.1. Relaci
on entre variables . . . . . . . . . . . . . . . . . . . . . . . . . . . .

64

2.2.2. Regresi
on: Metodo de los mnimos cuadrados . . . . . . . . . . . . . . . .

67

2.2.3. Correlaci
on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

71

2.3. El modelo lineal

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

73

2.3.1. Regresi
on lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

73

2.3.2. Correlaci
on lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

76

2.4. Modelos de regresi


on no lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

81

2.4.1. Linealizaci
on de modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . .

82

2.4.2. Ajuste parab


olico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

83

2.4.3. Otros ajustes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

85

2.4.4. Bondad del ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

87

2.5. Relacion de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

89

2.6. Anexo I: Justificaci


on de algunos resultados . . . . . . . . . . . . . . . . . . . . .

97

2.6.1. Descomposici
on de las varianzas para el modelo lineal de regresion . . . .

97

2.6.2. El coeficiente de correlaci


on lineal de Pearson (r) es un n
umero comprendido entre -1 y 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

97

2.7. Anexo II: Comandos de R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

99

3. Series estadsticas

103

3.1. N
umeros ndice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
3.1.1. Clasificaci
on de n
umeros ndice . . . . . . . . . . . . . . . . . . . . . . . . 104
3.1.2. Propiedades de los n
umeros ndice . . . . . . . . . . . . . . . . . . . . . . 104
3.2. Indices simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

INDICE GENERAL

3.2.1. Indices simples elementales (ISE) . . . . . . . . . . . . . . . . . . . . . . . 105


3.2.2. Indices simples en cadena (ISC) . . . . . . . . . . . . . . . . . . . . . . . . 107
3.2.3. Relaci
on de precios, cantidades y valores . . . . . . . . . . . . . . . . . . . 108
3.3. Indices complejos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
3.3.1. Indices complejos sin ponderar . . . . . . . . . . . . . . . . . . . . . . . . 111
3.3.2. Indices complejos ponderados . . . . . . . . . . . . . . . . . . . . . . . . . 112
3.3.3. Indices de precios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
3.4. Series de n
umeros ndice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
3.4.1. Cambio de periodo base . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
3.4.2. Renovaci
on y empalme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
3.4.3. Deflaci
on de series estadsticas . . . . . . . . . . . . . . . . . . . . . . . . 118
3.5. Series Temporales o Cronologicas . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
3.5.1. Representaci
on gr
afica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
3.5.2. Promedios o Medias Moviles . . . . . . . . . . . . . . . . . . . . . . . . . 121
3.6. An
alisis de las series temporales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
3.6.1. Tendencia secular . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
3.6.2. Variaciones estacionales o periodicas . . . . . . . . . . . . . . . . . . . . . 125
3.6.3. Variaciones cclicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
3.6.4. Variaciones aleatorias, irregulares o accidentales

. . . . . . . . . . . . . . 125

3.7. Estimaci
on de la tendencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
3.7.1. Metodo gr
afico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
3.7.2. Metodo de las medias moviles . . . . . . . . . . . . . . . . . . . . . . . . . 126
3.7.3. Metodo de mnimos cuadrados . . . . . . . . . . . . . . . . . . . . . . . . 127
3.7.4. Metodo de semipromedios . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
3.8. Estimaci
on de la variaci
on estacional . . . . . . . . . . . . . . . . . . . . . . . . . 129
3.8.1. Metodo de la media movil en porcentajes . . . . . . . . . . . . . . . . . . 129
3.8.2. Metodo del porcentaje medio . . . . . . . . . . . . . . . . . . . . . . . . . 131
3.8.3. Estimaci
on de la variacion estacional para el modelo aditivo . . . . . . . . 133
3.8.4. Desestacionalizaci
on de una serie temporal . . . . . . . . . . . . . . . . . 134
3.9. Estimaci
on de las variaciones cclicas . . . . . . . . . . . . . . . . . . . . . . . . . 136
3.10. Estimaci
on de las variaciones aleatorias . . . . . . . . . . . . . . . . . . . . . . . 137

Apuntes de M
etodos Estadsticos para la Computaci
on

INDICE GENERAL

3.11. Relacion de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139


4. Probabilidad

147

4.1. Algebra
de Boole de sucesos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
4.2. Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
4.2.1. Definici
on axiom
atica de probabilidad . . . . . . . . . . . . . . . . . . . . 149
4.2.2. Relaci
on entre frecuencias y probabilidad . . . . . . . . . . . . . . . . . . 151
4.3. Probabilidad condicionada. Sucesos independientes . . . . . . . . . . . . . . . . . 152
4.4. Teorema de la probabilidad total. Teorema de Bayes . . . . . . . . . . . . . . . . 154
4.4.1. Teorema de la probabilidad total . . . . . . . . . . . . . . . . . . . . . . . 154
4.4.2. Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
4.5. ANEXO: Combinatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
4.5.1. Identificaci
on del problema . . . . . . . . . . . . . . . . . . . . . . . . . . 157
4.6. Relacion de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
5. Variable aleatoria

173

5.1. Variable aleatoria unidimensional . . . . . . . . . . . . . . . . . . . . . . . . . . . 174


5.2. Funcion de distribuci
on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
5.3. Variable aleatoria discreta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
5.3.1. Distribuci
on de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . 175
5.3.2. Funci
on de distribuci
on . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
5.3.3. Funci
on generatriz de probabilidad . . . . . . . . . . . . . . . . . . . . . . 178
5.4. Variable aleatoria continua

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179

5.4.1. Funci
on de densidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
5.4.2. Funci
on de distribuci
on . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180
5.5. Esperanza matem
atica y otras medidas

. . . . . . . . . . . . . . . . . . . . . . . 182

5.5.1. Esperanza matem


atica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
5.5.2. Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
5.5.3. Funci
on generatriz de momentos . . . . . . . . . . . . . . . . . . . . . . . 183
5.5.4. Medidas de posici
on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
5.5.5. Medidas de dispersi
on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
5.5.6. Medidas de forma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

INDICE GENERAL

5.6. Variable aleatoria bidimensional . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187


5.6.1. Funci
on de distribucion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
5.6.2. Tipos de variables aleatorias bidimensionales . . . . . . . . . . . . . . . . 188
5.7. Relaci
on de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
6. Distribuciones de probabilidad

207

6.1. Distribuciones uniformes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207


6.1.1. Distribuci
on uniforme discreta . . . . . . . . . . . . . . . . . . . . . . . . 207
6.1.2. Distribuci
on uniforme continua . . . . . . . . . . . . . . . . . . . . . . . . 208
6.1.3. Distribuci
on uniforme bidimensional . . . . . . . . . . . . . . . . . . . . . 208
6.2. Distribuci
on Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
6.2.1. Distribuci
on de Bernouilli . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
6.2.2. Distribuci
on Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210
6.2.3. Distribuci
on Multinomial . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
6.2.4. Distribuci
on Hipergeometrica . . . . . . . . . . . . . . . . . . . . . . . . . 212
6.2.5. Distribuci
on Binomial negativa . . . . . . . . . . . . . . . . . . . . . . . . 213
6.3. Distribuciones asociadas a fenomenos aleatorios de espera . . . . . . . . . . . . . 214
6.3.1. Distribuci
on de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214
6.3.2. Distribuci
on Geometrica o de Pascal . . . . . . . . . . . . . . . . . . . . . 216
6.3.3. Distribuci
on Exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . 217
6.4. Distribuciones normales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218
6.4.1. Distribuci
on Normal o de Laplace-Gauss . . . . . . . . . . . . . . . . . . . 218
6.4.2. Distribuci
on normal bidimensional . . . . . . . . . . . . . . . . . . . . . . 220
6.4.3. Teorema central del lmite . . . . . . . . . . . . . . . . . . . . . . . . . . . 220
6.5. Distribuciones derivadas de la normal . . . . . . . . . . . . . . . . . . . . . . . . 221
6.5.1. Distribuci
on 2 de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . 221
6.5.2. Distribuci
on t de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . 223
6.5.3. Distribuci
on F de Fisher-Snedecor . . . . . . . . . . . . . . . . . . . . . . 224
6.6. Simulaci
on y Metodo de Montecarlo . . . . . . . . . . . . . . . . . . . . . . . . . 225
6.7. Relaci
on de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227
6.8. Relaci
on de problemas II Temas 4, 5 y 6 . . . . . . . . . . . . . . . . . . . . . . 231
6.9. Anexo I: Justificaci
on de algunos resultados . . . . . . . . . . . . . . . . . . . . . 235

Apuntes de M
etodos Estadsticos para la Computaci
on

INDICE GENERAL

6.9.1. Distribuci
on Binomal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235
6.9.2. Propiedades de la funci
on Gamma . . . . . . . . . . . . . . . . . . . . . . 235
7. Inferencia estadstica

239

7.1. Inferencia estadstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239


7.1.1. Teora de muestras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 240
7.2. Estimaci
on parametrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241
7.2.1. Estimaci
on puntual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241
7.2.2. Estimaci
on por intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . . 244
7.3. Contraste de Hip
otesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245
7.4. Inferencia no parametrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249
7.4.1. Bondad de ajuste. Tabla de contingencia . . . . . . . . . . . . . . . . . . . 250
7.4.2. Contraste de homogeneidad de varias muestras . . . . . . . . . . . . . . . 252
7.4.3. Contraste de dependencia o independencia de caracteres.
Tablas de contingencia K M . . . . . . . . . . . . . . . . . . . . . . . . 253
7.5. Relacion de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255
A. Tablas de intervalos de confianza

265

B. Tablas de contrastes de hip


otesis (regiones de rechazo)

269

C. Tablas de las distribuciones de probabilidad

275

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

Apuntes de
ESTADISTICA

Estadstica descriptiva

Sixto Sanchez Merino


Dpto. de Matematica Aplicada
Universidad de Malaga

Mi agradecimiento a los profesores Carlos Cerezo Casermeiro y


Carlos Guerrero Garca, por sus correcciones y sugerencias en la
elaboraci
on de estos apuntes.

Apuntes de Estadstica
2011, Sixto Sanchez Merino.
Este trabajo est
a editado con licencia Creative Commons del tipo:
Reconocimiento-No comercial-Compartir bajo la misma licencia 3.0 Espa
na.
Usted es libre de:
copiar, distribuir y comunicar p
ublicamente la obra.
hacer obras derivadas.
Bajo las condiciones siguientes:
Reconocimiento. Debe reconocer los creditos de la obra de la manera especificada
por el autor o el licenciador (pero no de una manera que sugiera que tiene su apoyo
o apoyan el uso que hace de su obra).
No comercial. No puede utilizar esta obra para fines comerciales.
Compartir bajo la misma licencia. Si altera o transforma esta obra, o genera
una obra derivada, s
olo puede distribuir la obra generada bajo una licencia identica
a esta.
Al reutilizar o distribuir la obra, tiene que dejar bien claro los terminos de la licencia de
esta obra.
Alguna de estas condiciones puede no aplicarse si se obtiene el permiso del titular de los
derechos de autor.
Nada en esta licencia menoscaba o restringe los derechos morales del autor.

Captulo 1

Estadstica descriptiva
La estadstica descriptiva es la rama de la estadstica que trata la descripci
on y an
alisis de
los datos de una poblaci
on, sin pretender extender o generalizar sus resultados y conclusiones a
otras poblaciones distintas o m
as amplias.
La descripci
on consiste en enumerar los elementos y rasgos que configuran una realidad
mediante la observaci
on o la medida. El analisis de la poblacion esta constituido por los procedimientos existentes para la determinacion de los distintos aspectos, propiedades y relaciones de
los conjuntos de datos.
La estadstica descriptiva implica la coleccion, clasificacion, analisis e interpretacion de los
datos en un proceso de organizaci
on y sntesis de la informacion. Estos sencillos trabajos de ordenar, contar, clasificar, registrar informaticamente, etc. requieren mucho tiempo (que se traduce
en costes) y una especial atenci
on para evitar posibles errores iniciales.
En este captulo se tratan distintos metodos de clasificacion y representacion de los datos y
se detallan los par
ametros m
as importantes para el analisis, la interpretacion y la obtenci
on de
resultados.
Entre los ejemplos que ilustran los conceptos, se han seleccionado dos de ellos que hacen
referencia a un estudio del tr
afico (ejemplo 1.5 de la pagina 16) y a las calificaciones de un grupo
de alumnos (ejemplo 1.7 de la p
agina 17). El recorrido de estos dos ejemplos a lo largo de todas
las secciones, ilustra un estudio estadstico completo.
Por u
ltimo, algunas cuestiones interesantes se tratan a modo de ejercicios autocontenidos en
la relacion de problemas propuestos al final del captulo. Su interes queda justificado por el uso
conjunto de las tecnicas estudiadas en el captulo y por sus numerosas aplicaciones practicas.

1.1.

Conceptos elementales

Como cualquier otra ciencia, la estadstica utiliza su propia terminologa y para acceder
al conocimiento resulta imprescindible dominar su lenguaje. Conviene familiarizarse con los
conceptos que se introducen en este captulo y ser capaz de identificarlos.
A continuaci
on se presentan las definiciones de los elementos basicos que intervienen en
cualquier estudio estadstico.

11

12

1.1. Conceptos elementales

Poblaci
on. Se denomina universo, colectivo, poblaci
on estadstica o simplemente poblaci
on al
conjunto de elementos que son objeto de estudio. Las poblaciones podran ser consideradas finitas
o infinitas seg
un la naturaleza o el n
umero de elementos que la compongan, y en cualquier caso,
estos elementos deben estar perfectamente delimitados y bien definidos.
Individuo. Se denomina unidad estadstica o individuo a cada uno de los elementos de la
poblacion descritos mediante una serie de caractersticas a las que se refiere el estudio estadstico.
Muestra. Una muestra es un subconjunto no vacio de individuos de la poblacion. La muestra,
debidamente elegida, se somete a observacion cientfica, en representacion del conjunto total,
con el proposito de obtener resultados v
alidos para toda la poblacion.
El n
umero de elementos que componen la muestra se denomina tama
no muestral y si coincide con el tama
no de la poblaci
on, la muestra se denomina censo. Por tanto, realizar un censo
implica el estudio de toda la poblaci
on. Las dificultades para realizar un censo (poblacion infinita, dificultad de acceso a todos los individuos, coste economico, capacidad de trabajo, tiempo
necesario, etc.) hacen que sea preferible usar una muestra. En este caso, las tecnicas de inferencia
estadstica permitir
an obtener resultados de toda la poblacion a partir de los obtenidos en la
muestra.
Encuesta. La encuesta es un procedimiento de observacion que consiste en la obtencion de
datos mediante la interrogaci
on a los miembros de una poblacion o la medida de los mismos.
Caracteres. Los caracteres son las cualidades o magnitudes de los individuos de la poblacion
que son objeto de estudio. Los caracteres pueden ser cualitativos (por ejemplo, nacionalidad o
color del pelo) o cuantitativos (por ejemplo, n
umero de hijos o metros cuadrados de vivienda).
Los caracteres cualitativos reciben el nombre de atributos y los designaremos utilizando
preferentemente las primeras letras del alfabeto en may
usculas (A,B,C,...). Los caracteres cuantitativos se denominan variables estadsticas y los designaremos utilizando preferiblemente las
u
ltimas letras del alfabeto en may
usculas (...,X,Y,Z).
A su vez, las variables pueden ser discretas (por ejemplo, n
umero de acciones vendidas un da
en la Bolsa de Valores, n
umero de estudiantes matriculados en una Universidad, ...) o continuas
(por ej. vida media de los tubos de television producidos por una fabrica, longitud de 1000
tornillos producidos por una empresa, temperaturas medidas en un observatorio cada media
hora) seg
un la naturaleza de los valores numericos.

Cualitativos (atributos)

(
Discretos
Caracteres
Cuantitativos

(variable estadstica)
Continuos

Modalidades. Las diferentes situaciones posibles del caracter se denominan modalidades. Estas
deben estar bien definidas de tal manera que cada individuo pertenezca a una y solo una u
nica
modalidad. Las denotaremos haciendo uso de una letra min
uscula, correspondiente al nombre del
caracter, con un subndice de orden. Por ejemplo, x1 , x2 , ..., xk denotan las distintas modalidades
de la variable estadstica X.
Ejemplo 1.1 Se realiza un estudio sobre el tipo de software (libre o propietario) utilizado en
los sistemas de gesti
on de bases de datos de las empresas malague
nas. Para ello, se consult
o telef
onicamente a 10 empresas elegidas al azar. Determinar los conceptos estadsticos elementales.

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

13

1. Estadstica descriptiva

En este caso, la poblaci


on est
a constituida por todas las empresas malague
nas que usan software para la gesti
on de bases de datos. La encuesta se realiza mediante llamada telefonica y el
resultado es una muestra de 10 valores del car
acter tipo de software para la gestion de bases
de datos que resulta ser un atributo cuyas dos modalidades son libre y propietario.

En el caso de las variables cuantitativas se pueden definir funciones que permiten obtener
medidas descriptivas a partir de las observaciones. El objetivo de estas medidas es proporcionar
informaci
on sobre las caractersticas de la distribucion de los datos.
Par
ametro. Un par
ametro es una funcion que permite obtener una medida descriptiva numerica
a partir de los valores de un car
acter medible de la poblacion. Por ejemplo, la media de una
poblacion se calcula dividiendo la suma de los valores de la variable entre el n
umero total de
individuos. Estas medidas suelen ser desconocidas pues para calcularlas se necesita efectuar un
censo.
Estadstico. Un estadstico es una funcion definida sobre los valores numericos de una muestra.
Esta funci
on permite obtener una medida descriptiva que se utiliza para obtener informaci
on
sobre alguno de los par
ametros desconocidos de la poblacion. Por ejemplo, el estadstico media aritmetica de los datos de una muestra se usa para estimar el parametro media de la
poblacion.
Ejemplo 1.2 Estimar la compresi
on media del motor instalado en los autom
oviles de un cierto
modelo producidos por una f
abrica a partir del estudio efectuado en 100 vehculos.
Se considera la poblaci
on formada por todos los automoviles de ese modelo producidos por la
fabrica. El conjunto de 100 autom
oviles extrados de dicha poblacion constituye una muestra
de tama
no 100. Se realiza una encuesta que consiste en medir la compresion del motor en cada
uno de ellos. El resultado es una muestra de 100 valores del car
acter compresion del motor
que es una variable continua cuyas modalidades corresponden a todas las posibles relaciones
volumetricas. Si se calcula la media de los 100 datos de compresion se obtiene un valor del
estadstico que proporciona informacion sobre el par
ametro media de la poblacion total.


1.2.

Distribuciones de frecuencias de un car


acter

Uno de los conceptos sobre el que se basaran muchas definiciones posteriores y que simplifica
la presentaci
on de los datos es el de frecuencia o n
umero de veces que aparece una determinada
modalidad de un car
acter o su proporcion sobre el total. Las distintas modalidades junto a su
frecuencia correspondiente constituye la distribuci
on de frecuencias de un caracter.

1.2.1.

Frecuencias

En adelante se considerar
a una poblacion o muestra de tama
no N en la que se observar
a el
caracter X que presenta las modalidades x1 , x2 , ..., xk (ordenadas de menor a mayor, si el car
acter
es cuantitativo).
Frecuencia Absoluta. Se llama frecuencia absoluta de un valor xi del caracter X, y se denota
por ni , al n
umero de individuos observados que presentan esta modalidad.

Apuntes de M
etodos Estadsticos para la Computaci
on

14

1.2. Distribuciones de frecuencias de un car


acter

Frecuencia Relativa. Se llama frecuencia relativa de un valor xi del caracter X, y se denota


por fi , al cociente entre la frecuencia absoluta y el total de individuos.
fi =

ni
N

i = 1, 2, ..., k

La frecuencia relativa representa la proporcion de individuos que presentan una determinada


modalidad y se puede expresar en tantos por cien sin mas que multiplicar por cien el cociente
de la formula anterior.
Ejemplo 1.3 De la siguiente frase: La representaci
on gr
afica no es m
as que un medio auxiliar
de la investigaci
on estadstica, pues esta es fundamentalmente numerica, obtener las distribuciones de frecuencias de las vocales.
Las frecuencias absolutas de las modalidades a, e, i, o y u del atributo vocales son
15, 16, 11, 4 y 6 respectivamente y suman un total de 52 observaciones. Por tanto, la frecuencia
relativa de cada una de las modalidades es 15/52, 16/52, 11/52, 4/52 y 6/52 que expresadas en
tantos por cien son 29 %, 31 %, 21 %, 8 % y 11 % aproximada y respectivamente.
El significado de estas frecuencias est
a claro. Por ejemplo, la frecuencia absoluta de la vocal
a es 15, es decir, de las 52 vocales contenidas en la frase, 15 de ellas son la vocal a, lo que
corresponde al 29 % del total.

Cuando el car
acter es cuantitativo, tiene sentido definir tambien las siguientes frecuencias
acumuladas:
Frecuencias Acumuladas Absolutas y Relativas. Se llama frecuencia acumulada de un
valor xi de la variable X a la suma de las frecuencias de los valores que son menores o iguales a
el. Las frecuencias acumuladas se definen, tanto para las frecuencias absolutas, que se denotan
por Ni , como para las relativas, que se denotan por Fi .
Si los valores xi est
an ordenados de forma creciente entonces
Ni =

i
X

nj

Fi =

j=1

i
X

fj =

j=1

Ni
N

i = 1, 2, ..., k

Dualmente, se podran haber definido estas frecuencias con los datos ordenados de forma decreciente. Seg
un la definici
on utilizada se denominan frecuencias absolutas/relativas acumuladas
crecientes o decrecientes.
De las definiciones anteriores se destacan las siguientes propiedades elementales:
1)
4)

0 ni N
0 fi 1

2)

k
X

ni = N

3) ni = Ni Ni1

fi = 1

6)

i=1

5)

k
X
i=1

fi = Fi Fi1

que pueden usarse a modo de prueba para detectar posibles errores iniciales en el calculo de la
distribucion de frecuencias.

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

15

1. Estadstica descriptiva

Ejemplo 1.4 Como estudio preliminar a una encuesta de tr


afico, fue necesario recabar cierta
informaci
on acerca del n
umero de ocupantes en los autom
oviles que entraban a una poblaci
on el
domingo por la tarde; para ello se cont
o el n
umero de ocupantes en 40 de esos autom
oviles, y se
obtuvieron los siguientes datos:
1 3 2 2 3 1 1 2 2 1 1 4 3 1 3 2 3 2 2 2
1 2 5 1 3 1 2 1 3 1 4 1 1 3 4 2 2 1 1 4
Obtener la distribuci
on de frecuencias acumuladas de la variable X que representa el n
umero
de ocupantes en los autom
oviles.
Si ordenamos de 1 a 5 las modalidades de la variable X y contamos el n
umero de observaciones
correspondientes a cada modalidad, obtenemos las frecuencias absolutas 15,12, 8, 4 y 1, de cada
una de las modalidades. Por lo tanto, la frecuencias acumuladas absolutas para las modalidades 1
a 5 son 15, 27, 35, 39 y 40 respectivamente. Las correspondientes frecuencias acumuladas relativas
se obtienen dividiendo las absolutas por 40 que es el tama
no de la muestra, y obtenemos 0375,
0625, 0875, 0975 y 1.

Generalmente, las distribuciones de frecuencias se presentan en forma de tabla, donde los
datos se agrupan por modalidades. A cada modalidad se le asigna su frecuencia (absoluta, relativa
o acumulada) para constituir la denominada tabla estadstica o de frecuencias. Esta forma de
representaci
on permite tener organizada y resumida la informacion contenida en el conjunto de
datos y presentada de forma m
as comprensible y significativa.
Las distribuciones de frecuencias de una sola variable son basicamente de dos tipos: discretas
y continuas. Esta clasificaci
on no corresponde exactamente con los tipos de caracteres sino m
as
bien en consideraci
on al n
umero de observaciones y al n
umero de valores distintos que toma la
variable.

1.2.2.

Distribuciones discretas

Se considera que la distribuci


on de los datos es discreta si el caracter es cualitativo, o si el
caracter es cuantitativo, pero el n
umero de modalidades es peque
no en relacion con el n
umero
de observaciones. Este tipo de distribuciones tambien se conoce como distribuciones de tipo II.
Para construir la tabla estadstica correspondiente basta con disponer en columnas los pocos
valores distintos de la variable, ordenados de menor a mayor, y sus correspondientes frecuencias,
como se muestra en la figura 1.1.
xi

ni

fi

Ni

Fi

x1
x2
..
.

n1
n2
..
.

f1
f2
..
.

N1
N2
..
.

F1
F2
..
.

xk

nk

fk

Nk

Fk

Figura 1.1: Tabla de frecuencias de una distribucion discreta


Para realizar los c
alculos de algunos parametros, que estudiaremos mas adelante (media,
varianza, momentos, etc.), se pueden a
nadir columnas que contienen operaciones para los valores

Apuntes de M
etodos Estadsticos para la Computaci
on

16

1.2. Distribuciones de frecuencias de un car


acter

de cada modalidad. Adem


as, este tipo de tablas se completan a
nadiendo una fila que contiene
algunas de las sumas por columnas, de los datos correspondientes (vease el ejercicio 24 de la
pagina 46, en la relaci
on de problemas).
Ejemplo 1.5 Representar, en una tabla estadstica, la distribuci
on de frecuencias de los datos
del ejemplo 1.4 de la p
agina 15.
Se observa que la variable X que determina el n
umero de ocupantes en los automoviles presenta
un reducido n
umero de modalidades (1, 2, 3, 4 y 5), de tal manera que, aunque haya un elevado
n
umero de observaciones, estas se pueden agrupar haciendo uso de la frecuencia, tal y como se
recoge en la tabla de la figura 1.2.
xi

ni

fi

Ni

Fi

1
2
3
4
5

15
12
8
4
1

00 375
00 300
00 200
00 100
00 025

15
27
35
39
40

00 375
00 675
00 875
00 975
1

Suma

40

Figura 1.2: Tabla de frecuencias para los datos del ejemplo 1.5

Existen distribuciones que constan de un reducido n
umero de observaciones y, en consecuencia, la variable toma un reducido n
umero de valores distintos. Estas distribuciones tambien se
conoce como distribuciones de tipo I, y para construir la tabla estadstica basta simplemente con
anotar ordenadamente las observaciones en fila o en columna, generalmente de menor a mayor.
x1

x2

x3

...

xN

Ejemplo 1.6 Para realizar un estudio sobre la venta semanal de ordenadores en una determinada empresa de inform
atica, se observa, durante 5 semanas, el n
umero de ordenadores vendidos,
obteniendose los siguientes resultados: 10, 12, 20, 6 y 10. Representar su distribuci
on de frecuencias.
La distribucion de frecuencias se representa ordenando los datos: 6 , 10 , 10 , 12 , 20.

1.2.3.

Distribuciones continuas

Algunas variables discretas y, en general, las variables de naturaleza continua dan lugar a
conjuntos de datos en los que el n
umero de modalidades es muy variado. Consideraremos que una
distribucion es continua cuando presenta un elevado n
umero de observaciones y de modalidades
distintas. En estos casos no resulta apropiado escribir todas las modalidades en una columna,
como se hizo en el caso discreto. Para tabular estos datos conviene agruparlos en intervalos que
constituyen una partici
on, y determinar el n
umero de individuos que pertenecen a cada uno de
ellos. Este tipo de distribuciones tambien se conoce como distribuciones de tipo III.

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

17

1. Estadstica descriptiva

Tomar el intervalo como unidad de estudio, en lugar de cada valor de la variable, supone
una simplificaci
on pero resulta una perdida de informacion. Por lo tanto, es importante elegir un
n
umero adecuado de intervalos que equilibre estos dos aspectos y que constituyan una partici
on
del mismo. Seg
un las caractersticas del conjunto de datos, en la bibliografa se proponen distintas
formas de establecer el n
umero de intervalos en funcion del tama
no (N ) de la muestra. Un criterio
sencillo usado frecuentemente es considerar un
n
umero de intervalos aproximadamente igual a
la raz cuadrada del n
umero de datos, es decir, N .
Cada intervalo se denomina clase y a la diferencia entre el extremo superior (Li ) e inferior
(Li1 ) se le llama amplitud de la clase o del intervalo y se denota por ai que puede ser variable
o constante para todos los intervalos. Al ser una particion, la union de todos los intervalos ha
de recubrir a todos los valores de la variable (exhaustivo) pero sin solaparse (excluyente). La
eleccion del n
umero de intervalos y su amplitud es importante si se quiere identificar el tipo de
distribuci
on y sus caractersticas.
Se llama marca de clase del intervalo i-esimo y se denota por xi al punto medio del intervalo
y sera el valor que representar
a la informacion del intervalo al que pertenece como si fuera un
valor de la variable.
Para construir ahora la tabla estadstica se colocan ordenadamente y por columnas los intervalos, las marcas de clase y las frecuencias correspondientes, como se muestra en la tabla de
la figura 1.3.
Li1 , Li

xi

ni

fi

Ni

Fi

[L0 , L1 ]
(L1 , L2 ]
..
.

x1
x2
..
.

n1
n2
..
.

f1
f2
..
.

N1
N2
..
.

F1
F2
..
.

(Lk1 , Lk ]

xk

nk

fk

Nk

Fk

Figura 1.3: Tabla de frecuencias de una distribucion continua

Ejemplo 1.7 Las calificaciones finales en Matem


aticas de 100 estudiantes fueron:
11
26
43
52
41

46
42
33
32
59

58
51
48
51
60

25
29
47
44
41

48
59
43
57
51

18
92
69
60
10

41
56
49
43
63

35
5
21
65
41

59
52
9
73
74

28 35 2 37 68 70
8 1 12 21 6 32
15 11 22 29 14 31
62 3 17 39 22 40
81 20 36 59 38 40

31
15
46
65
43

44
67
19
30
18

84
47
49
31
60

64
61
51
16
71

82
47
71
80
44

Representar, en una tabla estadstica, la distribuci


on de frecuencias de las notas de Matem
aticas.
Se define la variable X que representa la nota final en Matematicas. Se observa un gran n
umero
de observaciones correspondientes a un elevado n
umero de modalidades distintas, lo que sugiere
agruparlas en clases. Veamos dos agrupamientos distintos:

1. Intervalos de la misma amplitud: Si consideramos 10 intervalos ( N ) de igual amplitud,


podemos representar la distribucion de las notas como se muestra en la tabla de la figura
1.4.

Apuntes de M
etodos Estadsticos para la Computaci
on

18

1.3. Representaciones gr
aficas

Li1 , Li

xi

ni

fi

Ni

Fi

[0, 10]
(10, 20]
(20, 30]
(30, 40]
(40, 50]
(50, 60]
(60, 70]
(70, 80]
(80, 90]
(90, 100]

5
15
25
35
45
55
65
75
85
95

8
12
10
14
21
16
10
5
3
1

00 08
00 12
00 10
00 14
00 21
00 16
00 10
00 05
00 03
00 01

8
20
30
44
65
81
91
96
99
100

00 08
00 20
00 30
00 44
00 65
00 81
00 91
00 96
00 99
1

100

Figura 1.4: Tabla de frecuencias para los datos del ejemplo 1.7
2. Intervalos de diferente amplitud: Si atendemos a la calificacion correspondiente a cada nota
y consideramos 4 clases de distinta amplitud (suspenso, aprobado, notable y sobresaliente),
podemos representar la distribuci
on de las notas como se muestra en la tabla de la figura
1.5.
Li1 , Li

xi

ni

fi

Ni

Fi

[0, 50)
[50, 70)
[70, 90)
[90, 100]

25
60
80
95

65
25
9
1

00 65
00 25
00 09
00 01

65
90
99
100

00 65
00 90
00 99
1

100

Figura 1.5: Tabla de frecuencias para los datos del ejemplo 1.7

1.3.

Representaciones gr
aficas

Estamos acostumbrados a recibir informacion a traves de imagenes. En este sentido, la estadstica utiliza la representaci
on gr
afica para presentar visualmente la distribucion de los datos
de la muestra. Al igual que las tablas estadsticas, las representaciones graficas muestran la distribucion de frecuencias y deben ser capaces de transmitir informacion de la muestra permitiendo
observar algunas caractersticas de los datos.
Para conseguir estos objetivos, conviene cuidar la presentacion de un grafico (colores, formas,...) y utilizar adecuadamente los elementos que lo componen: ttulo, ejes, leyenda, etc.
Cuando se observa una representaci
on gr
afica hay que prestar especial atencion al significado de
los ejes y a las marcas de graduaci
on que determinan la escala. Una vision rapida y descuidada
puede inducir a conclusiones err
oneas.

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

19

1. Estadstica descriptiva

Los distintos tipos de gr


aficas representan las frecuencias absolutas, relativas o acumuladas. El tipo de car
acter, seg
un sea cualitativo o cuantitativo, establece una clasificacion de las
representaciones gr
aficas. Aunque algunas de ellas se pueden utilizar indistintamente, conviene
conocer sus caractersticas para elegir la representacion grafica que resulta mas apropiado a cada
caso.
A continuaci
on se relacionan los tipos de representacion mas utilizados y se detallan las
caractersticas principales y la interpretacion de los elementos que lo constituyen. La creatividad
y la originalidad pueden dar lugar a otros tipos de graficas, siempre y cuando cumplan con el
objetivo de garantizar una imagen sencilla y real de los datos.

1.3.1.

Caracteres cualitativos

Las distintas modalidades de los caracteres cualitativos no contemplan ning


un orden numerico. Por tanto, estas representaciones graficas suelen ser mas iconicas y hacen uso del etiquetado
de las clases o de la leyenda.
Diagrama de rect
angulos o barras. Para cada modalidad, se representa un rectangulo o
barra cuya altura (o longitud) coincide con la frecuencia absoluta (o relativa). En la figura 1.6 se
representa la distribuci
on de frecuencia de las vocales del ejemplo 1.3 de la pagina 14, utilizando
distintos diagramas de columnas en vertical u horizontal.
20

15

o
i

10

a
0
a

0,1

0,2

0,3

Figura 1.6: Diagrama de rectangulos


Diagrama de Pareto. Diagrama de barras de frecuencias relativas donde las modalidades se
representan por orden decreciente en altura. Ademas, se superpone una curva con la frecuencia
relativa acumulada cuya escala se representa a la derecha. Con este diagrama es facil identificar
las modalidades con mayor frecuencia. En la figura 1.7 se representa la distribucion de frecuencias
de las vocales del ejemplo 1.3 de la pagina 14, utilizando un diagrama de Pareto.
0,35

0,3
0,8
0,25
0,2

0,6

0,15

0,4

0,1
0,2
0,05
0

0
e

Figura 1.7: Diagrama de Pareto

Apuntes de M
etodos Estadsticos para la Computaci
on

20

1.3. Representaciones gr
aficas

Diagrama de sectores. Se descompone un crculo en sectores de area proporcional a la frecuencia de la modalidad correspondiente. El
angulo (en grados) del sector circular correspondiente a
la modalidad i-esima es i = 360 fi . En la figura 1.8 se representa la distribucion de frecuencia
de las vocales del ejemplo 1.3 de la p
agina 14, utilizando distintas variedades de diagramas de
sectores.
12%
29%

8%

12%

29%

8%

21%

a
e
i
o
u

21%
30%

30%

Figura 1.8: Diagrama de sectores


Pictograma y cartogramas. Representacion iconica del fenomeno que utiliza dibujos simbolicos o mapas donde aparecen los iconos. El pictograma de la figura 1.9 representa la distribucion
de frecuencias de las vocales del ejemplo 1.3 de la pagina 14.
0,4
0,3
0,2
0,1
0

Figura 1.9: Pictograma

1.3.2.

Caracteres cuantitativos

Este tipo de representaciones gr


aficas se realizan sobre los ejes de coordenadas. Para que sean
mas significativas, puede ser interesante un cambio de origen o escala en los ejes, si bien esto
debe indicarse convenientemente para no inducir a enga
no. Por ejemplo, un cambio de origen
suele indicarse mediante una lnea en zigzag en el eje correspondiente.
Diagrama de barras o puntos. Se utiliza en el caso discreto y es similar al de rectangulos pero
con barras verticales o puntos en los extremos. La frecuencia absoluta (o relativa) determina
la longitud de la barra y el valor de la variable determina el lugar del eje horizontal donde se
apoya. En la figura 1.10 se representa la distribucion de frecuencias (absolutas) del ejemplo 1.5
de la pagina 16, haciendo uso de un diagrama de puntos (izquierda) y de barras (derecha).
16

16

12

12

Figura 1.10: Diagrama de puntos diagrama de barras

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

21

1. Estadstica descriptiva

0.020
0.010
0.000

0.000

0.010

0.020

Histograma. Se utiliza para representar los datos agrupados en intervalos. Para cada clase, se
dibuja un rect
angulo sobre el eje X cuya base sea el intervalo y cuya area sea proporcional a la
frecuencia a representar. Por lo tanto, la altura (hi ) queda determinada por el cociente entre la
frecuencia (ni ) y la amplitud (ai ) del intervalo. En la figura 1.11 se representa la distribuci
on
de frecuencias del ejemplo 1.7 de la pagina 17 cuando los intervalos tienen la misma amplitud
(izquierda) y cuando la tienen distinta (derecha).

20

40

60

80

100

20

40

60

80

100

Figura 1.11: Histogramas


Polgono de frecuencias. Se construye uniendo los extremos de las barras en el diagrama de
barras o los puntos medios superiores de los rectangulos en el histograma. En la figura 1.12 se
representan las distribuciones de frecuencias absolutas del ejemplo 1.5 de la pagina 16 (izquierda),
y las de frecuencias relativas del ejemplo 1.7 de la pagina 17 (derecha).
0,25

16
14

0,20
12
10

0,15

8
0,10

6
4

0,05
2
0

0,00
1

[0,10]

(10,20] (20,30] (30,40] (40,50] (50,60] (60,70] (70,80] (80,90] (90,100]

Figura 1.12: Polgonos de frecuencias


Diagrama de frecuencias acumuladas. Similar al polgono de frecuencias pero utilizando las
frecuencias acumuladas (absolutas o relativas). En la figura 1.13 se representa la distribuci
on de
frecuencias del ejemplo 1.5 de la p
agina 16 (izquierda) y del ejemplo 1.7 de la pagina 17 (derecha),
utilizando diagramas de frecuencias acumuladas absolutas, para el primero, y relativas, para el
segundo.
40

1,00

0,80
30
0,60
20
0,40
10
0,20

0,00
1

[0,10] (10,20] (20,30] (30,40] (40,50] (50,60] (60,70] (70,80] (80,90] (90,100]

Figura 1.13: Diagrama de frecuencias (absolutas/relativas) acumuladas

Apuntes de M
etodos Estadsticos para la Computaci
on

22

1.4. Medidas de posici


on

Las tablas estadsticas y las representaciones graficas constituyen distintas formas de presentar los datos de manera clara y ordenada. Ambas proporcionan informacion sobre la distribucion
de las observaciones. A veces conviene resumir toda esta informacion en uno o varios valores
cuantitativos que sean m
as o menos representativos y que permitan comparar distintas muestras. Por este motivo, vamos a introducir las medidas de posicion, de dispersion, de asimetra y
de apuntamiento.

1.4.

Medidas de posici
on

Las medidas de posici


on son valores numericos descriptivos calculados a partir de los datos
de la muestra. Estos valores ayudan a encontrar el centro de la distribucion, en torno al cual
se agrupan las observaciones, o la posici
on relativa de una observacion, dentro del conjunto de
datos.
Dentro de las medidas de posici
on destacan las medidas de tendencia central como la media,
la mediana o la moda. Tambien se definiran los cuantiles que no son propiamente medidas de
tendencia central pero que se utilizan para situar los valores de la variable.
En la definici
on de las medidas de posicion se considera una muestra de una variable X
que toma los valores x1 , x2 , ..., xk con las frecuencias absolutas n1 , n2 , ..., nk respectivamente,
haciendo un total de N datos.

1.4.1.

Media aritm
etica

La media aritmetica o simplemente media es una medida de tendencia central aplicable


especficamente en el caso de variables cuantitativas. Se calcula dividiendo la suma de los valores
de todos los datos entre el n
umero total de datos, es decir

x1 n1 + x2 n2 + ... + xk nk
x
=
=
N

k
X

xi ni

i=1

k
X

xi fi

i=1

donde x
denota la media muestral. La media aritmetica poblacional se obtiene aplicando la
misma formula a todos los datos de la poblacion (censo), y se suele denotar por .
La media es una medida que se encuentra siempre entre los valores extremos de la variable
y se considera el centro de gravedad de las observaciones, en el sentido de que la suma de las
diferencias (desviaciones)
de las observaciones respecto de la media es cero. Es decir, es el u
nico
P
valor que verifica
(xi x
)fi = 0.
Ejemplo 1.8 Calcular la media aritmetica en los ejemplos 1.5 de la p
agina 16, 1.6 de la p
agina
16 y 1.7 de la p
agina 17.
La media de la variable discreta del ejemplo 1.5 se calcula aplicando directamente la formula:
x
=

84
1 15 + 2 12 + 3 8 + 4 4 + 5 1
=
= 20 1
40
40

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

23

1. Estadstica descriptiva

En el ejemplo 1.6, donde la frecuencia para cada uno de sus valores es 1, la media se calcula
como sigue
6 + 10 + 10 + 12 + 20
58
x
=
=
= 110 6
5
5
Si las observaciones est
an agrupadas por intervalos, como en el ejemplo 1.7, se consideran las
marcas de clase como valores de la variable. En el caso de que los intervalos tienen la misma
amplitud, obtenemos:
x
=

5 8 + 15 12 + 25 10 + + 95 1
4160
=
= 410 6
100
100

Para calcular la media aritmetica tambien podemos utilizar la tabla estadstica. El procedimiento consiste en a
nadir una nueva columna (xi fi ) en la que, para cada modalidad de la
variable, aparece el producto de su valor por su frecuencia relativa. Finalmente, la suma de los
n
umeros obtenidos en esta columna corresponde a la media aritmetica.
Consideremos el ejemplo 1.7 donde las observaciones se agrupan en intervalos de distinta
amplitud. En este caso, a
nadimos una nueva columna a la tabla estadstica donde anotamos los
productos de cada uno de los valores de la variable (las marcas de clase) por su correspondientes
frecuencia relativa. Al final, P
en la fila de sumas, aparecera, en esta columna, el valor de la media
aritmetica, calculada como
xi fi .
Li1 , Li

xi

ni

fi

xi fi

[0, 50)
[50, 70)
[70, 90)
[90, 100]

25
60
80
95

65
25
9
1

00 65
00 25
00 09
00 01

160 25
15
70 2
00 95

100

x
=394

Suma

Observese que el valor obtenido para la media (394) no coincide con el obtenido antes (416),
cuando consideramos intervalos de la misma amplitud, para este mismo conjuntos de datos. La
razon es que los dos valores son aproximaciones del verdadero valor de la media, que es 4167, y
que se obtendra utilizando los valores originales de las 100 observaciones, sin hacer agrupaciones.
Cuando los datos se agrupan en intervalos, perdemos el valor individual de cada observaci
on.
Por eso, al utilizar la marca de clase, como representante de todos los datos de un intervalo, estamos haciendo una aproximaci
on. Las distintas formas de agrupar las observaciones en intervalos,
dan lugar a distintas aproximaciones de las medidas resultantes calculadas.

En muchos casos y con el fin de simplificar los calculos (hacer que la media sea 0 o trabajar
con n
umeros m
as peque
nos) se ve la conveniencia de aplicar una transformacion a la variable.
En este caso, ser
a necesario estudiar como se ve modificada la media de la nueva variable. En
las transformaciones afines, que son las mas usuales, si x
es la media de la variable X, entonces
a
x + b es la media aritmetica de la variable aX + b.

Apuntes de M
etodos Estadsticos para la Computaci
on

24

1.4. Medidas de posici


on

Ejemplo 1.9 Los salarios de los 6 obreros de una empresa son 800, 1.100, 1.200, 1.400, 1.600
y 1.700 euros. Calcular la media aritmetica de los mismos.
Sea X la variable estadstica que representa los salarios de los obreros. Se considera la variable
Y = 1/100 X 13 que toma los valores -5, -2, -1, 1, 3, 4. Ahora, la media de la variable Y es
0 y aplicando la tranformaci
on afn se obtiene la media de la variable X.
Si

y =

13
100

entonces

x
= 100(
y + 13) = 100(0 + 13) = 1.300

Tambien podamos haber considerado la variable Z =


1, 3, 4 y cuya media vale 0 y en este caso
como

z =

x
1300
100

entonces

X 1300
que toma los valores -5, -2, -1,
100

x
= 100
z + 1300 = 100 0 + 1300 = 1.300

Observese que en ambos casos, hemos aplicado, en distinto orden, dos transformaciones: una de
ellas es, dividir por 100 para cambiar la escala y obtener n
umeros mas peque
nos; y la otra es,
restar la media (13, en el primer caso, y 1300 en el segundo) para que la media de la nueva
variable sea cero. Como podremos comprobar en algunas de las formulas que aparecen en este,
y en otros temas, el hecho de que la media sea cero, simplifica notablemente los calculos.

Por u
ltimo, hay que tener en cuenta que la media aritmetica tiene dos graves inconvenientes.
Por un lado, este promedio calculado puede no corresponder con ning
un valor de la variable,
por ejemplo, decir que el n
umero medio de hijos de las familias espa
nolas es 10 2. Por otro lado,
la media aritmetica es muy sensible a valores extremos de la variable (valores inusuales de la
poblacion), por ejemplo, si uno de los datos es muy distinto del resto, el valor de la media no
es representativo de la muestra. Estos dos problemas se resuelven con el uso de la moda, para el
primer caso, y de la mediana, para el segundo.

1.4.2.

Moda

La moda de un conjunto de datos, que denotaremos por Mo, es el valor de la variable que
presenta mayor frecuencia. La moda puede no ser u
nica o incluso no existir porque todos los
valores tengan la misma frecuencia. Puede usarse incluso con variables cualitativas y viene a
solucionar el problema que tiene la media cuando no coincide con ning
un valor de la variable o
cuando interesa destacar la frecuencia de los valores de la misma.
Ejemplo 1.10 Determinar la moda de los datos del ejemplo 1.3 de la p
agina 14.
Para determinar la moda, se busca la modalidad del atributo vocales que tenga mayor frecuencia, que resulta ser la vocal e. Por lo tanto, la moda de las vocales de nuestro ejemplo es
e.

Este parametro es muy f
acil de calcular pero tiene el problema de que dos muestras con datos
muy parecidos puedan tener modas muy distintas lo que dificulta la comparacion. Ademas
aunque se enmarca como medida de tendencia central puede ocurrir que el valor con mayor
frecuencia no este cerca del centro de los datos.

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

25

1. Estadstica descriptiva

Ejemplo 1.11 Calcular la moda de las muestras: M1 = {2, 2, 5, 7, 9, 9, 9, 10, 10, 11, 12, 18},
M2 = {3, 5, 8, 10, 12, 15, 16} y M3 = {2, 3, 4, 4, 4, 5, 5, 7, 7, 7, 9}.
Buscamos, en cada conjunto de datos, el valor o valores que mas se repiten: En M1 la moda es
9 que corresponde al valor con mayor frecuencia; en M2 no hay moda porque todos los valores
tienen la misma frecuencia; y en M3 hay dos modas (distribucion bimodal) que corresponden a
los valores 4 y 7.

Si se dispone de una tabla de frecuencias, la moda es sencilla de calcular sin mas que buscar
el valor de la variable que mayor frecuencia absoluta o relativa presenta.
Ejemplo 1.12 Calcular la moda de los datos del ejemplo 1.5 de la p
agina 16.
Para calcular la moda, se busca en la columna de la frecuencia absoluta (o relativa) el mayor
valor, que resulta ser 15 (o 00 375) y que corresponde al valor 1 de la variable, que es la moda
(ver la figura 1.2 de la p
agina 16).

En el caso de variables continuas, cuando los datos estan agrupados en intervalos, se toma
como intervalo modal (Li1 , Li ] el que resulta con mayor altura1 en el histograma, e interpolando2 , como se muestra en la figura 1.14, se obtiene la siguiente formula para el calculo de la
moda:
1
Mo = Li1 +
ai
donde 1 = hi hi1 y 2 = hi hi+1
1 + 2
siendo hi = ni /ai , la altura del intervalo (Li1 , Li ], teniendo en cuenta que el area del rectangulo
es igual a la frecuencia de dicho intervalo.
hi
hi+1

D1

D2

hi-1
Mo
Li-1 ai Li

Figura 1.14: Calculo de la moda en el histograma


Si todos los intervalos tienen la misma amplitud, es igual considerar la altura correspondiente
a cada intervalo, o su frecuencia, pues son proporcionales. En tal caso, podemos considerar 1 =
ni ni1 y 2 = ni ni+1 , si consideramos las frecuencias absolutas (ni ), o bien 1 = fi fi1
y 2 = fi fi+1 , si consideramos las frecuencias relativas (fi ).
Adem
as, si el intervalo modal fuese el primero de los intervalos, entonces, para aplicar la
formula de interpolaci
on, se considerara que la frecuencia del intervalo anterior es cero, es decir,
ni1 = fi1 = 0. De igual manera, consideraremos ni+1 = fi+1 = 0, si el intervalo modal es el
u
ltimo de los intervalos considerados.
1

Hay que tener especial cuidado cuando los intervalos no tienen la misma amplitud pues una mayor frecuencia
no est
a relacionada con una mayor altura del intervalo sino con una a
rea mayor.
2
La interpolaci
on utilizada para calcular la moda en un intervalo es de tipo cuadr
atica.

Apuntes de M
etodos Estadsticos para la Computaci
on

26

1.4. Medidas de posici


on

Ejemplo 1.13 Calcular la moda de las calificaciones finales en Matem


aticas del ejemplo 1.7 de
la p
agina 17.
Si consideramos el caso donde todos los intervalos tienen la misma amplitud (ver la figura 1.4
de la pagina 18), podemos utilizar la columna de la frecuencia para determinar el intervalo
con mayor frecuencia que es el intervalo modal (40,50]. Aplicando la formula de interpolacion
obtenemos:
7
Mo = 40 +
10 450 833
7+5
Pero si consideramos el caso donde los intervalos no tienen la misma amplitud, entonces tenemos
que calcular, necesariamente, la altura correspondiente a cada intervalo. Para ello, utilizamos la
tabla de frecuencias donde incluimos dos nuevas columnas correspondientes a la amplitud (ai )
y a la altura (hi ) de cada intervalo.
Li1 , Li

xi

ni

fi

ai

hi = ni /ai

[0, 50)
[50, 70)
[70, 90)
[90, 100]

25
60
80
95

65
25
9
1

00 65
00 25
00 09
00 01

50
20
20
10

10 3
10 25
00 45
00 1

100

Figura 1.15: Tabla de frecuencias (ejemplo 1.7) con amplitudes y alturas


En la tabla de la figura 1.15 observamos que el intervalo modal es [0,50), pues es el intervalo
con mayor altura. Aplicando la f
ormula de interpolacion obtenemos:
Mo = 0 +

10 3
50 480 148
10 3 + 00 05


1.4.3.

Mediana

Uno de los inconvenientes de la media aritmetica es su sensibilidad a los valores extremos de


la variable (valores inusuales de la poblacion), por ejemplo, si uno de los datos difiere bastante
del resto, el valor de la media no es representativo de la muestra como vemos en el siguiente
ejemplo.
Ejemplo 1.14 Consideramos las medidas de los di
ametros de diez cilindros, anotadas por un
0
0
0
0
0
0
0
0
cientfico: 3 88, 4 09, 3 92, 3 97, 4 02, 3 95, 4 03, 3 92, 30 98, 400 6 cm. Calcular la media aritmetica
y determinar si es significativo su valor.
La media aritmetica de tales medidas es 70 636 que no es significativa ya que la mayora de los
datos estan en torno a 4. Es posible que el u
ltimo dato provenga de otra poblacion o incluso
que este equivocado (se puede pensar que la coma decimal esta mal puesta y el verdadero valor
sera 40 06) y sin embargo la media se ha visto muy afectada.


Dpto. Matem
atica Aplicada (Universidad de M
alaga)

27

1. Estadstica descriptiva

A la vista del resultado obtenido en el ejemplo anterior, se hace necesario definir una medida
central m
as robusta frente a los datos extremos de la muestra, para que sea mas representativa
en estos casos.
La mediana, o valor mediano, que denotaremos por Me, es aquel valor que divide a la
poblacion en dos partes de igual tama
no, la mitad son mayores que el y la otra mitad inferiores
a el. Si N es impar, existir
a dicho valor y coincidira con uno de los valores observados, mientras
que si es par, se tomar
an los dos valores centrales y se calculara la media. Veamoslo en el siguiente
ejemplo.
Ejemplo 1.15 Calcular la mediana de los conjuntos de datos
C1 = {3, 6, 4, 4, 8, 8, 8, 5, 10}

C2 = {15, 5, 7, 18, 11, 12, 5, 9}.

Para calcular la mediana es conveniente ordenar previamente los conjuntos de datos y localizar
el valor, o valores, que ocupan la posicion central:
C1 = {3, 4, 4, 5, 6, 8, 8, 8, 10} y

C2 = {5, 5, 7, 9, 11, 12, 15, 18}

En C1 hay 9 datos, y la mediana corresponde al valor de la variable situado en la posici


on 5,
que es el n
umero 6. En C2 se tienen 8 datos y, por tanto, la mediana es 10 que se calcula como
la media aritmetica de los valores que ocupan las posiciones 4 (el 9) y 5 (el 11).

Ejemplo 1.16 Calcular la mediana para los datos del ejemplo 1.14.
Para calcular la mediana es conveniente ordenar los 10 datos de la muestra y localizar el valor,
o valores, que ocupan la posici
on central:
{30 88, 30 92, 30 92, 30 95, 30 97, 30 98, 40 02, 40 03, 40 09, 400 6}
De esta manera, la mediana es 3975 que se obtiene calculando la media aritmetica de los valores
de la variable que ocupan las posiciones 5 (el 397) y 6 (el 398). Observese que este n
umero
(3975) es m
as representativo que el valor de la media aritmetica (7636) que habamos calculado
en el ejemplo 1.14.

Si se dispone de una tabla de frecuencias donde los valores de la variable estan ordenados,
la mediana corresponde al primer valor de la variable cuya frecuencia relativa acumulada sea
mayor o igual que 1/2. Si esta frecuencia es exactamente 1/2, entonces el n
umero de valores de
la variable es par y la mediana se obtiene calculando la media aritmetica de este valor de la
variable y del siguiente.
Ejemplo 1.17 Calcular la mediana de los datos del ejercicio 1.5 de la p
agina 16.
La mediana es 2, pues corresponde al primer valor de la variable que verifica que Fi 00 5,
en concreto, Fi = 00 675 (ver la tabla de la figura 1.2 de la pagina 16). Si Fi hubiese valido
exactamente 05 entonces la mediana hubiese sido 20 5 que es la media aritmetica de 2 y 3. 
En el caso en que los datos vengan agrupados por intervalos se calculara el intervalo que
contenga la mediana (intervalo mediano), es decir, el intervalo (Li1 , Li ] donde Fi 1/2, o lo
Apuntes de M
etodos Estadsticos para la Computaci
on

28

1.4. Medidas de posici


on

que es lo mismo, Ni N/2. Si se da la igualdad, entonces la mediana es Li . En otro caso, es


necesario interpolar en el intervalo mediana, mediante la formula
Me = Li1 +

N/2 Ni1
ai
ni

que se obtiene, suponiendo que las observaciones estan distribuidas uniformemente en el intervalo
mediana.
Ejemplo 1.18 Calcular la mediana de las calificaciones finales en Matem
aticas en el ejemplo 1.7 de la p
agina 17.
Primero consideramos el caso donde los intervalos tiene la misma amplitud. En la tabla de
frecuencias (figura 1.4 de la p
agina 18) se busca el intervalo mediano, que resulta ser (40,50],
pues corresponde al primer intervalo cuya frecuencia relativa acumulada supera el valor 05. En
este intervalo se aplica la f
ormula de interpolacion para obtener el valor de la mediana:
Me = 40 +

50 44
10 420 857
21

Si consideramos el caso donde los intervalos tiene distinta amplitud (figura 1.5 de la pagina 18),
entonces el intervalo mediana es [0,50) e interpolando se obtiene el valor de la mediana:
Me = 0 +

50 0
50 380 462
65


1.4.4.

Cuantiles

Los cuantiles no se clasifican dentro del grupo de medidas de tendencia central, pero s que
son medidas de posici
on o de orden. Los cuantiles son parametros que dividen en partes a los
datos ordenados de la poblaci
on determinando as la posicion de cada uno de ellos. Por ejemplo,
la mediana que hemos definido antes, divide al conjunto de las observaciones en dos partes
iguales, es decir, la mitad de las observaciones es menor que la mediana, y la otra mitad son
mayores que ella.
En general, un cuantil de orden k, que denotaremos por C(k), divide a la poblacion en dos
partes de tal manera que una proporci
on k de la poblacion es menor que dicho valor y el resto
mayor. Se distinguen cuatro tipos de cuantiles que dividen a la poblacion en 4, 5, 10 o 100 partes
iguales.
Cuartiles: Son 3 y dividen a la poblaci
on en 4 partes iguales. El primer cuartil, que denotamos
por Q1 , deja a su izquierda a la cuarta parte de la poblacion (k = 1/4) que es menor que el.
El segundo cuartil, que denotamos por Q2 , coincide con la mediana, y el tercer cuartil, que
denotamos por Q3 , deja a su izquierda las tres cuartas partes de la poblacion que son menores
que el (k = 3/4).
Quintiles: Son 4 y dividen a la poblacion en 5 partes iguales. El primer quintil deja a su
izquierda el 20 % de la poblaci
on (k = 1/5) que es menor que el, el segundo quintil deja al 40 %
(k = 2/5), el tercer quintil deja al 60 % (k = 3/5) y el cuarto quintil deja al 80 % (k = 4/5).

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

29

1. Estadstica descriptiva

Deciles: Son 9 y dividen a la poblacion en 10 partes iguales. Se llama decil de orden d al valor
que divide a la poblaci
on en dos partes, de tal forma que la proporcion k = d/10 de la poblaci
on
sea menor que el y el resto mayor.
Percentiles o Centiles: Son 99 y dividen a la poblacion en 100 partes iguales. Se llama centil
de orden c, que denotaremos por Pc , al valor que divide a la poblacion en dos partes de tal
forma que la proporci
on k = c/100 de la poblacion sea menor que el y el resto mayor.
Para calcular el cuantil de orden k en una distribucion discreta, se procede de manera similar
al calculo de la mediana, buscando en la columna de la frecuencia relativa acumulado, cu
al es
el primer valor mayor o igual que k.
Ejemplo 1.19 Calcular los cuartiles Q1 y Q3 , los quintiles de orden 1 y 4, los deciles de orden
1 y 9, y los percentiles P1 y P99 para los datos del ejemplo 1.5 de la p
agina 16.
Para encontrar los cuartiles Q1 y Q3 se busca en la columna de las frecuencias relativas acumuladas cual es el primer valor mayor o igual que 025 y 075 respectivamente. En este caso, los
valores de la variable correspondientes determinan los cuartiles Q1 = 1 y Q3 = 3.
Para calcular los quintiles se procede de la misma manera pero con los valores de k igual a 1/5
y 4/5 y se obtiene 1 y 3. An
alogamente, para los valores de k igual a 1/10 y 9/10 y se obtiene
los deciles de orden 1 y 10 que son respectivamente 1 y 4; y para los valores de k igual a 1/100
y 99/100 se determinan los percentiles P1 =1 y P99 =5.

En el caso de datos agrupados en intervalos, el cuantil de orden k se calcula interpolando en
el intervalo (Li1 , Li ] donde Fi k o lo que es lo mismo Ni N k. Si se da la igualdad, entonces
el cuantil C(k) es Li , y en otro caso, aplicamos la formula:
C(k) = Li1 +

N k Ni1
ai
ni

que se obtiene, suponiendo que las observaciones del intervalo estan distribuidas uniformemente.
Ejemplo 1.20 Calcular los cuantiles Q1 , Q3 y P99 para el ejemplo 1.7 de la p
agina 17.
Primero consideramos el caso donde los intervalos tiene la misma amplitud. Para calcular Q1
se busca el primer intervalo cuya frecuencia relativa acumulada es mayor o igual que 025 (ver
figura 1.4 de la p
agina 18), que resulta ser (20,30], y despues se interpola para obtener el cuartil
Q1 = 20 +

25 20
10 = 25
10

75 65
Analogamente, se interpola en el intervalo (50,60] para obtener Q3 = 50 +
10 = 560 25.
16
Sin embargo, cuando se busca el intervalo correspondiente al percentil P99 , se observa que la
frecuencia relativa acumulada correspondiente al intervalo (80,90] es igual a 00 99 y por tanto el
valor de este percentil es 90.
Si consideramos el caso donde los intervalos tiene distinta amplitud (figura 1.5 de la p
agina
18), entonces Q1 [0, 50) y Q3 [50, 70), y se calculan interpolando as:

25 0
75 65
50 190 2
,
Q3 = 50 +
20 = 58
65
25
Mientras que P99 = 90, sin necesidad de interpolar, pues la frecuencia relativa acumulada correspondiente al intervalo [70,90) es exactamente 099.

Q1 = 0 +

Apuntes de M
etodos Estadsticos para la Computaci
on

30

1.5.

1.5. Medidas de dispersi


on

Medidas de dispersi
on

Las medidas de dispersi


on constituyen otro importante tipo de medidas descriptivas numericas que ayudan a determinar la variaci
on de los datos. Estas medidas se usan para determinar
lo agrupada o dispersa que est
a una poblacion y por tanto si la medida de tendencia central calculada, es representativa. Es tan importante buscar un valor central como saber la distribucion
de los datos en torno a ese valor central. Por ello, las medidas de tendencia central junto a las
medidas de dispersi
on aportan una valiosa informacion sobre la distribucion de los datos.
Ejemplo 1.21 Para las siguientes muestras, estudiar la representatividad que tiene el valor de
la media, en funci
on de la distribuci
on de los datos:
M1 = {20 2, 20 6, 20 9, 30 4, 30 9}

M2 = {00 5, 10 2, 10 9, 50 2, 60 2}

La media aritmetica de las observaciones en cada una de las muestras es la misma, y vale 3. Si
embargo, como se observa en la figura 1.16, en M1 (a la izquierda), las observaciones se agrupan
en torno a ese valor, mientras que en M2 (a la derecha), no ocurre lo mismo. Por lo tanto, el
valor 3 de la media es m
as representativo en el conjunto M1 que en el conjunto M2 . Es decir,
aporta mas informaci
on puesto que da una mejor imagen del conjunto de datos.
1

Figura 1.16: Muestras con igual media y distinta dispersion



Como se observa en el ejercicio anterior, se hace necesaria la definicion de medidas descriptivas de la dispersi
on de los datos de una muestra. Estas medidas tambien serviran para
determinar la representatividad de las medidas de tendencia central en esas muestras.
En la definici
on de las medidas de dispersion se considera una muestra de una variable X
que toma los valores x1 , x2 , ..., xk con las frecuencias absolutas n1 , n2 , ..., nk respectivamente,
haciendo un total de N datos.

1.5.1.

Rango

La medida de dispersi
on m
as simple es el rango, recorrido o intervalo, que denotaremos por
R, y que se define como la diferencia entre el mayor valor observado de la variable y el menor.
Ejemplo 1.22 Calcular los rangos de los conjuntos de datos del ejemplo 1.21.
Si en cada conjunto se busca el mayor y el menor valor de la variable, restando ambos valores
se obtiene:
RC1 = 30 9 20 2 = 10 7 y RC2 = 6, 5 00 5 = 6

lo que nos indica que los datos de C2 est


an mas dispersos que los de C1 , pues el rango es mayor.
Mas adelante veremos que hay una medida que se utiliza especficamente para comparar la
dispersion de dos muestras: el coeficiente de variacion.


Dpto. Matem
atica Aplicada (Universidad de M
alaga)

31

1. Estadstica descriptiva

Ejemplo 1.23 Calcular el rango en los ejemplos 1.5 de la p


agina 16, 1.6 de la p
agina 16 y 1.7
de la p
agina 17.
Si en cada ejemplo se busca el mayor y el menor valor de la variable, restando se obtiene:
Rej:1.5 = 5 1 = 4 ,

Rej:1.6 = 20 6 = 14

y Rej:1.7 = 92 1 = 91


En algunas ocasiones, para determinar la dispersion de un conjunto de datos, evitando la


influencia de los valores extremos, se utilizan otras definiciones de rango que hacen uso de los
distintos cuantiles. Los m
as comunes son:
Rango intercuartlico, que se denotaremos por RQ , es la diferencia entre el cuartil de orden
3 y el de orden 1
RQ = Q3 Q1
Rango intercentlico, que se denotaremos por RC , es la diferencia entre el percentil de orden
99 y el de orden 1
RC = P99 P1
Ejemplo 1.24 Calcular los rangos intercuartlico e intercentlico para los datos del ejemplo 1.5
de la p
agina 16.
La u
nica dificultad que tiene el c
alculo de rangos es la obtencion de los diferentes cuantiles tal
y como se explicaba en la secci
on 1.4.4
RQ = 3 1 = 2

RC = 5 1 = 4


Estas medidas de dispersi


on, ademas de ser sencillas de calcular, su importancia radica en la
capacidad que tienen de detectar posibles datos anomalos (los que estan fuera del rango). En la
relacion de problemas, el ejercicio 29 de la pagina 48 explica una de estas tecnica de detecci
on.
El rango se utiliza como medida de dispersion en muestras peque
nas porque es una medida
relativamente insensible de la variacion de los datos. Es decir, es posible que dos conjuntos de
datos distintos tengan el mismo rango pero difieran considerablemente en el grado de variaci
on
de los datos y esta medida no servira para detectar esa diferencia.

1.5.2.

Desviaci
on media

Otra medida de la dispersi


on de los datos de la muestra se puede obtener calculando la media
de las distancias desde cada uno de los valores hasta un punto elegido previamente.
En primer lugar, definimos la desviaci
on del valor xi de la variable respecto del par
ametro p
como la distancia entre estos dos valores, es decir, |xi p|. Normalmente se toma una medida
de tendencia central (media o mediana) como valor del parametro. Despues, se calcula la media
aritmetica de estas desviaciones respecto del promedio, para obtener una medida de la dispersi
on
de la muestra.

Apuntes de M
etodos Estadsticos para la Computaci
on

32

1.5. Medidas de dispersi


on

La desviaci
on media respecto a un promedio p es la media de las desviaciones de los valores
de la variable respecto a una determinada medida de tendencia central p.

DM(p) =

k
X

|xi p| ni

i=1

k
X
i=1

|xi p| fi

Ejemplo 1.25 Calcular la desviaci


on media respecto a la mediana para los datos del ejemplo 1.5
de la p
agina 16.
Aplicando la formula se obtiene
DM(Me) =

|1 2| 15 + |2 2| 12 + |3 2| 8 + |4 2| 4 + |5 2| 1
34
=
= 00 85
40
40


Los problemas de c
alculo que presenta la utilizacion de los valores absolutos, sugiere la
definicion de una nueva medida de dispersion. En cualquier caso, no se perdera de vista la idea
de medir desviaciones respecto de un promedio, como procedimiento para medir la dispersion.

1.5.3.

Varianzas y desviaci
on tpica

Al igual que la media aritmetica es el promedio mas utilizado, la varianza es la medida de


dispersion por excelencia. Ambos par
ametros suelen presentarse conjuntamente y forman parte
de muchas definiciones.
Varianza poblacional. Se define la varianza poblacional o simplemente varianza de un conjunto
de datos, que denotaremos por 2 , como la media aritmetica de los cuadrados de las desviaciones
con respecto a la propia media de las observaciones, es decir
2

Pk

x
)2 ni X
=
(xi x
)2 fi
N

i=1 (xi

i=1

De la definici
on de varianza se puede deducir una formula mas simple para su calculo que
consiste en calcular la media de los cuadrados y restarle el cuadrado de la media:
2 =

k
X
i=1

x2i fi x
2

Para compensar de alg


un modo el cuadrado de las desviaciones y mantener la misma
unidad de medida de las observaciones, se define la desviaci
on tpica o est
andar de una conjunto
de datos como la raz cuadrada positiva de la varianza:
v
u k
uX

= 2 = t (xi x
)2 fi
i=1

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

33

1. Estadstica descriptiva

Ejemplo 1.26 Calcular la varianza y la desviaci


on tpica poblacional de los datos del ejemplo 1.5 de la p
agina 16.
La varianza es
2 =

(120 1)2 15 + (220 1)2 12 + (320 1)2 8 + (420 1)2 4 + (520 1)2 1
470 6
=
= 10 19
40
40

y la desviaci
on tpica
=

10 19 10 091

Otra forma m
as sencilla de calcular la varianza (con menos operaciones) es
2 =

224
12 15 + 22 12 + 32 8 + 42 4 + 52 1
20 12 =
40 41 = 10 19
40
40


Para aplicar la f
ormula y calcular la varianza poblacional podemos utilizar la tabla estadstica. Para ello, se a
nade una nueva columna (x2i fi ) en la que, para cada modalidad de la variable,
aparece el producto del cuadrado de su valor por su frecuencia relativa. La suma de los n
umeros
obtenidos en esta columna menos el cuadrado de la media corresponde a la varianza. Tambien
podamos haber a
nadido una columna para calcular los valores (xi x
)2 fi y, en este caso, la
varianza sera simplemente la suma de los valores de esta columna.
Como resulta de su definici
on, la varianza y la desviacion tpica son n
umeros positivos.
Ambos par
ametros son independientes del cambio de origen, pero no de escala, es decir, si 2 es
la varianza de la variable X, entonces a2 2 es la varianza de la variable aX + b.
Ejemplo 1.27 Calcular la varianza y la desviaci
on tpica poblacional para los datos del ejemplo 1.9 de la p
agina 23.
Sea X la variable estadstica que representa los salarios de los obreros. Se considera la variable
Y = 1/100 X 13 que toma los valores -5, -2, -1, 1, 3, 4. Ahora, la varianza de la variable Y
es 56/6 y aplicando la transformaci
on lineal se obtiene la varianza de la variable X
x2 = 1002 y2 = 1002

56
93.333
6


A continuaci
on vamos a introducir dos conceptos que estan muy relacionados con la media
y la varianza poblacional: la variable tipificada y la varianza muestral.
La variable tipificada.
Haciendo uso de la media y de la desviacion tpica de la variable X, se puede considerar una
nueva variable que viene dada por:
Z=

X x

que toma los valores

zi =

xi x

i = 1, 2, ..., k

y que se denomina variable tipificada. El proceso de restar la media y dividir por la desviaci
on
tpica, se conoce como tipificar.

Apuntes de M
etodos Estadsticos para la Computaci
on

34

1.5. Medidas de dispersi


on

Ejemplo 1.28 Tipificar los datos del ejemplo 1.5 de la p


agina 16.
La variable X definida en el ejemplo 1.5 toma los valores 1 al 5 con frecuencia 15, 12, 8, 4 y 1; su
media es 21, y su desviaci
on tpica es 1091. Por lo tanto, para calcular los valores (zi ) que toma
la variable tipificada correspondiente, restaremos la media aritmetica (
x), a cada valor original
(xi ) de la muestra, y el resultado, lo dividiremos por la desviacion tpica (), y obtenemos:
1 20 1
2 20 1
3 20 1
4 20 1
5 20 1
0
0
0

1
008
,

0,092
,

0
825
,

1
742
,
20 658
10 091
10 091
10 091
10 091
10 091
Esto cinco n
umeros son los valores que toma la variable tipificada, y la frecuencias de cada uno
de ellos es la misma que la correspondiente frecuencia del valor original.

La variable tipificada es adimensional (independiente de las unidades usadas) y mide la
desviacion de la variable X respecto de su media en terminos de la desviacion tpica, por lo que
resulta de gran valor para comparar valores aislados de distintas distribuciones.
Ejemplo 1.29 Un estudiante obtuvo 84 puntos en el examen final de matem
aticas, en el que
la nota media fue 76 y la desviaci
on tpica 10. En el examen final de fsica obtuvo 90 puntos,
siendo la media 82 y la desviaci
on tpica 16. Aunque en las dos asignaturas estuvo muy por
encima de la media, en cu
al sobresali
o m
as?
Tipificando las variables para poder compararlas se obtiene
84 76
90 82
M=
= 00 8
F =
= 00 5
10
16
y se observa que la nota tipificada (M ) de matematicas es mejor que la de fsica (F ) debido a
que se encuentra m
as alejada de la media en terminos de desviacion tpica. Es decir, la nota de
matematicas se encuentra a 00 8 desviaciones tpicas por encima de la nota media y por tanto es
superior a la nota de fsica que s
olo supera a la nota media en 00 5 desviaciones tpicas.

La cuasivarianza.
Se define la varianza muestral o cuasi-varianza como

s2 =
siendo s =

k
X
i=1

(xi x
)2 ni
N 1

s2 la cuasidesviaci
on tpica o desviaci
on tpica muestral.

Este parametro tendr


a una gran importancia en la inferencia estadstica donde se trabaja
con muestras. Como veremos, el estadstico s2 , calculado a partir de los datos de la muestra,
sera el mejor estimador del valor del par
ametro 2 de la poblacion. Observese que cuando el
tama
no muestral es muy grande, la muestra resulta ser muy significativa, y el valor de s2 es muy
proximo a 2 ya que N 1 N .
Conviene no confundir la varianza de la muestra, que se calcula aplicando la formula de 2
a los valores de la muestra, con la varianza muestral que corresponde a s2 . Sin embargo, de la
expresion de sus f
ormulas se deducen las siguientes relaciones entre ellas:
N
N 1 2
s2 =
2
o bien
2 =
s
N 1
N
Dpto. Matem
atica Aplicada (Universidad de M
alaga)

35

1. Estadstica descriptiva

1.5.4.

Coeficiente de variaci
on

Las medidas de dispersi


on que se han visto hasta ahora, vienen expresadas en las unidades de
la variable, y por tanto, no resultan u
tiles para establecer una comparacion entre las dispersiones
de dos muestras dos muestras distintas, o que simplemente, que vengan expresadas en unidades
distintas.
Para solucionar este problema se define el coeficiente de variaci
on de Pearson que es el
cociente entre la desviaci
on tpica y el valor absoluto de la media:
CV =

|
x|

si bien, para su mejor interpretaci


on, es bastante com
un expresarlo como porcentaje (multiplicado por 100).
El principal problema que tiene este coeficiente es que pierde representatividad cuando la
media se acerca a cero.
Ejemplo 1.30 Calcular el coeficiente de variaci
on de Pearson del ejemplo 1.5 de la p
agina 16.
En los ejemplos anteriores se haba calculado la media (20 1) y la varianza (10 19). Ahora s
olo
habra que aplicra la f
ormula para obtener

10 19
CV =
00 52
(52 %)
20 1

Este coeficiente mide la dispersi
on relativa de la muestra y su ventaja es que resulta independiente de la unidad de medida o cambio de escala; por tanto, permite establecer una comparaci
on
entre las dispersiones de dos muestras que vengan expresadas en distintas unidades.
Ejemplo 1.31 Un fabricante de tubos de televisi
on produce dos tipos de tubos, A y B, que tienen
vidas medias respectivas x
A =1495 horas y x
B =1875 horas, y desviaci
on tpica A =280 horas y
B =310. Comparar las dispersiones de las dos poblaciones en terminos absolutos y relativos.
Los coeficientes de variaci
on para cada tipo de tubos
CVA =

280
100 180 73 %
1495

CVB =

310
100 160 53 %
1875

indican que, en terminos relativos, la dispersion es mayor en la poblacion A; a pesar de que las
desviaciones tpicas sugieran lo contrario.

En general, tambien se define el coeficiente de variaci
on media respecto al promedio p de la
forma:
DM(p)
CVM(p) =
|p|

Como en el caso de la desviaci


on media, el parametro p puede ser cualquier valor pero suele
utilizarse la media o la mediana.

Apuntes de M
etodos Estadsticos para la Computaci
on

36

1.5. Medidas de dispersi


on

OBSERVACION:
Es importante no confundir la variable tipificada con el coeficiente de variacion. Ambos son adimensionales y permiten hacer comparaciones. Sin embargo, utilizaremos el
coeficiente de variaci
on para comparar las dispersiones de dos muestras o poblaciones, mientras
que, utilizaremos la variable tipificada para comparar dos valores concretos de dos muestras o
poblaciones distintas.

1.5.5.

Momentos

Los momentos son medidas descriptivas que resultan muy u


tiles para calcular determinados
parametros. Estas medidas generalizan las definiciones de media aritmetica y varianza, y como
veremos, forman parte de la definici
on de algunos coeficientes.
En general, se define el momento de orden r respecto al punto c de la forma:
Mr (c) =

k
X
i=1

(xi c)r fi

aunque resultan de especial interes los siguientes dos casos particulares:


Momentos ordinarios: Si c = 0 entonces el momento de orden r recibe el nombre de momento
ordinario, se denota por mr , se calcula as
mr =

k
X
i=1

xri fi

y se observa que si r = 1 se tiene la definicion de media aritmetica.


Momentos centrales: Si c = x
entonces el momento de orden r recibe el nombre de momento
central, se denota por r , se calcula as
r =

k
X
i=1

(xi x
)r fi

y se observa que si r = 2 se tiene la definicion de varianza.


Para aplicar la f
ormula y calcular los momentos podemos utilizar la tabla estadstica, tal
y como se ha explicado en el c
alculo de la media o la varianza. El procedimiento consiste en
a
nadir una nueva columna con las operaciones correspondientes para cada modalidad de la
variable ((xi c)r fi ) y sumar los n
umeros obtenidos.
Ejemplo 1.32 Calcular los momentos ordinario y central de orden 4 de los datos del ejemplo 1.5
de la p
agina 16.
Aplicamos directamente la f
ormula para calcular el momento ordinario
m4 =

14 15 + 24 12 + 34 8 + 44 4 + 54 1
2504
=
= 620 6
40
40

y sabiendo que la media es 20 1 calculamos el momento central


4 =

(120 1)4 15 + (220 1)4 12 + (320 1)4 8 + (420 1)4 4 + (520 1)4 1
1500 068
=
= 30 7517
40
40


Dpto. Matem
atica Aplicada (Universidad de M
alaga)

37

1. Estadstica descriptiva

Se destacan las siguientes propiedades relativas a los momentos:


1) m0 = 1

2)

m1 = x

3) m2 = 2 + x
2

4) 0 = 1

5)

1 = 0

6) 2 = 2 = m2 x
2

y las relaciones entre los momentos centrales y ordinarios, como por ejemplo,
2 = m2 m21

3 = m3 3m1 m2 + 2m31

4 = m4 4m1 m3 + 6m21 m2 3m41

que nos permiten calcular los momentos centrales, en terminos de los momentos ordinarios, que
son mas simples de calcular.
Ejemplo 1.33 Calcular el momento central de orden 3 de los datos del ejemplo 1.5 de la p
agina 16 a partir de los momentos ordinarios.
Primero se calculan los momentos ordinarios de orden 1, 2 y 3 que son m1 = 20 1, m2 = 50 6 y
m3 = 170 7 y se aplica la relaci
on correspondiente para obtener
3 = m3 3m1 m2 + 2m31 = 170 7 3 20 1 50 6 + 2 (20 1)3 = 00 942


1.6.

Medidas de forma

La forma que presenta su representacion grafica permite clasificar una distribucion de frecuencias. En esta secci
on nos fijaremos en dos caractersticas: la simetra y el apuntamiento, y
proporcionaremos coeficientes que nos permitan comparar dos distribuciones.

1.6.1.

Medidas de asimetra

Se dice que una distribuci


on de frecuencias es simetrica cuando los valores de la variable
que equidistan de un valor central tienen las mismas frecuencias. Esta situacion ideal viene
representada por una gr
afica simetrica y en tal caso se verifica que x
= M e = M o.
Se dice que una distribuci
on de frecuencias es asimetrica si no es simetrica y esta asimetra
puede presentarse a la derecha o a la izquierda (ver figura 1.17):
Una distribuci
on asimetrica a la derecha o positiva se caracteriza porque la grafica de
frecuencias presenta cola a la derecha, es decir, estas descienden mas lentamente por la
derecha que por la izquierda. En este caso se verifica que M o M e x
.
Una distribuci
on asimetrica a la izquierda o negativa se caracteriza porque la grafica de
frecuencias presenta cola a la izquierda, es decir, estas descienden mas lentamente por la
izquierda que por la derecha. En este caso se verifica que x
M e M o.
A continuaci
on, se presentan dos coeficientes que permiten estudiar el grado de asimetra o
sesgo de una distribuci
on, sin necesidad de representarla.

Apuntes de M
etodos Estadsticos para la Computaci
on

38

1.6. Medidas de forma

ed

ia

ian

od
M

ia
ian
a
M
od
a
ed

ed

Distribucion asimetrica
positiva o a la derecha

Media
Mediana
Moda

Distribucion
simetrica

ed

Distribucion asimetrica
negativa o a la izquierda

Figura 1.17: Formas de la distribucion de frecuencias

Coeficiente de asimetra de Pearson. De acuerdo a las relaciones entre media, mediana y


moda, establecidas para las distintas asimetras, se define y se interpreta el coeficiente de sesgo
de Pearson como sigue
x
Mo
AP =

AP > 0
A =0
P
AP < 0

donde

Asimetra a la derecha o positiva


Simetra
Asimetra a la izquierda o negativa

Ejemplo 1.34 Utilizar el coeficiente de Pearson para determinar el sesgo en el ejemplo 1.5 de
la p
agina 16.
Utilizando los datos obtenidos en los ejemplos anteriores y aplicando la formula se obtiene
20 1 1
AP =
1>0
10 19

0.0

0.1

0.2

0.3

0.4

lo que indica que la distribuci


on es asimetrica a la derecha (ver figura 1.18).

Figura 1.18: Formas de la distribucion de frecuencias del ejemplo 1.5

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

39

1. Estadstica descriptiva

Coeficiente de asimetra de Fisher o 2 de Pearson. Otro coeficiente adimensional que


mide el sesgo, haciendo uso del momento central de orden 3, es el coeficiente de asimetra de
Fisher que se define y se interpreta como sigue

g1 > 0 Asimetra a la derecha o positiva


3
g1 = 0 Simetra
g1 = 3
donde

g1 < 0 Asimetra a la izquierda o negativa

y que tiene su explicaci


on en la comparacion con la distribucion normal que es simetrica y cuyo
coeficiente de asimetra de Fisher toma el valor 0 para cualquier media y varianza.
Ejemplo 1.35 Utilizar el coeficiente de Fisher para determinar el sesgo en el ejemplo 1.5 de la
p
agina 16.
Utilizando los datos obtenidos en los ejemplos anteriores y aplicando la formula se obtiene
00 942
g1 =
00 726 > 0
( 10 19)3
lo que confirma que la distribuci
on es asimetrica a la derecha (ver figura 1.18).

1.6.2.

Medidas de apuntamiento

El apuntamiento o la curtosis determina si la distribucion de frecuencias es mas o menos


afilada o aplastada que la funci
on de densidad de la distribucion normal3 con igual media y
varianza, que se toma como referencia.
En la figura 1.19 se representan tres distribuciones de frecuencias que, de izquierda a derecha, son platic
urtica (m
as aplastada que la distribucion normal), mesoc
urtica (similar a la
distribuci
on normal) y leptoc
urtica (mas apuntada que la distribucion normal). En cada una de
ellas se ha representado la respectiva distribucion normal con igual media y varianza.

Figura 1.19: Formas de la distribucion de frecuencias


3

La funci
on de densidad de la distribuci
on normal de media y desviaci
on es la funci
on definida por
1
1
( x
)2
2

f (x) = e
, y cuya gr
afica se conoce como campana de Gauss.
2

Apuntes de M
etodos Estadsticos para la Computaci
on

40

1.6. Medidas de forma

Para determinar el grado de apuntamiento se define la siguiente medida:


Coeficiente de aplastamiento de Fisher. Un coeficiente adimensional que mide la curtosis
de una muestra, haciendo uso del momento central de orden 4, es el coeficiente de aplastamiento
de Fisher que se define y se interpreta como sigue

g2 < 0 Menos apuntamiento que la normal.


4
g2 = 0 Igual apuntamiento que la normal.
g2 = 4 3
donde

g2 > 0 Mas apuntamiento que la normal.

Esta formula tiene su explicaci


on en la comparacion con la distribucion normal. Se puede
4
comprobar que el cociente 4 / siempre toma el valor 3 en la distribucion normal de cualquier
media y varianza. Por lo tanto, el coeficiente de aplastamiento de Fisher de la distribucion
normal toma siempre el valor 0.
Ejemplo 1.36 Determinar el apuntamiento de la distribuci
on de los datos del ejemplo 1.5 de
la p
agina 16.
Utilizando los datos obtenidos en los ejemplos anteriores y aplicando la formula del coeficiente
de apuntamiento se obtiene
30 7517
g2 =
3 0,35 < 0
( 10 19)4
lo que indica que la distribuci
on es menos apuntada (mas aplastada) que la normal de igual
media y varianza.


Dpto. Matem
atica Aplicada (Universidad de M
alaga)

41

1. Estadstica descriptiva

1.7.

Relaci
on de problemas

1. La fiabilidad de un ordenador se mide en terminos de la vida de un componente de hardware


especfico (por ejemplo, la unidad de disco). Con objeto de estimar la fiabilidad de un
sistema en particular, se prueban 100 componentes de un ordenador hasta que fallan, y se
registra su vida.
a) Determinar la poblaci
on de interes, los individuos y la muestra.
b) Determinar el car
acter, su tipo y las posibles modalidades.
c) C
omo podra utilizarse la informacion de la muestra para estimar la fiabilidad del
sistema?
2. Cada cinco a
nos, la Divisi
on de Mecanica de la American Society of Engineering Education realiza una encuesta a nivel nacional sobre la educacion en Mecanica, en el nivel de
licenciatura, en las Universidades. En la encuesta mas reciente, 66 de las 100 universidades
muestreadas cubran la est
atica de fluidos en su programa de ingeniera en el nivel de
licenciatura.
a) Determinar la poblaci
on de interes, los individuos y la muestra.
b) Determinar el car
acter, su tipo y las modalidades del estudio.
c) Utilice la informaci
on de la muestra para inferir resultados de la poblacion.
3. Para cada uno de los siguientes conjuntos de datos, indique si son cualitativos o cuantitativos y describir las distintas modalidades.
a) Tiempos de llegada de 16 ondas ssmicas reflejadas.
b) Marcas de calculadoras empleadas por 100 estudiantes de Ingeniera.
c) Velocidad m
axima alcanzada por 12 automoviles impulsados con energa solar.
d ) N
umero de caracteres impresos por lnea de salida de computadora en 20 impresoras
de lnea.
e) N
umero de miembros de las familias malague
nas.
f ) Estado civil del personal de una empresa.
g) Horas de vuelo de los pilotos de una compa
na aerea.
4. En cada caso, determinar el tipo de distribucion, organizar los datos en una tabla de
frecuencias y representar gr
aficamente la distribucion. Tambien se pide, calcular algunas
medidas de tendencia central, medidas de dispersion, de simetra y de apuntamiento.
a) Resistencia a la tensi
on (Kg/mm2 ) de laminas de acero.
44
42

43
45

41
41

41
44

44
44

44
43

43
44

44
46

42
41

45
43

43
45

43
45

44
42

45
44

46
44

b) Tiempo de espera (redondeado en minutos) de un conmutador, para cierto tren subterr


aneo.
3

Apuntes de M
etodos Estadsticos para la Computaci
on

42

1.7. Relaci
on de problemas

c) En ciertos entornos, los aceros inoxidables son especialmente susceptibles al agrietamiento. A continuaci
on se relacionan las causas asignables y el n
umero de casos
detectados correspondientes a estas causas, en un estudio realizado entre 200 aceros
observados.
Entorno h
umedo
Entorno seco
Defectos de materiales
Defectos de soldadura

144
45
4
7

d ) Contenido de carbono ( %) del carbon mineral.


87
86

86
84

85
83

87
83

86
82

87
84

86
83

81
79

77
82

85
73

e) Consumo de combustible (litros/100km a 90km/h) de seis automoviles de la misma


marca.
60 7

60 3

60 5

60 5

60 4

60 6

f ) N
umero de hojas de papel, por encima y por debajo del n
umero deseado de 100 por
paquete, en un proceso de empaquetado.
1

g) Resultados obtenidos en las pruebas de durabilidad de 80 lamparas electricas con


filamento de tungsteno. La vida de cada lampara se da en horas, aproximando las
cifras a la hora m
as cercana.
854 1284 1001
911 1168 963 1279 1494 798 1599 1357 1090 1082
1494 1684 1281
590
960 1310 1571 1355 1502 1251 1666 778 1200
849 1454
919 1484 1550 628 1325 1073 1273 1710 1734 1928 1416
1465 1608 1367 1152 1393 1339 1026 1299 1242 1508 705 1199 1155
822 1448 1623 1084 1220 1650 1091 210 1058 1930 1365 1291 683
1399 1198
518 1199 2074 811 1137 1185 892 937 945 1215 905
1810 1265

h) Los clientes de una empresa necesitan contactar telefonicamente con el departamento


de mantenimiento para realizar consultas y aclarar dudas. La gerencia ha recibido quejas de los clientes que suelen encontrar la lnea ocupada. Para determinar el
n
umero de lneas nuevas que necesita incorporar a la centralita se realizo una encuesta
entre algunos de los clientes. La siguiente tabla recoge el n
umero de reintentos que
necesitaron realizar esos clientes en su u
ltima llamada telefonica a la empresa.
3
1
3
6

4
1
3
3

3
4
2
1

3
2
2
2

1
3
2
2

4
3
2
3

1
2
1
2

3
6
3
2

2
1
2
4

5. Calcular los valores que se piden en funcion de los datos:


a) Si N = 2, x
= 20 6 y = 10 1, cuales son los datos de la muestra?
b) Si CV = 00 5, x
= 2 y m3 = 14, cuanto vale 3 ?

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

3
1
1
2

43

1. Estadstica descriptiva

6. Se considera la siguiente tabla de frecuencias donde las distintas modalidades estan ordenadas de menor a mayor
xi
0
3
5
20
25
50

ni
10

Ni

fi

15

Fi
03

008
08
46
1

a) Completar la tabla estadstica, utilizando los datos que ya contiene, y los valores de
las siguientes medidas: N =50, x
=10, M e=4, M o=10, Rango=51 y 2 =201.
b) Determinar que datos y medidas resultan irrelevantes para completar la tabla.
7. Se atribuye a George Bernard Shaw (el celebre dramaturgo y polemista irlandes) la siguiente observaci
on: Si dos amigos encuentran un pollo y se lo come uno de ellos, la estadstica
afirma que en promedio cada amigo se ha comido medio pollo. Utilcese la metodologa
estadstica para precisar el contenido de esta proposicion.
8. El tama
no de la muestra A es 10, y la media y la mediana son respectivamente 165 y 13.
El tama
no de la muestra B es 20, y la media y la mediana son respectivamente 114 y 10.
Consideremos la uni
on de las dos muestras, que denotaremos por C, cuyo tama
no es 30.
Si es posible, calcule la media y la mediana de la muestra C, y en otro caso, determine la
posici
on aproximada de la medida desconocida.
9. El sueldo medio de los obreros de una fabrica es 1.500 euros. En las negociaciones del
nuevo convenio colectivo se presentan dos alternativas: un aumento de 150 euros euros a
cada obrero o un aumento del 10 % del sueldo de cada uno. Estudiar que modalidad es
mas social en el sentido de que iguala mas los salarios.
10. Busque un ejemplo donde la diferencia entre la mediana y la moda sea mayor que el rango
intercuartlico.
11. Sea k un n
umero entero positivo. Determine la media, la varianza y el sesgo en cada una
de las siguientes muestras:
a) M1 = {1, 2, 3, ..., k}

b) M2 = {p, p + c, p + 2c, p + 3c, ..., p + kc}, con p R.

12. En un examen final de Estadstica, la puntuacion media de 150 estudiantes fue de 70 8,


y la desviaci
on tpica de 00 8. En Calculo, la media fue 70 3 y la desviacion tpica 00 76.
En que materia fue mayor la dispersion en terminos absolutos? y en terminos relativos? Explicar la respuesta. Si un alumno obtuvo 70 5 en Estadstica y 70 1 en Calculo, en
que examen sobresali
o m
as?
13. En una muestra se obtienen los valores 2, 4, 6 y 8 de la variable X. Se pide:
a) Calcular la media y la varianza de los valores de la muestra.

Apuntes de M
etodos Estadsticos para la Computaci
on

44

1.7. Relaci
on de problemas

b) Hallar los valores tipificados de la variable X y comprobar que la media de estos


nuevos valores es 0 y la varianza es 1.
c) Demostrar que el resultado del apartado anterior constituye una propiedad de cualquier variable tipificada.
14. Las distribuciones de frecuencias de las variables X e Y son campaniformes y simetricas.Adem
as, se sabe conocen los siguientes datos:
P 4
Variable X Me=10 x2 =4 N=2
x f =12416
P i4 i
2
Variable Y
Mo=8 y =4 N=82
yi fi = 5648
Determinar los dos valores de X, y comparar la dispersion y la curtosis de ambas variables.
15. Demostrar la igualdad

k
X
i=1

(xi x
) fi =

k
X
i=1

x2i fi x
2 que define a la varianza.

16. Encontrar una f


ormula general que relacione el momento central de orden r con los momentos ordinarios de un orden menor o igual. Utilizar esta formula para comprobar las
relaciones entre los momentos que aparecen en la seccion 1.5.5 y calcular el momento
central de orden 5 a partir de los momentos ordinarios.
17. Consideremos el siguiente histograma que representa la frecuencia absoluta de los valores
de una muestra. Se pide:
a) Calcular la media, mediana y moda.
b) Calcular el rango intercuartlico.
c) Calcular la varianza.

18. Consideremos el siguiente diagrama de frecuencias relativas acumuladas. Se pide:


1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0

a) Calcular la media, mediana y moda


de la variable X.
b) Calcular el rango intercuartlico.
c) Calcular la varianza.
0

19. Sentido crtico. Antes de extraer conclusiones de unos resultados estadsticos, conviene
examinar detenidamente los valores numericos obtenidos. El gran n
umero de operaciones
realizadas y el volumen de datos manejados son fuentes de error que inciden en los resultados. Un poco de sentido crtico puede ayudar a determinar si unos resultados son
consistentes con los datos del problema. En este ejercicio se propone una serie de casos
donde el resultado numerico no es correcto. Se trata de explicar razonadamente la inconsistencia del resultado en funci
on de los datos.
a) El n
umero medio de accesos a una pagina web es -3.
b) La mediana del n
umero de hijos de las familias espa
nolas es 20 1.
c) La moda del n
umero de hijos es 10 5.

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

45

1. Estadstica descriptiva

d ) El cuartil C3 es 28 y el cuartil C1 es 32.


e) El centil P1 es 32 y el decil D1 es 28.
f ) La varianza es -100.
g) La media es 10, la mediana 12 y la desviacion tpica es 0.
h) La expresi
on g2 + 3 toma un valor negativo.
20. Modificar los datos de una muestra En este ejercicio se va a estudiar el comportamiento de la media y la varianza cuando se pierde, se gana o se modifica alg
un dato de la
variable. Se consideran los valores {2, 4, 6, 8} obtenidos en una muestra. Se pide:
a) Calcular la media y la varianza.
b) En cada caso, obtener el nuevo valor de la media y la varianza sin tener que aplicar
nuevamente las f
ormulas a todos los datos:
Caso1: Se descubre que el valor 8 observado es erroneo y se elimina.
Caso2: Se cuenta con un nuevo valor, el 5, para la muestra.
Caso3: Se descubre que el valor 8 observado es erroneo y se cambia por el verdadero
valor que es el 9.
21. Estudiamos el tiempo de duracion de un proceso donde, en algunos casos, el proceso ni
siquiera comienza y, por tanto, el tiempo de duracion es cero. Realizamos 200 pruebas y
obtenemos un tiempo medio de 35 segundos con una varianza de 7.
a) Si el 23 % de las pruebas fueron consideradas de tiempo 0. Cual es la media y la
varianza de las restantes.
b) Si en las 200 pruebas se obtuvieron tiempos positivos y consideramos 50 nuevas
pruebas de tiempo 0, cual es la nueva media y varianza para las 250 observaciones?
c) Obtener una f
ormula que permita obtener la nueva media y varianza de una muestra
cuando a
nadimos o eliminamos un n
umero arbitrario de observaciones de valor 0.
22. En ocasiones, determinar si los resultados de un problema son coherentes con los datos,
no es tan directo como en los apartados del ejercicio 19. Por ejemplo, supongamos que
en una muestra de 200 observaciones, se obtiene que la media es 35 y la varianza es 7.
Son coherentes estos resultados, si sabemos que el 23 % de las observaciones toma el valor
0? Intenta razonar la respuesta y despues, calcula el valor de la varianza de la muestra,
sin considerar los valores nulos, pues el resultado indica la incoherencia de los datos del
problema.
23. Datos agrupados. Se consideran los datos del ejemplo 1.7 de la pagina 17 y los resultados
obtenidos a lo largo del captulo. Se estudia como afecta la particion en intervalos a los
par
ametros calculados. Para ello, se pide:
a) Dividir el rango en intervalos de amplitud 20 y calcular los distintos parametros:
Media, mediana, moda, rango intercuartlico, varianza, coeficiente de variacion, coeficiente de asimetra de Fisher y coeficiente de apuntamiento.
b) Repetir el ejercicio anterior dividiendo el rango en intervalos regulares de amplitud 5,
25 y 50. Considerar tambien la particion irregular por calificaciones: [0,20), [20,50),
[50,60), [60,70), [70,90) y [90,100].

Apuntes de M
etodos Estadsticos para la Computaci
on

46

1.7. Relaci
on de problemas

c) Comparar los datos obtenidos en las distintas particiones y determinar como afecta
al resultado numerico de cada parametro.
d ) Comparar los valores numericos obtenidos para los distintos parametros con los que
se obtienen si no se consideran los datos agrupados.
24. Tablas de frecuencias. En el tema se comenta que las tablas de frecuencias pueden
resultar muy u
tiles para realizar los calculos de determinados parametros y son facilmente
implementables en una hoja de c
alculo. Para ello, basta con a
nadir columnas (a la derecha)
que contengan operaciones entre los valores calculados en la columnas anteriores y una fila
(al final de la tabla) que representa la suma de los valores de la columna correspondiente.
En la siguiente tabla se incluyen algunas de estas columnas:
xi

ni

fi

xi fi

x2i fi

|xi x
| fi

x1
x2
..
.

n1
n2
..
.

f1
f2
..
.

x1 f1
x2 f2
..
.

x21 f1
x22 f2
..
.

|x1 x
| f1
|x2 x
| f2
..
.

xk

nk

fk

xk fk

x2k fk

|xk x
| fk

Se pide
a) Determinar la utilidad de las columnas introducidas en la tabla de frecuencias.
b) Utilizar este metodo para calcular la media, la varianza y los momentos ordinario y
central de orden 3 en el ejemplo 1.7 de la pagina 17
25. Media ponderada.. Una generalizacion del concepto de media aritmetica es la media
ponderada. Se utiliza cuando se asocian ciertos valores (w1 , w2 , . . . , wk ), denominados pesos, a los valores (x1 , x2 , . . . , xk ) de la variable con el fin de dar mas relevancia a unos que
a otros.
k
X
wi x i
MP =

i=1
k
X

wi

i=1

El conjunto de los pesos {w1 , w2 , . . . , wk } se denomina ponderaci


on, y diremos que una
ponderaci
on es propia si todos los pesos son distintos de cero, es decir, wi 6= 0 para todo
i = 1, . . . , n.
Ahora, veamos un ejemplo: Si la nota final de una asignatura se obtiene mediante la
realizacion de tres pruebas parciales con pesos 1, 2 y 2, indica que la prueba segunda y
tercera tiene el doble de importancia que la primera. En este caso, un alumno cuyas notas
hubiesen sido 70 5, 30 0 y 50 5, su nota final sera:
240 5
1 70 5 + 2 30 0 + 2 50 5
=
= 40 9
1+2+2
5
Se pide:

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

47

1. Estadstica descriptiva

a) Que nota tendra que haber sacado en la tercera prueba para aprobar la asignatura?
b) Cu
al habra sido su nota final si los pesos hubiesen sido 2, 1, y 1?
26. Tenemos dos muestras A y B
A 1 2 3 4 5
B 2 4 5 6 8
y observamos que por pares, los datos de la muestra A son menores que los valores de la
muestra B. En este caso, si calculamos las medias aritmeticas, obviamente, obtenemos un
valor menor para B. Pero, que sucede con la media ponderada?
a) Calcular las medias aritmeticas de las muestras A y B.
b) Encontrar una ponderaci
on para cada una de las variables, de manera que la media
resultante de la muestra A sea mayor que la de la muestra B.
c) Existe alguna ponderaci
on propia de los datos de la muestra A que permita obtener
una media mayor o igual de 5 o menor o igual de 1?
d ) Obtener una ponderaci
on propia para los datos de la muestra A de tal forma que la
media sea 4. Y an
alogamente para la muestra B.
27. Otras medias. Aunque la media aritmetica es la mas utilizada, existen otras medidas de
tendencia central que pueden resultar interesantes para determinados casos. Otro tipo de
medias lo constituye un grupo denominado -medias que se obtienen aplicando la formula
!
k
X
1

(xi )fi
i=1

para alguna funci


on que sea continua y monotona en el intervalo de valores posibles de
la variable. Las m
as usuales son la media cuadratica, armonica y geometrica que utilizan
la funci
on que se indica:
s
x21 n1 + x22 n2 + ... + x2k nk
Media cuadr
atica
MQ =
(x) = x2
N
Media arm
onica

Media geometrica

N
H = n1 n2
nk
+
+ ... +
x1
x2
xk
q
G = N xn1 1 xn2 2 ...xnk k

(x) =

1
x

(x) = ln(x)

Entre ellas se establece la siguiente relacion:

HGx
MQ
Se pide
a) Comprobar que se verifica la relacion anterior haciendo uso de los datos del ejemplo 1.5
de la p
agina 16
b) Calcular, si es posible, el valor de las cuatro medias anteriores para los valores 2, 6
y 10, y analiza los distintos resultados pensando que esos valores corresponden a las
notas de los tres ex
amenes de una asignatura.

Apuntes de M
etodos Estadsticos para la Computaci
on

48

1.7. Relaci
on de problemas

c) Repetir el apartado anterior con los valores 0, 5 y 10.


d ) Buscar, en la bibliografa, las caractersticas de cada una de estas medias y sus aplicaciones.
e) Definir una nueva -media utilizando la funcion exponencial y alguna funcion trigonometrica. Observaci
on: Las funciones utilizadas han de ser monotonas en el rango
de valores de la variable.
28. Un manera est
andar, para determinar el tiempo que se tarda en realizar un proceso, es
calcular el tiempo medio empleado en cada ejecucion, al realizar un n
umero elevado de
simulaciones. Puede ocurrir que determinadas ejecuciones del procesos caigan en bucles o
tarden un tiempo indeterminado que obliguen a parar el proceso. En estos casos, asignamos
un tiempo infinito a esas ejecuciones del proceso.
a) Indicar los inconvenientes que presentan los posibles indicadores del tiempo empleado:
tiempo medio, mediano, moda, media armonica, cuadratica o geometrica.
b) Elegir el indicador(es) m
as adecuado(s) y aplicarlo(s) a los siguientes tiempos de
ejecuci
on de un proceso: 23, 56, 12, 25, , 22, 23, 26, 23, 39.
29. Datos an
omalos. En ocasiones, hay muestras que contienen observaciones anomalas,
es decir, observaciones que est
an muy alejadas del cuerpo central de los datos. Este tipo
de observaciones se pueden atribuir a varias causas: el dato se observa, se registra o se
introduce incorrectamente; el dato proviene de una poblacion distinta; el dato es correcto
pero representa un suceso poco com
un, etc. Veamos un metodo para detectar posibles
datos anomalos en una muestra utilizando el rango intercuartlico.
Primero se calculan Q1 y Q3 que determinan el rango intercuartlico RQ . A partir de ellos
se obtienen los valores II = Q1 10 5 RQ e IS = Q3 + 10 5 RQ denominados cotas interiores
inferior y superior. Estas cotas se localizan a una distancia de 10 5 RQ por debajo de Q1
en el caso de LI y por encima de Q3 en el caso de IS . Por u
ltimo, se calculan los valores
EI = Q1 3 RQ y ES = Q3 + 3 RQ denominados cotas exteriores inferior y superior.
Estas cotas se localizan a una distancia de 3 RQ por debajo de Q1 en el caso de EI y por
encima de Q3 en el caso de ES . Todo esto queda representado en la figura 1.20.
EI

Q1

II
10 5 RQ

Q3

RQ

IS

ES

10 5 R Q

3 RQ

3 RQ

Figure
1: Intervalo
Intervalo para
anmalos
Figura
1.20:
para detectar
detectardatos
datos
anomalos

Ahora, si los datos caen entre las cotas interiores y exteriores se denominan posibles
valores fuera de intervalo. Si los datos caen fuera de las cotas exteriores se denominan
valores fuera del intervalo muy probables.
Detectar los posibles datos an
omalos de la siguiente muestra del tiempo (en segundos) de
ejecucion de 25 trabajos, en un ordenador.
10 17
00 19

10 61
00 82

10 16
00 47

10 38
20 16

30 53
20 01

10 23 30 76
00 92 00 75

10 94
20 59

00 96
30 07

40 75
10 40

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

00 15

20 41

00 71

00 02

10 59

49

1. Estadstica descriptiva

1.8.

Anexo I: Comandos de R

Comando
x=c(1,2,3,4,5);x
n=c(2,4,6,8,9);n
x=edit(x)
length(x)
ls.str()
ls()
rm(x)

Descripci
on
Introduce y muestra los datos en forma de vector
Introduce y muestra los datos en forma de vector
Edita una variable ya definida
Tama
no del vector de datos
Listar objetos
Listar objetos
Borra el objeto x

Medidas de posici
on
mean(x)
median(x)
max(x);min(x)
quantile(x,0.25)
summary(x)

Media aritmetica
Mediana (Me)
Maximo y Mnimo
Cuantiles
Min,Q1,Me,Media,Q3,Max

Medidas de dispersi
on
range(x)
IQR(x)
var(x)
sd(x)

Rango = Min,Max
Rango intercuartlico
Varianza Muestral o Cuasivarianza (s2 )
Desviacion estandar muestral o CuasiDesviacion tpica (s)

Medidas de la forma
library(fBasics)
skewness(x)
kurtosis(x)

Cargar el paquete fBasics


Coeficiente de asimetra
Coeficiente de apuntamiento g2

Representaciones gr
aficas
barplot(table(x))
barplot(table(x)/length(x))
plot(table(x))
pie(table(x))
hist(x)
hist(x,freq=F)
hist(x,breaks=10)
hist(x,10)
hist(x,breaks=c(1,1.5,3,max(x)))
boxplot(x)
boxplot(x,horizontal=TRUE)
plot(x,n)

Diagrama de rectangulos de frecuencias absolutas


Diagrama de rectangulos de frecuencias relativas
Diagrama de barras de frecuencias absolutas
Diagrama de sectores
Histograma de frec. absolutas
Histograma de frec. relativas
Histograma con 10 puntos de ruptura
Histograma con 10 puntos de ruptura
Histograma con los puntos de ruptura
Diagrama de caja:
min,(Q1-1.5*IQR),Q1,Med,Q3,(Q3+1.5*IQR),max
Grafico de dispersion

Datos categ
oricos
y=c("Si","No","Si","NS/NC","No","Si")
table(y)
barplot(table(y))
barplot(table(y)/length(y))
plot(table(y))
pie(table(y))

Introduce los datos


Genera la tabla de frecuencias absolutas
Diagrama de rectangulos de frecuencias absolutas
Diagrama de rectangulos de frecuencias relativas
Diagrama de barras de frecuencias absolutas
Diagrama de sectores

Apuntes de M
etodos Estadsticos para la Computaci
on

50

1.8. Anexo I: Comandos de R

Definir y calcular otras medidas


Rango
rango = function(x) max(x)-min(x)
rango(x)
Varianza poblacional ( 2 )
varp = function(x) var(x)*(length(x)-1)/length(x)
varp = function(x) sum((x-mean(x))^2)/length(x)
varp(x)
Desviacion Tpica Poblacional ()
sdp = function(x) sqrt(var(x)*(length(x)-1)/length(x))
sdp = function(x) sqrt(sum((x-mean(x))^2)/length(x))
sdp = function(x) sqrt(varp(x))
sdp(x)
Variable tipificada
tipifica = function(x) (x-mean(x))/sqrt(var(x)*(length(x)-1)/length(x))
tipifica = function(x) (x-mean(x))/sdp(x)
tipifica(x)
Coeficiente de variaci
on
CV = function(x) sqrt(var(x)*(length(x)-1)/length(x))/abs(mean(x))
CV(x)
Momentos generales, centrales y ordinarios
momento = function(x,c,r) sum((x-c)^r)/length(x)
momento(x,mean(x),2)
cmomento = function(x,r) sum((x-mean(x))^r)/length(x)
cmomento(x,2)
omomento = function(x,r) sum((x)^r)/length(x)
omomento(x,1)

Tratamiento de datos tabulados


Tabla de frecuencias absolutas y relativas
table(x)
table(x)/length(x)
Media ponderada
weighted.mean(x,n)
Momentos generales, centrales y ordinarios
fmomento = function(x,n,c,r) sum((x-c)^r*n)/sum(n)
fcmomento = function(x,n,r) sum((x-weighted.mean(x,n))^r*n)/sum(n)
fcmomento(x,n,2)
fomomento = function(x,n,r) sum((x^r*n))/sum(n)
fomomento(x,n,1)
Varianza poblaciones ( 2 )
fvarp = function(x,n) sum((x-weighted.mean(x,n))^2*n)/sum(f)
fvarp = function(x,n) fcmomento(x,n,2)
fvarp(x,n)

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

Apuntes de
ESTADISTICA

Regresi
on y correlaci
on

Sixto Sanchez Merino


Dpto. de Matematica Aplicada
Universidad de Malaga

Mi agradecimiento a los profesores Carlos Cerezo Casermeiro y


Carlos Guerrero Garca, por sus correcciones y sugerencias en la
elaboraci
on de estos apuntes.

Apuntes de Estadstica
2011, Sixto Sanchez Merino.
Este trabajo est
a editado con licencia Creative Commons del tipo:
Reconocimiento-No comercial-Compartir bajo la misma licencia 3.0 Espa
na.
Usted es libre de:
copiar, distribuir y comunicar p
ublicamente la obra.
hacer obras derivadas.
Bajo las condiciones siguientes:
Reconocimiento. Debe reconocer los creditos de la obra de la manera especificada
por el autor o el licenciador (pero no de una manera que sugiera que tiene su apoyo
o apoyan el uso que hace de su obra).
No comercial. No puede utilizar esta obra para fines comerciales.
Compartir bajo la misma licencia. Si altera o transforma esta obra, o genera
una obra derivada, s
olo puede distribuir la obra generada bajo una licencia identica
a esta.
Al reutilizar o distribuir la obra, tiene que dejar bien claro los terminos de la licencia de
esta obra.
Alguna de estas condiciones puede no aplicarse si se obtiene el permiso del titular de los
derechos de autor.
Nada en esta licencia menoscaba o restringe los derechos morales del autor.

Captulo 2

Regresi
on y correlaci
on
En el captulo anterior se proporcionan las herramientas para describir una poblacion en
funcion de los datos de una variable obtenidos en una muestra. En este captulo se considera la
observaci
on conjunta de dos caracteres en el individuo. Los pares de datos obtenidos constituyen
muestras de una variable estadstica bidimensional. El objetivo del tema sera describir la poblacion a partir de las variables estudiadas, establecer la posible relacion entre ellas, determinar
un modelo matem
atico que represente dicha relacion y poder cuantificar la bondad de dicho
modelo.

2.1.

Distribuciones bidimensionales

Para el estudio conjunto de dos caracteres de la poblacion, consideraremos la variable X que


presenta las modalidades x1 , x2 , . . . y la variable Y con modalidades y1 , y2 , . . . Los distintos valores que podemos obtener al observar conjuntamente las dos variables constituyen una muestra
de la variable bidimensional (X, Y ). La distribucion de frecuencias de esta nueva variable viene
determinada por las parejas (xi , yj ) de valores observados junto a sus correspondientes frecuencias absolutas (nij ), que indican el n
umero de veces que se repiten dichas parejas. Analogamente
al caso unidimensional, se pueden definir las frecuencias relativas (fij ) que indican la proporci
on
de veces que se repite la pareja de valores (xi , yj ) sobre el total de datos de la muestra. Si N es
el tama
no de la muestra, entonces fij se calcula mediante el cociente nij /N .
Ahora mostramos distintas formas de representar la distribucion de frecuencias haciendo uso
de las tablas y las gr
aficas. La naturaleza de las variables y el tama
no o la variabilidad de los
datos de la muestra determinar
a el procedimiento mas adecuado para su representacion.

2.1.1.

Representaci
on tabular

La distribuci
on de frecuencias de una variable bidimensional se puede mostrar en forma de
tabla que contiene los distintos pares de valores la variable junto a sus frecuencias. Independientemente de la naturaleza discreta o continua de las variables, consideramos tres casos en funci
on
de la cantidad y variedad de datos de la muestra.
Cuando el n
umero de observaciones es peque
no, los valores de las variables se pueden presen-

53

54

2.1. Distribuciones bidimensionales

tar en forma de tabla simple con dos filas (o dos columnas) conteniendo las parejas de valores.
Por ejemplo, la tabla
variable X x1 x2 ... xN
variable Y y1 y2 ... yN
representa los datos de la muestra {(x1 , y1 ), (x2 , y2 ), . . . (xN , yN )} de la variable (X, Y ).
Ejemplo 2.1 Se prueban cinco trozos experimentales de un material aislante bajo diferentes
presiones. A continuaci
on se presentan los valores (P ) de presi
on (en Kg/cm2 ) y las magnitudes (C) de compresi
on resultantes (en mm): (1,1), (2,1), (3,2), (4,2) y (5,4). Representar la
distribuci
on de frecuencias.
Se construye una tabla simple de valores
P 1 2 3 4 5
C 1 1 2 2 4
con los pares de datos de la muestra.

Cuando el n
umero de observaciones es grande, pero corresponden a pocas parejas (modalidades) distintas, los valores de las variables se pueden presentar en forma de tabla simple con
tres filas o columnas conteniendo las parejas de valores y sus frecuencias correspondientes. Por
ejemplo, la tabla de la figura 2.1 representa la distribucion de frecuencias de los datos de una
muestra de tama
no N que contiene k tipos de pares de datos (xi , yi ) observados ni veces cada
uno, con i = 1, 2, . . . k.
variable variable frecuencia frecuencia
X
Y
absoluta
relativa
x1
y1
n1
f1
x2
y2
n2
f2
..
..
..
..
.
.
.
.
yi
ni
fi
xi
..
..
..
..
.
.
.
.
yk
nk
fk
xk
N
1
Figura 2.1: Tabla estadstica de frecuencias

Ejemplo 2.2 Una empresa de software somete a sus programas a determinados controles para
depurar errores durante su desarrollo. El n
umero de controles efectuados disminuye los posibles errores finales pero incrementa los costes de producci
on. Para determinar la influencia de
estas variables se observan conjuntamente el n
umero de controles C efectuados a un software
y el n
umero de errores graves detectados D al finalizar su desarrollo obteniendose la muestra:
(0,0), (0,1), (1,1), (0,1), (1,1), (0,1), (0,1), (1,1), (1,0), (1,0), (1,1), (1,1), (1,1), (0,0), (1,0),
(1,0), (2,1), (1,1), (1,1), (2,1). Utilizar una tabla estadstica para representar la distribuci
on de
frecuencias.

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

55

2. Regresi
on y correlaci
on

Se ordenan los valores de la muestra y se agrupan los que corresponden al mismo par de modalidades. Despues, se construye una tabla donde se representan los distintos pares de valores
junto a su frecuencia absoluta y relativa.
C D ni
0 0 2
0 1 4
1 0 4
1 1 8
2 1 2
20

fi
00 1
00 2
00 2
00 4
00 1

Por ejemplo, la fila 4 indica que hemos observado 8 veces (frec. absoluta) que con 1 control (C)
se detecta 1 error (D), y esto supone el 40 % (frec. relativa) de los casos observados.

Cuando hay un gran n
umero de observaciones y de modalidades distintas, los valores de las
variables se disponen en una tabla de doble entrada, donde los valores de cruce de cada fila y
columna representan la frecuencia de la correspondiente pareja de valores. En la tabla de la
figura 2.2, consideramos la variable X con k modalidades x1 , x2 , . . . , xk y la variable Y con p
modalidades y1 , y2 , . . . , yp .
X\

x1
x2
..
.
xi
..
.

xk

y1 y2
n11 n12
n21 n22
..
..
.
.
ni1 ni2
..
..
.
.
nk1 nk2
n1 n2

...
...
..
.

yj
n1j
n2j
..
.

...
...
..
.

...
..
.
...

nij
..
.

...
..
.
...

nkj
nj

yp
n1p n1
n2p n2
..
..
.
.
nip ni
..
..
.
.
nkp nk
np N

Figura 2.2: Tabla de doble entrada


Las distintas modalidades de las variables X e Y se ordenan en los margenes izquierdo y
superior respectivamente. La frecuencia absoluta del par (xi , yj ) se denomina nij y se sit
ua
en la intersecci
on de la fila y columna correspondiente. Tambien se puede construir otra tabla
estadstica a partir de las frecuencias relativas, sin mas que dividir por N las frecuencias absolutas
de tal manera que
p
k X
X
nij
fij =
siendo
N=
nij
N
i=1 j=1

En el margen derecho de la tabla se sit


uan las frecuencias (ni ) de los valores de la variable X,
que se calculan sumando por filas. En el margen inferior se localizan las frecuencias (nj ) de los
valores de la variable Y , que se calculan sumando por columnas. Como veremos, los valores de las
variables y sus frecuencias, representadas al margen, determinan las distribuciones marginales;
mientras que los valores en interior de la tabla constituyen la denominada distribuci
on conjunta.

Apuntes de M
etodos Estadsticos para la Computaci
on

56

2.1. Distribuciones bidimensionales

Ejemplo 2.3 Representar en tablas de doble entrada las distribuciones de frecuencias absolutas
y relativas para los datos del ejemplo 2.2 de la p
agina 54.
A partir de los datos de la muestra, o de la tabla de frecuencias, construimos la tabla de doble
entrada, situando en el margen izquierdo y superior las distintas modalidades de las variables
X e Y respectivamente, y en el interior de la tabla, se escribe las frecuencias para cada par de
valores.
C D ni
0 0 2
0 1 4
1 0 4
1 1 8
2 1 2
20

fi
00 1
00 2
00 2
00 4
00 1

nij
0
1
2
C

0 1 D
2 4 6
4 8 12
0 2 2
6 14 20

fij
0
1
2
C

0
00 1
00 2
0
00 3

1 D
0 0 2 00 3
0 0 4 00 6
0 0 1 00 1
00 7 1

Observe la tabla estadstica (izquierda), de la que se derivan las dos tablas de doble entrada,
una para las frecuencias absolutas (centro) y otra para las frecuencias relativas (derecha).


Este tipo de representaci


on en forma de tabla de doble entrada tambien se utiliza si estamos
interesados en agrupar los datos en intervalos. En este caso, recuperamos los conceptos de clase,
amplitud y marca, introducidos en el tema anterior.

Ejemplo 2.4 Organizar los siguientes datos de la variable (X, Y ) en una tabla de doble entrada:
(172,63), (170,75), (170,68), (168,70), (175,74), (169,72), (171,67), (169,69), (167,70),
(174,74), (176,71), (170,70), (169,66), (166,60), (178,74), (174,69), (170,65), (169,71),
(171,73), (178,69)
Agrupando los valores de las variables X e Y en intervalos de amplitud 5 construimos la tabla
de doble entrada
Y
[60, 65] (65, 70] (70, 75]
X\
0
0
(1 65, 1 70]
2
6
3
11
0
0
(1 70, 1 75]
1
2
3
6
(10 75, 10 80]
0
1
2
3
3
9
8
20
que contiene las frecuencias absolutas de los intervalos correspondientes.

Como hemos comentado, las tablas simples se utilizan para representar distribuciones de
frecuencias con muchos datos de pocas modalidades distintas. Por el contrario, las tablas de
doble entrada resultan m
as apropiadas para representar distribuciones de frecuencias con muchos
datos pertenecientes a un gran n
umero de modalidades distintas. Sin embargo, en cualquier
caso podemos utilizar indistintamente un tipo u otro de representacion tabular. As, en los
ejemplos 2.2 de la p
agina 54 y 2.3 de la p
agina 55 hemos representado la misma distribucion de
frecuencias utilizando los dos tipos de tablas. Es importante saberlas utilizar indistintamente y
construir una de ellas a partir de la otra.

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

57

2. Regresi
on y correlaci
on

2.1.2.

Representaciones gr
aficas

La representaci
on gr
afica constituye una forma ordenada de presentar la distribucion de
frecuencias. Las representaciones graficas mas importantes para las distribuciones bidimensionales de caracteres cuantitativos son el diagrama de dispersion, el diagrama de frecuencias y el
estereograma.
Diagrama de Dispersi
on. Consiste en la representacion de los distintos pares de valores sobre
unos ejes cartesianos. De esta forma, cada par viene representado por un punto del plano XY
que forman la llamada nube de puntos. La frecuencia de cada par de puntos puede representarse
utilizando distintos tama
nos de puntos.
En la figura 2.3 se muestran dos diagramas de dispersion. El primero representa la nube de
puntos correspondiente a los datos (sin agrupar) del ejemplo 2.4 de la pagina 56 y el segundo
representa los datos del ejemplo 2.2 de la pagina 54 donde el tama
no de los puntos es proporcional
a su frecuencia.
1,5

75

70

0,5
65

60
1,65

0
-0,5
1,70

1,75

1,80

-1

Figura 2.3: Diagramas de dispersion

Diagrama de frecuencias. Este tipo de representacion esta indicado para el caso discreto
y es analogo a los diagramas de barras o puntos en el caso unidimensional. Consiste en una
representaci
on en tres dimensiones donde el plano base corresponde a los valores de las variables
y la altura representa las frecuencias. El resultado es una serie de barras verticales apoyadas
en los puntos del plano XY correspondientes a los valores (xi , yj ) y cuya altura representa la
frecuencia absoluta (nij ) o relativa (fij ) del par.
Este tipo de representaci
on tambien se puede utilizar para representar distribuciones cuando
las variables son cualitativas. En la figura 2.4 se representa mediante un diagrama de frecuencias
los datos del ejemplo 2.2 de la p
agina 54.
8
7
6
5
4
3
2
1

0
0

0
1
2

Figura 2.4: Diagrama de frecuencias

Apuntes de M
etodos Estadsticos para la Computaci
on

58

2.1. Distribuciones bidimensionales

Estereograma. Se utiliza para representar aquellas distribuciones donde los datos se agrupan
en intervalos y equivale al histograma para una variable. Se realiza analogamente al diagrama
de frecuencias utilizando paraleppedos, en vez de barras o puntos, cuya base son las regiones
del plano correspondientes a los intervalos. En este caso, el volumen representa la frecuencia
absoluta o relativa.
En la grafica de la izquierda de la figura 2.3 de la pagina 57 se representaban los datos del
ejemplo 2.4 de la p
agina 56, en forma de nube de puntos. Ahora, en la figura 2.5 se muestran
esos mismos datos, pero agrupados en intervalos.

6
5
4
3
2

(70,75]

(65,70]

[60,65)
[1'65,1'70]

(1'70,1'75]

(1'75,1'80]

Figura 2.5: Estereograma

2.1.3.

Distribuciones Marginales

La distribuci
on de frecuencias bidimensional contiene la informacion conjunta de dos variables. Sin embargo, podemos estar interesados en estudiar una variable de manera aislada, sin
considerar su relaci
on con la otra. En este caso, debemos separar la informacion relativa a
cada variable.
A partir de las distribuciones bidimensionales definimos las distribuciones marginales que
son las distribuciones unidimensionales correspondientes a uno de los caracteres sin considerar
el otro. Para obtenerlas basta con prescindir de la informacion de una de las variables eliminando
los datos correspondientes.
Ejemplo 2.5 Calcular la distribuci
on marginal de la variable C (n
umero de controles efectuados
a un software) del ejemplo 2.2 de la p
agina 54 a partir de su tabla estadstica de frecuencias.
Si eliminamos la columna correspondiente a la variable D y agrupamos las modalidades que
sean iguales,
C D ni
0 0 2
0 1 4
1 0 4
1 1 8
2 1 2
20

fi
00 1
00 2
00 2
00 4
00 1

C
0
0
1
1
2

ni
2
4
4
8
2
20

fi
00 1
00 2
00 2
00 4
00 1

C ni fi
0 6 00 3
1 12 00 6
2 2 00 1
20

el resultado es la distribuci
on de frecuencias unidimensional correspondiente a la variable C 

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

59

2. Regresi
on y correlaci
on

Cuando la distribuci
on se representa en una tabla de doble entrada, las distribuciones marginales aparecen en el margen de la tabla que contiene la suma por filas (o columnas) de los
valores conjuntos de las variables. Para obtener estas distribuciones marginales solo hay que
prescindir de los valores de la variable en el interior de la tabla.
En la tabla de doble entrada de la figura 2.2 de la pagina 55, la distribucion marginal de la
variable X aparecen en el margen derecho de la tabla y cuenta con las modalidades x1 , x2 , ..., xk
cuyas frecuencias absolutas (n1 , n2 , ..., nk ) y relativas (f1 , f2 , ..., fk ) correspondientes a cada
modalidad se calculan sumando por filas:
ni =

p
X

nij

fi =

j=1

ni
N

son las frecuencias marginales del valor xi de la variable X.

Analogamente, en el margen inferior se observa la marginal de la variable Y que toma


los valores y1 , y2 , ..., yp cuyas frecuencias absolutas (n1 , n2 , ..., np ) y relativas (f1 , f2 , ..., fp )
correspondientes a cada modalidad se calculan sumando por columnas:
nj =

k
X

nij

fj =

i=1

nj
N

son las frecuencias marginales del valor yj de la variable Y.

Ejemplo 2.6 Calcular las distribuciones marginales de las variables C (n


umero de controles
efectuados a un software) y D (n
umero de errores graves detectados), a partir de la tabla de
doble entrada del ejemplo 2.3 de la p
agina 55.
Para calcular la distribuci
on marginal de la variable C se eliminan las dos columnas interiores
de la tabla y permanece la columna de la derecha que contiene la suma por filas de los valores
de las columnas eliminadas.
nij
0
1
2
C

0 1 D
2 4 6
4 8 12
0 2 2
6 14 20

C ni fi
0 6 00 3
1 12 00 6
2 2 00 1
20

y para calcular la distribuci


on marginal de la variable D se eliminan las tres filas interiores de
la tabla y permanece la fila inferior que contiene la suma por columnas de los valores de las filas
eliminadas.
nij 0 1 D
D ni fi
0 2 4 6
0 6 00 3
=
1 4 8 12
1 14 00 7
2 0 2 2
20
C 6 14 20
En ambos casos, hemos a
nadido una columna correspondiente a las frecuencias relativas.

2.1.4.

Distribuciones Condicionadas

Al igual que las marginales, las distribuciones condicionadas son tambien distribuciones
unidimensionales. Surgen al considerar solo aquellos valores de la muestra que presentan una
determinada modalidad en una de las variables.

Apuntes de M
etodos Estadsticos para la Computaci
on

60

2.1. Distribuciones bidimensionales

Se llama distribuci
on condicionada del caracter X, respecto a la clase j del caracter Y , y se
denota X/yj , a la distribuci
on unidimensional de la variable X, cuando solo se consideran los
individuos de la clase j de Y .
En la tabla de doble entrada de la figura 2.2 de la pagina 55, la distribucion condicionada del
caracter X, respecto a la clase j del car
acter Y corresponde a la columna j-esima y cuenta con
las modalidades x1 , x2 , ..., xk cuyas frecuencias absolutas (nj1 , nj2 , ..., njk ) aparecen directamente
en la columna j-esima (n1j , n2j , ..., nkj ) de la tabla. Las frecuencias relativas (f1j , f2j , ..., fkj ) correspondientes a cada modalidad se calculan dividiendo las absolutas entre el total de valores
de X con la modalidad j, es decir, nj . Por tanto
nji = nij

fij =

nij
fij
=
nj
fj

i = 1, 2, ..., k

Analogamente se puede definir la distribucion condicionada del caracter Y , respecto a la


modalidad i de X. Esta distribuci
on considera los valores yj con frecuencias:
nij = nij

fji =

nij
fij
=
ni
fi

j = 1, 2, ..., p

Ejemplo 2.7 Determinar la distribuci


on condicionada del car
acter C respecto de la modalidad
1 del car
acter D, a partir de la tabla de doble entrada del ejemplo 2.3 de la p
agina 55.
Para determinar esta distribuci
on condicionada, seleccionamos la segunda columna correspondiente a todos los valores de la variable C que corresponden al valor 1 de la variable D.
nij
0
1
2
C

0 1 D
2 4 6
4 8 12
0 2 2
6 14 20

C
0
1
2

ni
fi
4 4/14
8 8/14
2 2/14
14

Las modalidades de C, junto a sus frecuencias correspondientes, en la columna seleccionada,


constituyen la distribuci
on de frecuencias del caracter C, respecto a la modalidad 1 del caracter
D.


2.1.5.

Distribuciones conjuntas: Momentos mixtos

En este apartado vamos a presentar algunas caractersticas de las distribuciones conjuntas y


su relacion con las distribuciones marginales y condicionadas.
En las tablas de doble entrada, la distribucion conjunta de frecuencias se puede obtener a
partir de las distribuciones de frecuencias marginales y condicionadas seg
un las relaciones
fij =

nij
nij ni
=

= fji fi
N
ni N

o bien

fij =

nij
nij nj
=

= fij fj
N
nj N

A continuaci
on vamos a definir los momentos de una distribucion conjunta que se utilizan para determinar medidas de relaci
on entre las variables. Como veremos, algunos casos particulares
corresponden a las medias y varianzas de las distribuciones marginales.

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

61

2. Regresi
on y correlaci
on

Momentos mixtos. Se define el momento de orden (r, s) respecto al punto (a, b) como
N
X
Mrs (a, b) =
(xi a)r (yi b)s fi

o bien

i=1

p
k X
X
Mrs (a, b) =
(xi a)r (yj b)s fij
i=1 j=1

seg
un consideremos la distribuci
on de frecuencias correspondiente a una tabla simple (figura 2.1
de la pagina 54) o a una tabla de doble entrada (figura 2.2 de la pagina 55).
Ejemplo 2.8 Calcular el momento de orden (2, 3) respecto al punto (0, 1) para la distribuci
on
de frecuencias del ejemplo 2.2 de la p
agina 54.

M23 (0, 1) =
=

2(00)2 (01)3 + 4(00)2 (11)3 + 4(10)2 (01)3 + . . .


=
20
0+04+0+0
4
= = 00 2
20
20


Resultan de especial interes los siguientes dos casos particulares:


Momentos mixtos ordinarios. Si a = b = 0 entonces el momento de orden (r, s) recibe el
nombre de momento ordinario y se denota por
mrs =

N
X
i=1

xri yis fi

o bien

mrs =

p
k X
X
i=1 j=1

xri yjs fij

Ejemplo 2.9 Calcular el momento ordinario de orden (2, 3) para la distribuci


on de frecuencias
del ejemplo 2.2 de la p
agina 54.

m23 =

0+0+0+8+8
16
2 02 03 + 4 02 13 + 4 12 03 + 8 12 13 + 2 22 13
=
=
= 00 8
20
20
20


Momentos mixtos centrales. Si a = x


y b = y entonces el momento de orden (r, s) recibe el
nombre de momento central y se denota por
rs =

N
X
i=1

(xi x
) (yi y) fi

o bien

rs =

p
k X
X
i=1 j=1

(xi x
)r (yj y)s fij

Ejemplo 2.10 Calcular el momento central de orden (2, 3) para la distribuci


on de frecuencias
del ejemplo 2.2 de la p
agina 54.
Para calcular el momento central es necesario disponer de la media de las distribuciones marginales:
0 6 + 1 12 + 2 2
16
0 6 + 1 14
14
c =
=
= 00 8
y
d =
=
= 00 7
20
20
20
20
Apuntes de M
etodos Estadsticos para la Computaci
on

62

2.1. Distribuciones bidimensionales

Despues aplicamos la f
ormula del momento central
23 =
=

2(000 8)2 (000 7)3 + 4(000 8)2 (100 7)3 + 4(100 8)2 (000 7)3 + . . .
=
20
00 43907 + 00 06912 00 01372 + 00 00864 + 00 07776
00 29727
=
= 00 0148635
20
20


Para los momentos centrales y ordinarios, destacamos las siguientes propiedades que muestran su relacion con algunas medidas de posicion (media) y dispersion (varianza y desviacion
tpica) para las distribuciones marginales:
m00 = 1

m10 = x

m01 = y

00 = 1

10 = 0

01 = 0

Como en el caso unidimensional, se puede establecer una relacion entre los momentos centrales y ordinarios. Destacamos las siguientes propiedades que establecen formulas alternativas
para calcular determinadas medidas:
20 = m20 m210

11 = m11 m10 m01

02 = m02 m201

Medias marginales. La media marginal de la variable X corresponde a la medida de tendencia


central media aritmetica de la distribuci
on marginal de la variable X. Analogamente se define
la media marginal de la variable Y y ambas se calculan a partir de los momentos ordinarios:
x
= m10 =

k
X
i=1

xi fi

y = m01 =

p
X
j=1

yj fj

El punto (
x, y) es el punto medio o centro de gravedad de la distribucion.
Ejemplo 2.11 Calcular el centro de gravedad para la distribuci
on de frecuencias del ejemplo 2.2
de la p
agina 54.
0 6 + 1 12 + 2 2
16
0 6 + 1 14
14
=
= 00 8
y
d =
=
= 00 7
20
20
20
20
Por lo tanto, el centro de gravedad de la distribucion es el punto (00 8, 00 7).
c =

Varianzas marginales. La varianza marginal de la variable X corresponde a la medida de


dispersion varianza de la distribuci
on marginal de la variable X. Analogamente se define la
varianza marginal de la variable Y y ambas se calculan a partir de los momentos centrales
x2

= V(X) = 20

k
X
=
(xi x
)2 fi

y2

= V(Y ) = 02 =

i=1

p
X
j=1

(yj y)2 fj

o de los momentos ordinarios, aplicando la propiedad que los relaciona.


Las desviaciones tpicas marginales se definen como la raz cuadrada positiva de las varianzas
marginales correspondientes.

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

63

2. Regresi
on y correlaci
on

Ejemplo 2.12 Calcular la desviaci


on tpica marginal de la variable C en la distribuci
on de
frecuencias del ejemplo 2.2 de la p
agina 54.
c2 =

6 02 + 12 12 + 2 22
00 82 = 1 00 64 = 00 36
20


Covarianza. La covarianza o varianza conjunta es el momento central de orden (1,1)


11 =

p
k X
X
i=1 j=1

(xi x
) (yj y) fij

o bien

11 =

k
X
(xi x
) (yi y) fi
i=1

y se denota por Cov(X, Y ), o bien por xy . Las propiedades que relaciona los momentos centrales
y ordinarios nos permiten obtener una nueva formula para calcular la covarianza: la media de
los productos menos el producto de las medias.
Cov(X, Y ) =

p
k X
X
i=1 j=1

xi yj fij x
y

La covarianza es una medida de la variacion conjunta de las variables y forma parte en la


definicion de los coeficientes que miden la relacion entre esas variables. La covarianza se basa en
las unidades de medida originales de las dos variables X e Y . Por lo tanto, no es posible comparar
la covarianza de distintas distribuciones conjuntas. Si dividimos su formula por el producto de
las desviaciones tpicas de las variables X y Y obtenemos el coeficiente de correlacion lineal de
Pearson
Cov(X, Y )
r=
x y
que es una medida adimensional que permite comparar covarianzas de distintas distribuciones
conjuntas.
Ejemplo 2.13 Calcular la covarianza y el coeficiente de correlaci
on lineal de Pearson para la
distribuci
on de frecuencias del ejemplo 2.2 de la p
agina 54.
En primer lugar, calculamos la covarianza:
Cov(C, D) =

200+401+410+811+221
00 8 00 7 = 00 6 00 56 = 00 04
20

Despues calculamos las desviaciones tpicas marginales


c2 = 00 36

d2 = 00 21

y finalmente aplicamos la f
ormula para obtener el coeficiente de correlacion
r=

Cov(X, Y )
00 04

=
00 145
x y
00 36 00 21


Apuntes de M
etodos Estadsticos para la Computaci
on

64

2.2. Regresi
on y correlaci
on

2.2.

Regresi
on y correlaci
on

En esta secci
on se introducen algunas tecnicas estadsticas que nos permitiran estudiar la
relacion entre dos variables de una misma poblacion o muestra. El interes se centrara en aquellos
casos donde intuimos que existe una relacion entre las variables, pero no somos capaces de
encontrar una funci
on matem
atica que describa esta relacion. Por ejemplo, intuimos que el
peso y la altura de un individuo est
an relacionados, sin embargo, no existe ninguna formula
matematica que nos permita determinan el peso exacto de una persona en funcion de su altura.
El objetivo es encontrar un modelo o funcion matematica que recoja, de la manera mas
acertada, la relaci
on entre dos variables de este tipo. Ademas, cuando hayamos determinado el
modelo, sera necesario proporcionar alguna medida de la bondad de dicho modelo. Por tanto,
hay que resolver dos problemas:
1. Encontrar un modelo que permita relacionar dos variables
2. Determinar el grado de relaci
on entre esas dos variables.
La regresi
on estudia la naturaleza estadstica de la relacion entre dos variables y nos proporciona una modelo de dicha relaci
on. El modelo consiste en una funcion matematica cuya
grafica se aproxima a los datos observados. La funcion encontrada permitira obtener los valores
aproximados de una de las variables a partir de los valores prefijados de la otra variable.
La correlaci
on se encarga de solucionar el segundo problema estableciendo la correspondencia
en las pautas de variaci
on de dos variables. La correlacion cuantifica esta dependencia entre las
variables mediante el c
alculo de los coeficientes de correlacion.
Veamos, en primer lugar, que tipos de relaciones pueden existir entre las variables. En segundo lugar, presentaremos algunos metodos para obtener modelos que determinan la relacion
entre las variables. En tercer lugar, introduciremos medidas que permitan estudiar la bondad de
esos modelos. Y, por u
ltimo, presentaremos, a modo de ejemplo, algunos modelos importantes,
como el modelo lineal.

2.2.1.

Relaci
on entre variables

El objetivo de analizar conjuntamente dos variables diferentes en una misma poblacion o


muestra es estudiar el tipo de relaci
on que hay entre ellas. Seg
un el grado extremo de relacion existente distinguimos tres casos: Si no hay relacion alguna decimos que las variables son
independientes; si, por el contrario, hay una relacion total decimos que las variables dependen
funcionalmente; y en los casos intermedios decimos que las variables mantienen una dependencia
estadstica. Desde el punto de vista estadstico, este u
ltimo caso es el mas interesante pues permite estudiar el grado de dependencia entre las variables, proporcionando un modelo matematico
que explique la relaci
on entre ellas.
Independencia
Cuando no existe relaci
on alguna entre las variables, es decir, ninguna de ellas proporciona
informacion sobre la otra, decimos que existe una independencia entre las variables. En este

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

65

2. Regresi
on y correlaci
on

caso, se dice que las variables son independientes una de la otra. Por ejemplo: la velocidad de
un ordenador y el grosor del papel utilizado en la impresora.
Formalmente la independencia se define as:
1. Se dice que el car
acter X es independiente de Y , si todas las condicionadas de X respecto
a cualquier clase de Y coinciden con la marginal de X, es decir fij = fi para todo j.
2. Analogamente se define la independencia de Y respecto a X si fji = fj para todo i.
Se deduce que si X es independiente de Y , entonces Y es independiente de X y esto ocurre
si y solo si fij = fi fj . En este caso, es facil determinar, a la vista de la tabla de frecuencias, la
independencia de caracteres porque las columnas son proporcionales entre s, al igual que ocurre
con las filas.
Ejemplo 2.14 Comprobar que la siguiente tabla de
independientes.
y1 y2 y3
x1 1 3 2
x2 3 9 6
x3 2 6 4

frecuencias corresponde a dos variables


y4
4
12
8

Se puede observar que las columnas de la tabla son proporcionales: la segunda columna es tres
veces la primera, la tercera es dos veces la primera y la cuarta es cuatro veces la primera.
Si representamos la distribuci
on de frecuencias relativas en forma de tabla de doble entrada

x1
x2
x3

y1
1/60
3/60
2/60
1/10

y2
y3
y4
3/60 2/60 4/60 1/6
9/60 6/60 12/60 3/6
6/60 4/60 8/60 2/6
3/10 2/10 4/10
1

observamos que el producto de las frecuencias de las distribuciones marginales coincide con la
frecuencia correspondiente de la distribucion conjunta. Por ejemplo, f2 f3 = f23 , es decir,
3/6 2/10 = 6/60.
Tambien se puede comprobar que las distribuciones de frecuencias condicionadas y marginal
son iguales. Por ejemplo, en las siguientes tablas calculamos las distribucion de frecuencias de
la variable X condicionada a cualquier modalidad de la variable Y (izquierda) y comprobamos
que todas coinciden y son iguales a la distribucion de frecuencias marginal de la variable X
(derecha).
xi fij
x1 16
x2 36
x3 26

fi1

=
=
=

1
1+3+2
3
1+3+2
2
1+3+2

fi2

=
=
=

3
3+9+6
9
3+9+6
6
3+9+6

fi3

=
=
=

2
2+6+4
6
2+6+4
4
2+6+4

fi4

=
=
=

4
4+12+8
12
4+12+8
8
4+12+8

xi
x1
x2
x3

1
6
3
6
2
6

fi
=
=
=

1+3+2+4
60
3+9+6+12
60
2+6+4+8
60

Analogamente podamos comprobar que se verifica para la variable Y calculando sus frecuencias
condicionadas y marginal.


Apuntes de M
etodos Estadsticos para la Computaci
on

66

2.2. Regresi
on y correlaci
on

Dependencia funcional
En el estudio conjunto de dos variables puede ocurrir que la aparicion de un determinado
valor de una de las variables este perfectamente determinado conociendo el valor de la otra para
esa misma observaci
on. En este caso, decimos que existe una dependencia funcional entre las
variables y podemos establecer un modelo matematico que relaciona ambas variables.
Por ejemplo, si tomamos varias muestras de las longitudes de las circunferencias (L) y sus
radios (R) observamos que los valores de las variables estan relacionados por la formula: L = 2R.
Es decir, existe un modelo matem
atico que me permite calcular el valor que toma la variable L
sin necesidad de observarlo, conociendo el valor correspondiente de la variable R.
A la vista de la tabla de frecuencias es facil determinar la dependencia funcional. Si para cada
modalidad xi de X existe una u
nica modalidad yj de Y tal que nij 6= 0, decimos que la variable Y
depende funcionalmente de la variable X. Esta relacion de dependencia funcional no es recproca,
es decir, si X depende funcionalmente de Y no implica que Y dependa funcionalmente de X.
Por ejemplo: Y = a X 2 donde Y depende de X y no al reves.
Ejemplo 2.15 Comprobar que la siguiente tabla de frecuencias corresponde a dos variables que
dependen funcionalmente. Determinar la dependencia y establecer el modelo matem
atico.

x1
x2
x3
x4

y1 y2 y3 y4 y5
0 0 3 0 0
0 0 0 0 1
0 0 2 0 0
4 0 0 0 0

Como se observa en la tabla, para cada modalidad xi de la variable X existe una u


nica modalidad
yj de la variable Y cuya frecuencia conjunta es distinta de 0. En este caso, decimos que la variable
Y depende funcionalmente de la variable X y se establece el siguiente modelo matematico en
forma de tabla
X x1 x2 x3 x4
Y y3 y5 y3 y1
que permite determinar los valores de Y en funcion de la observacion del valor de X.

Dependencia estadstica
La independencia y la dependencia funcional son dos casos extremos de la relacion entre las
variable cuando esta no existe o es total. Generalmente, cuando se estudian conjuntamente dos
variables para establecer la relaci
on entre ambas surgen los casos intermedios.
Cuando una variable puede dar informacion sobre otra, pero la relacion entre ambas no es
determinista y por tanto no existe o no se conoce una expresion matematica que las relacione,
se dice que existe una dependencia aleatoria o estadstica. Por ejemplo, sabemos que el peso y
la estatura de una persona son dos variables relacionadas y sin embargo no se puede establecer
una formula matem
atica que determine, en todos los casos, el peso de una persona en funcion
de su altura.

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

67

2. Regresi
on y correlaci
on

La dependencia estadstica tambien suele considerarse en aquellos procesos o variables cuya


relacion es determinista pero resulta muy complejo su estudio. Por ejemplo, en el comportamiento atmosferico s
olo intervienen fen
omenos fsicos perfectamente estudiables y sin embargo, su
estudio es intratable cuando pretendemos establecer una prediccion meteorologica. Igual ocurre
con las placas tect
onicas terrestres, aunque su movimiento se rige por leyes fsicas, su complejidad impide la predicci
on exacta de un terremoto. En estos casos, se considera que las variables
presentan una dependencia estadstica y se estudia su relacion a partir de muestras.

2.2.2.

Regresi
on: M
etodo de los mnimos cuadrados

Cuando existe una dependencia estadstica entre variables, el objetivo es encontrar un modelo
o funcion matem
atica que determine, de manera aproximada, la relacion entre las variables
La representaci
on de los datos obtenidos en la muestra de una variable estadstica bidimensional (X, Y ) sobre el plano (diagrama de dispersion) constituye una nube de puntos. Se llama
lnea o curva de regresi
on a la funci
on que mejor se ajusta a esa nube de puntos.
Si todos los valores de la variable satisfacen la ecuacion calculada, se dice que las variables
estan perfectamente correlacionadas o que hay correlaci
on perfecta entre ellas. En general, como
se observa en la figura 2.6, se trata de una lnea ideal en torno a la cual se distribuyen los puntos
de la nube.
Y

Figura 2.6: Nube de puntos y curva de regresion

En la pr
actica, la obtenci
on de esta lnea no es sencilla y, en general, no tiene que tener
una expresi
on matem
atica en forma de ecuacion. Por esta razon, la estadstica se limita a calcular lneas ideales con expresiones matematicas conocidas con formas rectas, parabolicas,
exponenciales, logartmicas, hiperb
olicas, etc.
Cuando dispongamos de la ecuacion de esta curva de regresion podemos utilizarla para
estudiar las caractersticas de la relacion entre las variables y predecir valores desconocidos.
El problema general de la regresion es ajustar una funcion o curva de ecuacion conocida a
la nube de puntos que representa las observaciones de una variable bidimensional (X, Y ). En
primer lugar, hay que determinar que variable es la dependiente, y cual es la independiente.
Despues, y a la vista de la nube de puntos, hay que elegir un tipo de modelo o funcion y = f (x),
que puede ser lineal, cuadr
atico, exponencial, etc., que determina la relacion entre las variables.
El tipo de modelo de regresi
on y = f (x), elegido para ajustar la nube de puntos, depender
a de
una serie de coeficientes o par
ametros. Los metodos de regresion nos permiten calcular los
coeficientes o par
ametros que determinan el modelo que mejor se ajusta a la nube de puntos.

Apuntes de M
etodos Estadsticos para la Computaci
on

68

2.2. Regresi
on y correlaci
on

Por ejemplo, si hemos elegido un modelo lineal de regresion del tipo y = a + bx, el metodo de
regresion nos ayudar
a a calcular los valores de a y b que determinan la recta y = a + bx que
mejor de ajusta a la nube de puntos.
Para poder determinar los coeficientes de un modelo de regresion es necesario disponer de un
mnimo n
umero de puntos. En general, sera necesario que haya tantos puntos como coeficientes
haya que determinar en el modelo. Por ejemplo, si consideramos el modelo lineal y = a + bx,
entonces sera necesario que la nube de puntos tenga, al menos, dos puntos, pues, con un solo
punto habra infinidad de rectas que ajustasen (perfectamente) el modelo y ninguna de ellas
sera mejor que las otras. O, por ejemplo, pensemos en un modelo parabolico y = a + bx + cx2 .
En este caso, ser
a necesario que la nube de puntos tenga mas de tres elementos, pues con un
n
umero menor, por ejemplo dos, hay infinidad de parabolas que pasan por esos dos puntos, y
todas ellas, se ajustan perfectamente a la nube de puntos.
Por lo tanto, y para evitar trivialidades, consideraremos que el n
umero de observaciones
de una variable bidimensional (X, Y ) es mayor o igual al n
umero de coeficientes del modelo
de regresion que deseamos ajustar. Ademas, como veremos en esta seccion, sera necesario que
esos puntos tengan valores distintos de la variable independientes, es decir, que el n
umero de
coeficientes del modelo debe ser menor o igual al n
umero de observaciones con valores distintos
de la variable independiente.

M
etodo de los mnimos cuadrados
El metodo de los mnimos cuadrados permite ajustar modelos de regresion, y consiste en
minimizar las distancias entre el modelo y los puntos correspondientes a los valores observados
en la muestra. Estas distancias reciben el nombre de errores o residuos.
Consideramos una muestra de tama
no N de una variable bidimensional (X, Y ) que toma los
valores (x1 , y1 ), (x2 , y2 ), . . . , (xk , yk ) con frecuencias absolutas n1 , n2 , . . . , nk , y supongamos
que hemos determinado que la variable Y depende de la variable X. Primero, elegimos el modelo
o funcion y = f (x) que depende de ciertos parametros a1 , . . . , am . Despues, a cada valor xi de
la variable X le asignamos un valor te
orico yi = f (xi ) calculado a partir del modelo.
Como se ve en la figura 2.7, las diferencias entre los verdaderos valores yi y los valores yi
estimados por el modelo, a partir de los correspondientes valores xi , determinan los errores
cometidos al utilizar el modelo, que se denotan por ei = (yi yi ).
El objetivo es minimizar los errores, pero hay que tener en cuenta que los valores ei pueden
ser positivos o negativos en funci
on de la posicion relativa del punto (xi , yi ) respecto de la funcion
y = f (x). Por lo tanto, la simple suma de estos errores puede dar una vision equivocada del
ajuste del modelo a la nube de puntos. Por ejemplo, si la suma de los errores es 0, puede ser que
la funcion pase efectivamente por todos los puntos de la nube indicando un ajuste perfecto; o
puede ser tambien que los errores de signo positivo se hayan compensado con los negativos y el
ajuste no sean tan bueno como creamos.
Utilizar los valores absolutos de los errores puede dificultar notablemente los calculos, de
manera que, para evitar estos problemas, utilizaremos los cuadrados de los errores. Y ya estamos
en disposicion de construir una funci
on objetivo F , definida como la suma de los cuadrados de
los errores ei . Esta funci
on s
olo depende de los parametros de la funcion f (x) que hay que

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

69

2. Regresi
on y correlaci
on

y* = f(x)

yi*

ei
yi
xi

Figura 2.7: Metodo de los mnimos cuadrados Y /X

determinar:

F (a1 . . . , am )

k
X
i=1

e2i ni

k
X
i=1

(yi yi )2 ni

k
X
i=1

(yi f (xi ))2 ni

Para calcular el valor de los parametros que minimizan la funcion basta con resolver el
sistema obtenido al igualar a cero las derivadas parciales de F respecto de los parametros de los
que depende f (x), es decir, resolver el sistema: F = 0 donde es el operador gradiente. En
definitiva, el metodo consiste en minimizar la suma de los cuadrados de los errores y de ah su
nombre.
Para explicar el metodo de los mnimos cuadrados hemos considerado que la variable independiente era X. En este caso, los errores se definan como las diferencias entre los valores
observados de la variable Y y los valores estimados seg
un el modelo y = f (x). Si consideramos
que Y es la variable independiente entonces el modelo es de la forma x = g(y) y los errores
se determinan como diferencias de los valores observado y los estimados para la variable X, es
decir, ei = (xi xi ) donde xi = g(yi ) (ver figura 2.8).

Y
yi

x* = g(y)

ei

x*i

xi

Figura 2.8: Metodo de los mnimos cuadrados X/Y

Apuntes de M
etodos Estadsticos para la Computaci
on

70

2.2. Regresi
on y correlaci
on

Curva general de regresi


on
La curva general de regresi
on es un conjunto de puntos que representa a la nube de puntos.
Como veremos, ajustar un modelo de regresion a la nube de puntos, equivale a ajustarlo a la
curva de regresi
on. Este resultado simplificara notablemente los calculos en aquellos ejemplos
cuyos datos se presentan en forma de tabla de doble entrada.
Consideramos la distribuci
on de frecuencias de la variable (X, Y ) que presenta las modalidades (xi , yj ) con frecuencias relativas fij con i = 1, . . . , k y j = 1, . . . , p. Se define la curva
general de regresi
on de Y sobre X como la funcion que asigna, a cada valor xi de la variable
de X, la media yi de la distribuci
on de la variable Y condicionada al valor xi de la variable X.
Con esta definici
on, podemos decir que la curva de regresion est
por los valores
Ppa formada
i Obs
(xi , yi ) con frecuencia relativa fi con i = 1, . . . , k, siendo yi =
y
f
ervese que se
j
j
j=1
podra definir, de manera an
aloga, la curva general de regresionP
de X sobre Y como la funcion
que asigna, a cada valor yj de la variable de Y , la media x
j = ki=1 xi fij de la distribucion de
la variable X condicionada al valor yj de la variable Y .
La importancia de estas curvas radica en la siguiente propiedad de la curva general de
regresion: El problema de ajustar un modelo de regresi
on Y sobre X a la nube de puntos, por el
metodo de los mnimos cuadrados, es equivalente a ajustar dicho modelo a la curva general de
regresi
on, por el metodo de los mnimos cuadrados.
Esta propiedad tiene dos implicaciones inmediatas en el ajuste por mnimos cuadrados. Por
un lado, cuando tengamos un conjunto de observaciones donde algunos puntos tienen el mismo
valor de la variable independiente, podemos simplificar el conjunto de datos. En particular,
cuando tengamos un problema donde la distribucion de frecuencias viene expresada con una
tabla de doble entrada, podemos transformarla en una tabla estadstica de frecuencias. Para
ello, sustituiremos los valores de la variable dependiente por las medias de las distribuciones
condicionadas correspondientes.
En la figura 2.9 se muestra como se transforma la tabla de doble entrada de la distribucion
de frecuencias de la variable (X, Y ), en una tabla de frecuencias donde cada modalidad (xi , yj )
ha sido sustituida por la modalidad (xi , yi ), siendo yi la media de la variable Y /X = xi , para
todo i = 1, . . . , k.
X\

x1
x2
..
.
xi
..
.

xk

y1 y2
n11 n12
n21 n22
..
..
.
.
ni1 ni2
..
..
.
.
nk1 nk2
n1 n2

...
...
..
.

yj
n1j
n2j
..
.

...
...
..
.

...
..
.
...

nij
..
.

...
..
.
...

nkj
nj

yp
n1p n1
n2p n2
..
..
.
.
nip ni
..
..
.
.

nkp nk
np N

xi yi ni
x1 y1 n1
x2 y2 n2
..
..
..
.
.
.
xi yi ni
..
..
..
.
.
.
xk yk nk
N

Figura 2.9: Aplicaci


on de la propiedad de la curva general de regresion
Esta simplificaci
on del conjunto de observaciones no tiene sentido realizarse cuando todos
los puntos tiene distinto valor de la variable independiente. En tal caso, la curva de regresion
coincide con la nube de puntos.

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

71

2. Regresi
on y correlaci
on

Por otro lado, veamos que la propiedad de la curva general de regresion que hemos presentado, tiene otra consecuencia inmediata, para evitar trivialidades, imponiendo una restricci
on
al modelo de regresi
on.
Sabemos que el n
umero de observaciones de una variable bidimensional (X, Y ) debe ser
mayor o igual que el n
umero de coeficientes del modelo de regresion que deseamos ajustar. Pero
seg
un la propiedad de las curvas de regresion, ajustar un modelo a la nube de puntos es igual
que ajustarlo a la curva de regresi
on. Por lo tanto, el n
umero de coeficientes del modelo debe ser
menor o igual al n
umero de puntos de la curva de regresion, es decir, al n
umero de observaciones
con valores distintos de la variable independiente.

2.2.3.

Correlaci
on

La correlaci
on mide el grado de relacion entre las variables, a partir del modelo de regresi
on.
Para ello, se definen medidas que determinan la bondad de dicho modelo.
La aproximaci
on de la curva de regresion a la nube de puntos viene determinada por los
residuos. Las medidas de correlaci
on deben cuantificar la dispersion de los datos en torno al
modelo, es decir, lo cerca o lejos de la curva que estan los puntos. Para ello, sera necesario hacer
un estudio de las varianzas y de los residuos.
En las f
ormulas que vamos a obtener para estas medidas, consideramos una muestra de
tama
no N de una variable (X, Y ) que toma los valores (xi , yi ), con frecuencias absolutas ni , y
relativas fi , respectivamente para todo i = 1, . . . , k.

Varianzas del modelo


En el estudio del modelo general de regresion y = f (x) para las variables X e Y , hemos considerado dos nuevas variables: los valores (E) de los errores o residuos y los valores (Y ) estimados
por el modelo. Para cada pareja de valores (xi , yi ) de la variable (X, Y ) hemos considerado un
valor yi = f (xi ) de la variable Y y un valor ei = yi yi de la variable E.
Vamos a considerar las varianzas de estas variables Y y E, cuyos valores se obtienen a partir
del modelo ajustado. Ambas medidas se utilizan para determinar la bondad del ajuste y, junto
a la varianza de Y , forman parte en la definicion de algunos coeficientes de correlacion.
Se llama varianza explicada a la varianza de los valores estimados yi de la variable Y
y2 =

k
X
i=1

(yi y )2 fi

Se llama varianza residual o varianza no explicada a la varianza de los errores ei de la


variable E
e2 =

k
X
(ei e)2 fi
i=1

siendo

e =

k
X
i= 1

ei fi

ei = yi yi

Y, se llama varianza total a la varianza de la variable dependiente Y .

Apuntes de M
etodos Estadsticos para la Computaci
on

72

2.2. Regresi
on y correlaci
on

Coeficiente de determinaci
on
En el estudio del modelo general de regresion y = f (x) para las variables X e Y , la variable
E (errores o residuos) mide las diferencias entre los valores de la variable Y y los valores de
la variable (Y ) estimados por el modelo. Por lo tanto, se espera que E sea una variable cuya
media debe ser 0, y cuya varianza debe ser peque
na (en comparacion con la de Y ).
Por esta raz
on, se define el coeficiente de determinaci
on como 1 menos el cociente entre la
varianza residual y la varianza de la variable Y , y se denota por R2
R2 = 1

e2
y2

Si el ajuste, mediante la curva de regresion, es bueno, cabe esperar que este coeficiente tome
un valor proximo a 1. De esta manera, el coeficiente de determinacion mide el grado de bondad
del ajuste.

Residuos
Los residuos indican la discrepancia entre el modelo y los datos. Una comparacion entre estos
valores para distintos modelos permite elegir el mas adecuado.
En el metodo de los mnimos cuadrados, se defina la funcion suma de los cuadrados de los
residuos. Esta funci
on dependa de los coeficientes del modelo que se obtenan al ajustar la curva
a la nube de puntos.
Por tanto, a partir del modelo ajustado y = f (x) y de los puntos (xi , yi ) con frecuencias
absolutas ni podemos obtener los residuos ei = yi f (xi ) que son los valores de la variable
E correspondientes al modelo. Si calculamos la suma de los cuadrados de los residuos (sin
promediarlos)
SSE

k
X
i=1

e2i

ni

k
X
i=1

(yi yi )2 ni

obtenemos un coeficiente de correlaci


on que denotamos por SSE (Sum of Squared Errors).
Este coeficiente sirve para comparar la bondad de dos modelos que se ajustan a una misma
nube de puntos. SSE determina los errores cometidos cuando se utilizan los valores estimados
por el modelo en lugar de los verdaderos valores de la variable. Por tanto, el modelo que presente
un menor valor de SEE corresponde al modelo que mejor se aproxima a la nube de puntos.
Veamos que la curva general de regresion que hemos presentado en la pagina 70 tiene una
interesante propiedad de correlaci
on que determina una cota inferior del error que se comete
cuando se ajusta cualquier modelo de regresion.
Consideramos la distribuci
on de frecuencias de la variable (X, Y ) que presenta las modalidades (xi , yj ) con frecuencias absolutas nij con i = 1, . . . , k y j = 1, . . . , p, y sean (xi , yi ) los
puntos que definen la curva general de regresion de Y sobre X. Entonces se verifica que el valor
del coeficiente SSE de cualquier modelo de regresion y = f (x) es mayor o igual que el valor del

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

73

2. Regresi
on y correlaci
on

coeficiente SSE de la curva general de regresion Y /X, es decir,


p
k X
X
i=1 j=1

(yj yi ) nij

p
k X
X
(yj f (xi ))2 nij
i=1 j=1

Por lo tanto, la expresi


on del primer miembro de la ecuacion, determina una cota inferior del
error que se comete cuando se ajusta cualquier modelo de regresion. Sin embargo, si todos los
valores de la variable independiente son distintos, entonces la cota que determina la curva general
de regresi
on es trivial, pues vale 0.

2.3.

El modelo lineal

Sea {(x1 , y1 ), (x2 , y2 ), . . . , (xN , yN )} una muestra de la variable estadstica bidimensional


(X, Y ). Para simplificar las f
ormulas, hemos considerado que todas las modalidades presentan
frecuencia absoluta igual a uno; en otro caso, los distintos valores apareceran multiplicados por
su frecuencia absoluta correspondiente.
Nuestro objetivo ser
a encontrar un modelo lineal que se ajuste a la nube de puntos y un
coeficiente que determine el grado de aproximacion del modelo a los datos.

2.3.1.

Regresi
on lineal

El modelo lineal que mejor se aproxima a la nube de puntos recibe el nombre de recta de
regresi
on de Y sobre X. Este modelo de ecuacion Y = a + b X queda determinado conociendo
los valores de los par
ametros a y b. Aplicando el metodo de los mnimos cuadrados se obtienen
formulas que permitan calcular estos parametros en funcion de los datos de la muestra.
A cada valor xi de la variable X le corresponde un valor yi de la variable Y . Sin embargo, la
recta de regresi
on le asigna a xi el valor estimado yi = f (xi ) = a + bxi . Por tanto, la diferencia
(tambien llamada error o residuo) entre el valor teorico ajustado y el valor real es
ei = yi yi = yi a bxi
Aplicando el metodo de los mnimos cuadrados, imponemos la condicion de que la suma de
los errores al cuadrado sea mnima. Para ello, minimizamos la funcion
F (a, b) =

N
X
i=1

e2i =

N
X
(yi a bxi )2
i=1

donde xi e yi son datos del problema.


Ahora, los puntos crticos de la funcion F , que resultan ser mnimos1 , se obtienen resolviendo
la ecuacion F (a, b) = 0.
1

En el ejercicio 35 de la p
agina 96 se propone la demostraci
on de este resultado

Apuntes de M
etodos Estadsticos para la Computaci
on

74

2.3. El modelo lineal

=0

=0
b

N
X

2
(yi a bxi )

i=1

=0

2
xi (yi a bxi ) = 0

i=1

N
X

yi

i=1

= aN

+ b

N
X
i=1

xi

N
N
N

X
X
X

x
y
=
a
x
+
b
x2i
i i
i

i=1

i=1

i=1

El sistema anterior recibe el nombre de sistema de ecuaciones normales que expresado en


forma matricial resulta:

N

X
X
xi
yi
N

i=1
i=1

N
N
N
X

X
X

2
b
xi
xi
xi yi
i=1

i=1

i=1

Resolviendo el sistema se obtienen los siguientes resultados:


N
b=

N
X
i=1

xi yi

N
X
i=1

N
X
i=1

x2i

xi

N
X
i=1

N
X

yi

i=1
!2

1
a=
N

xi

N
X
i=1

yi b

N
X
i=1

xi

Si se divide el numerador y el denominador de la expresion de b por N 2 y se observa la


expresion obtenida para a tenemos
b=

Cov(X, Y )
x2

a = y b
x

Por tanto, la ecuaci


on de la recta de regresi
on de Y sobre X (Y /X) es
(Y y) =

Cov(X, Y )
(X x
)
x2

Si consideramos que Y es la variable independiente y X la dependiente, entonces la ecuacion


del modelo lineal es X = a + bY . Para ajustar el modelo a la nube de puntos, aplicamos el
metodo de los mnimos cuadrados y obtenemos la recta de regresion de X sobre Y (X/Y ) que
es
Cov(X, Y )
(X x
) =
(Y y)
y2
Como podemos observar, las dos rectas de regresion obtenidas pasan y se cortan en el punto
del plano correspondiente al centro de gravedad (
x, y).
En este punto, hay que hacer una observacion importante sobre las rectas de regresion Y /X
y X/Y . Desde el punto de vista matem
atico, las dos rectas son distintas pues, en general, si en

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

75

2. Regresi
on y correlaci
on

la recta de regresi
on Y /X despejamos la variable X en funcion de la variable Y , no se obtiene
la recta de regresi
on de X/Y , y viceversa.
Los modelos de regresi
on permiten predecir los valores de la variable dependiente en funcion de los valores de la variable independiente. As, la recta de regresion de Y /X determina los
valores de Y en funci
on de los valores de X, y por lo tanto, si deseamos utilizar un modelo lineal
para calcular un valor de X en funcion de uno de Y , no podemos utilizar el modelo lineal Y /X.
En este caso ser
a necesario calcular la recta de regresion X/Y .
Ejemplo 2.16 En el ejemplo 2.2 de la p
agina 54 se consideran las variables n
umero de controles efectuados (C) y n
umero de errores detectados (D) en programas de software. Determinar
la variable dependiente y calcular la recta de regresi
on para los datos de la muestra.
Evidentemente, el n
umero de errores detectados (variable D) depende del n
umero de controles
efectuados (variable C), y por lo tanto, consideramos el modelo lineal D = a + bC. Veamos tres
formas de calcular los valores de a y b, que determinan el modelo.
1. Resolviendo el sistema de ecuaciones normales:
X
X
di ni
= aN
+ b
ci ni
X
X
X
ci di ni = a
ci ni + b
c2i ni
y, para ello, resulta u
til considerar la siguiente tabla estadstica
ci di
0 0
0 1
1 0
1 1
2 1

ni ci ni c2i ni di ni ci di ni
2
0
0
0
0
4
0
0
4
0
4
4
4
0
0
8
8
8
8
8
2
4
8
2
4
20 16
20
14
12

que determina el sistema de ecuaciones


14 = 20a + 16b
12 = 16a + 20b
cuya soluci
on es a =

11
1
00 611 y b = 00 111.
18
9

2. Aplicando las f
ormulas
b=

Cov(X, Y )
x2

a = y b
x

a las variables y datos de nuestro ejemplo, siendo X = C e Y = D,


Cov(C, D)
00 04
1
=
= 00 111
2
0
0 36
9
C
1
bC = 00 7 00 8 = 11 00 611
a = D
9
18
b =

tambien obtenemos esos mismos valores para los coeficientes a y b del modelo.

Apuntes de M
etodos Estadsticos para la Computaci
on

76

2.3. El modelo lineal

3. Calculamos la curva general de regresion:


nij
0
1
2
C

0 1 D
2 4 6
4 8 12
0 2 2
6 14 20

ci di ni
0 2/3 6
1 2/3 12
2
1
2
20

Aplicando la propiedad de la curva general de regresion, si ajustamos el modelo lineal de


regresion a esta distribuci
on de frecuencias, obtenemos la misma recta que en los casos
anteriores.
Independientemente del metodo usado, la recta de regresion de D/C es el siguiente modelo
lineal que relaciona ambas variables:
D=

11 1
+ C
18 9

En la figura 2.10 se representa la nube de puntos (puntos azules) y la curva general de


regresion (cruces en rojo), cada una de ellas con un n
umero que indica su frecuencia absoluta.
Ademas, se representa la recta de regresi
on (lnea discontinua) que se ajusta a estos datos.

Figura 2.10: Ajuste lineal


Observese que este modelo me permite predecir el valor de D en funcion del valor de C.
Por ejemplo, cuando se realicen C = 5 controles, se espera que se detecten D = 7/6 10 167
errores.
Sin embargo, este modelo, no se debe utilizar para predecir el valor de C, en funcion de D,
aunque, matem
aticamente, si sea posible. En ese caso, habra que utilizar la recta de regresion
C/D.


2.3.2.

Correlaci
on lineal

Una vez visto el problema de regresi


on o estimaci
on de una variable, se vera ahora el problema de la correlaci
on, o grado de interconexion entre variables. Se pretende determinar con
que precision se describe o explica la relacion entre variables en una ecuacion lineal.

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

77

2. Regresi
on y correlaci
on

Coeficientes de regresi
on y correlaci
on lineal
Dada una variable bidimensional (X, Y ), podemos obtener dos rectas de regresion: la de Y
sobre X y la de X sobre Y . Para cada una de estas recta definimos el coeficiente de regresi
on
lineal como
Cov(X, Y )
Cov(X, Y )
by/x =
y
bx/y =
2
x
y2
siendo by/x el coeficiente de regresi
on de la recta de regresion Y /X y bx/y de la recta de regresi
on
de X/Y .
Estos coeficientes tienen el mismo signo y estan estrechamente relacionados con las pendientes
de las rectas. Por ello, los valores que toman determinan el crecimiento, decrecimiento, horizontalidad o verticalidad de las rectas de regresion. Por ejemplo, si by/x es un n
umero positivo,
entonces la recta de regresi
on de Y sobre X es creciente e indica que aumenta la variable Y al
aumentar la X.
Las pendientes de las rectas son:
my/x = by/x =

Cov(X, Y )
x2

mx/y =

1
bx/y

y2
Cov(X, Y )

siendo my/x la pendiente de la recta de regresion Y /X y mx/y de la recta de regresion X/Y .


Ejemplo 2.17 Calcular los coeficientes de regresi
on lineal para las variables del ejemplo 2.2 de
la p
agina 54.
Sabiendo que Cov(C, D) = 00 04, c2 = 00 36 y d2 = 00 21, aplicamos la formula que se deduce de
la definici
on:
bd/c =

Cov(C, D)
00 04
1
=
= 00 111 ,
c2
00 36
9

bc/d =

00 04
Cov(C, D)
4
= 0 =
00 1905
2
0 21
21
d


Coeficiente de correlaci
on lineal
Siempre que los datos tiendan a agruparse en torno a una lnea recta se puede afirmar que
existe correlaci
on lineal o dependencia de tipo lineal. Ademas, distinguimos dos tipos:
Si la recta tiene pendiente positiva, la correlacion o dependencia lineal es directa, es decir,
incrementos positivos de una variable implican aumentos en la otra.
Si la recta tiene pendiente negativa, la correlacion o dependencia lineal es inversa, es decir,
al aumentar una variable disminuye la otra.
El an
alisis de correlaci
on consiste en determinar un n
umero que permita conocer cual es el
grado de asociaci
on entre las variables y en que sentido (directa o inversamente). Por esta raz
on
se introduce el concepto de coeficiente de correlacion lineal de Pearson.
El coeficiente de correlaci
on lineal de Pearson es una medida que se solo de define para
el modelo lineal, y que determina el grado de ajuste entre una nube de puntos y la recta de

Apuntes de M
etodos Estadsticos para la Computaci
on

78

2.3. El modelo lineal

regresion correspondiente. Este coeficiente es adimensional, se denota por r o y viene definido


por la media geometrica de los coeficientes de regresion lineal:
r==

Cov(X, Y )
x y

1r 1

Observese que este coeficiente no puede calcularse si alguna de las variables es degenerada, es
decir, toma un u
nico valor. En ese caso, como la desviacion tpica de la variable degenerada es
siempre 0, la definici
on anterior carece de sentido.
El coeficiente de correlaci
on lineal resulta ser siempre un n
umero en el intervalo [1, 1] con
las siguientes interpretaciones2 en funci
on a su valor y su signo:
El signo de este indicador va a coincidir con el de la covarianza pues las desviaciones de
las variables son siempre positivas. De esta manera
Si r > 0 entonces la relaci
on entre las variables es directa.
Si r < 0 entonces la relaci
on entre las variables es inversa.
El valor del coeficiente determina el grado de ajuste de la recta. De esta manera
Si r = 1
o r = 1 entonces la correlacion es perfecta e indica que existe una
dependencia funcional entre las variables. En este caso, los datos representados en la
nube de puntos est
an situados sobre una recta, que resulta ser la recta de regresion
Y /X y que coincide con la de X/Y .
Si r = 0 entonces las rectas de regresion son paralelas a los ejes (y = y y x = x
), y
se dice que las variables est
an linealmente incorreladas.
Los valores intermedios determinan los grados intermedios de ajustes. Cuanto mas
cerca de 1
o -1 este el valor de r la correlacion sera mas fuerte, mientras que valores
proximos a 0 indican una correlacion debil.
El coeficiente r que hemos definido, resulta ser una medida objetiva de correlacion lineal
entre dos variables, en el sentido de que no depende de la escala de medicion utilizada, es decir,
es adimensional. Sin embargo, es importante tener en cuenta que solo tiene sentido definir este
coeficiente en el caso lineal.
Ejemplo 2.18 Determinar e interpretar el valor del coeficiente de correlaci
on lineal de Pearson
para los datos del ejemplo 2.2 de la p
agina 54.
Sabiendo que Cov(C, D) = 00 04, c2 = 00 36 y d2 = 00 21, aplicamos la definicion y obtenemos:
r=

Cov(C, D)
00 04

=
00 1455
c d
00 36 00 21

Que el valor de r sea positivo, indica que la relacion entre las variables es directa, es decir, que
D aumenta, cuando aumenta C. Adem
as, el hecho de que el valor de |r| este mas proximo a 0
que a 1, indica que la correlaci
on entre las variables es debil, es decir, que no hay mucha relacion
lineal entre ellas.

2

Que r [1, 1] es consecuencia de la expresi


on e2 = y2 (1 r2 ) 0 que se deduce en el caso lineal; y la
2
interpretaci
on de los posibles valores de r es consecuencia de la f
ormula r2 = 1 e2 que se deriva de la expresi
on
y
anterior.

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

79

2. Regresi
on y correlaci
on

El coeficiente de correlaci
on lineal permite establecer una relacion entre las pendientes de la
recta de regresi
on Y /X y la recta de regresion X/Y para un mismo conjunto de datos.
Si multiplicamos el numerador y denominador de my/x por y y el de mx/y por x
obtenemos
my/x =

y
Cov(X, Y ) y

=r
x2
y
x

mx/y =

y2
x
1 y

=
Cov(X, Y ) x
r x

siendo r el coeficiente de correlaci


on lineal. Como el valor de r es siempre un n
umero comprendido
entre -1 y 1, se puede establecer la siguiente relacion entre las pendientes de las rectas de regresi
on
|my/x | |mx/y |
Esta relaci
on permite determinar cual de las dos rectas de regresion es la de Y sobre X y cu
al
es la de X sobre Y comparando, simplemente, sus pendientes.
Ejemplo 2.19 Sean y = 4x 7 e y = x 1 las rectas de regresi
on de las variables X e Y
cuya covarianza es 9. Calcular las medias y las varianzas de las variables X e Y y determinar
el coeficiente de correlaci
on lineal de Pearson.
Como las dos rectas de regresi
on pasan por el punto (
x, y), basta resolver el sistema de ecuaciones
formado por las dos rectas para obtener el valor de x
y y que resulta ser 2 y 1, respectivamente.
Para obtener el resto de las medidas es necesario determinar cual de las dos rectas es la
Y /X, y cual es la X/Y . Para ello, utilizamos la relacion que se establece entre sus pendientes:
|my/x | |mx/y |. Por lo tanto, y = x 1 es la recta de regresion Y /X, e y = 4x 7 es la recta
de regresi
on X/Y .
Como la covarianza es 9, y sabemos que my/x = Cov(X, Y )/x2 = 1, entonces se deduce que
alogamente, como sabemos que mx/y = y2 /Cov(X, Y ) = 4, entonces se deduce
x2 = 9. Y, an
2
que y = 36.
Finalmente, para calcular el coeficiente de correlacion lineal, aplicamos su definicion:
r=

Cov(X, Y )
9
9
= =
= 00 5
x y
18
9 36

Descomposici
on de la varianza
Las caractersticas del modelo lineal permiten expresar la varianza de la variable Y (varianza total), como suma de las varianzas residual y explicada. Esta formula se conoce como
descomposici
on de la varianza.
Consideramos una muestra de tama
no N de una variable (X, Y ) que toma los valores (xi , yi )
con frecuencias relativas fi para todo i = 1, . . . , k; y consideramos el modelo lineal de regresi
on
y = a + bx que determina las variables Y , que toma los valores yi = a + bxi con frecuencias
relativas fi para todo i = 1, . . . , k, y la variable E, que toma los valores ei = yi yi con
frecuencias relativas fi para todo i = 1, . . . , k.
Para el modelo lineal, como consecuencia de la primera ecuacion normal, se verifican las
siguientes propiedades:

Apuntes de M
etodos Estadsticos para la Computaci
on

80

2.3. El modelo lineal

(p1) Las medias de las variables Y e Y son iguales, es decir, y = y .


(p2) La suma de los residuos es cero y, por lo tanto, la media es cero, es decir, e =

n
X
i=1

ei fi = 0.

Con estas propiedades podemos simplificar la formula de la varianza residual


e2 =

k
X
i=1

(p1)

(ei e)2 fi =

k
X
i=1

e2i fi =

k
X
i=1

(yi yi )2 fi

y obtener una f
ormula que relaciona las varianzas del modelo con la varianza total.
y2 = y2 + e2
Ejemplo 2.20 Calcular las varianzas residual y explicada para el modelo lineal calculado en el
ejemplo 2.16 de la p
agina 75 y comprobar que la varianza marginal de la variable D es la suma
de las varianzas del modelo.
Para calcular las varianzas del modelo, necesitamos obtener las distribuciones de frecuencias de
las variables D , que representa los valores estimados por el modelo, y E, que representa los
residuos. Las distribuciones de ambas variables se obtienen a partir del modelo ajustado:
D=

11 1
+ C
18 9

La varianza explicada es la varianza de la variable D que toma los valores di = f (ci ) con
las frecuencias absolutas de las modalidades ci de la variable C:
C ni fi
D
0 6 00 3 11/18
1 12 00 6 13/18
2 2 00 1 15/18
y, por lo tanto, la varianza explicada toma el valor d2 =

4
00 0044.
900

La varianza residual es la varianza de la variable E que toma los valores eij = dj f (ci )
con las frecuencias absolutas nij de las modalidades (ci , dj ) de la variable (C, D):
eij
c1 = 0
c2 = 1
c3 = 2

d1 = 0 d2 = 1
11/18 7/18
13/18 5/18
15/18 3/18

nij
c1 = 0
c2 = 1
c3 = 2

con frecuencias

y, por lo tanto, la varianza residual toma el valor e2 =

d1 = 0 d2 = 1
2
4
4
8
0
2

185
00 2056.
900

Si comparamos estas dos varianzas, con la varianza de la variable E, obtenemos la siguiente


relacion:
4
185
189
21
e2 + e2 =
+
=
=
= d2
900 900
900
100
que es una caracterstica del modelo lineal de regresion.


Dpto. Matem
atica Aplicada (Universidad de M
alaga)

81

2. Regresi
on y correlaci
on

La descomposici
on de la varianza permite, en el caso lineal, definir el coeficiente de determinacion (R2 ) como el cociente entre la varianza explicada y la varianza total
R2 = 1

y2
y2 e2
e2
=
=
y2
y2
y2

con

0 R2 1

Adem
as, s
olo en el caso lineal, donde tiene sentido calcular el coeficiente de correlacion lineal
(r), se verifica la siguiente relaci
on entre los coeficientes de correlacion y determinacion
R2 = r 2
Observese que el 2 que hay sobre r indica una potencia (elevar al cuadrado), mientras que el 2
de la expresi
on R2 es simplemente un smbolo (notacion), pues no se define lo que significa R.
El valor de R2 , en el caso lineal, siempre es un n
umero en el intervalo [0, 1], de manera que
si R2 esta pr
oximo a 1 significa que el ajuste es bueno mientras que un valor de R2 proximo
a 0 indica que el modelo no es el adecuado.
Ejemplo 2.21 Calcular el coeficiente de determinaci
on para el modelo lineal calculado en el
ejemplo 2.16 de la p
agina 75 y determinar la bondad del ajuste.
Sabiendo los valores de las varianzas, d2 =
variable E (residuos), aplicamos la formula
R2 = 1

189
185
= 00 21 de la variable D, y e2 =
de la
900
900

185/900
185
4
=1
=
00 0212
189/900
189
189

y obtenemos el valor del coeficiente de determinacion que, al ser proximo a 0, indica que la
correlacion entre las variables C y D es debil, es decir, que no hay mucha relacion entre ellas.
Otra forma m
as sencilla de calcular este coeficiente es aplicando la formula que lo relaciona
con el coeficiente de correlaci
on lineal
R2 = r 2 =

Cov(C, D)2
00 042
00 0016
=
=
00 0212
00 36 00 21
00 0756
c2 d2


2.4.

Modelos de regresi
on no lineal

El modelo de regresi
on lineal que hemos estudiado es el mas utilizado habitualmente. Sin
embargo, la forma de la nube de puntos puede sugerir la consideracion de otros modelos de
regresion. Como veremos, en general, recurriremos al metodo de los mnimos cuadrados para
ajustar el modelo y determinar el valor de los coeficientes. Sin embargo, hay algunos modelos
que se pueden reducir al caso lineal, aplicando alguna transformacion algebraica, y utilizar las
formulas obtenidas antes.

Apuntes de M
etodos Estadsticos para la Computaci
on

82

2.4. Modelos de regresi


on no lineal

2.4.1.

Linealizaci
on de modelos

En muchos casos, los modelos de regresion utilizados pueden reducirse al caso lineal que
hemos estudiado. Para ello, se realizan algunas transformaciones algebraicas y se determina
un cambio de variables. Para obtener el nuevo modelo se aplican los cambios de las variables,
transformando todas las modalidades.
Por ejemplo, a partir del modelo y = a bx y aplicando logaritmos neperianos
y = a bx

ln(y) = ln(a) + ln(b) x

Y =A+BX

y podemos considerar el modelo lineal Y = A + B X donde


Y = ln(y)

X=x

A = ln(a)

B = ln(b)

Ahora, aplicamos a y el cambio de variable, transformando todas sus modalidades. En este


caso, las modalidades de la nueva variable Y se obtiene calculando el logaritmo neperiano de
las modalidades de la variable y. Por u
ltimo, ajustamos la nueva nube de puntos a la recta para
obtener los valores de A y B y poder calcular los coeficientes a y b del modelo original
a = eA

b = eB

Observese que para aplicar esta reducci


on al caso lineal, es necesario que todos los valores de y
sean positivos, pues estamos considerando su logaritmo.
Ejemplo 2.22 Ajustar el modelo y = a ebx a los siguientes datos:
Variable X
Variable Y

1
45

2
65

3
100

4
150

5
220

Si aplicamos logaritmos neperianos al modelo y = a ebx obtenemos


y = a ebx

ln(y) = ln(a) + b x

Y =A+BX

y podemos considerar el modelo lineal Y = A + B X donde


Y = ln(y)

X=x

A = ln(a)

B=b

Si aplicamos estas transformaciones a los valores de las variables, obtenemos la siguiente tabla:
Nueva variable X = x
Nueva variable Y = ln y

1
1504

2
1872

3
2303

4
2708

5
3091

Para estos datos, calculamos la recta de regresion Y /X que resulta ser y = 10 0925 + 00 401x. Y
0
deshaciendo los cambios de variable, obtenemos que a = eA = e1 0925 = 00 272 y b = B = 00 401.
Por lo tanto, el modelo modelo ajustado es
0

y = 00 272 e0 401x


Dpto. Matem
atica Aplicada (Universidad de M
alaga)

83

2. Regresi
on y correlaci
on

2.4.2.

Ajuste parab
olico

Consideramos una muestra {(x1 , y1 ), (x2 , y2 ), . . . , (xN , yN )} de una variable bidimensional


(X, Y ). Nuestro objetivo es ajustar una funcion del tipo
y = a + bx + cx2
Aplicando el metodo de los mnimos cuadrados, obtenemos la funcion
F (a, b, c) =

N
X

e2i

i=1

N
X
=
(yi a bxi cx2i )2
i=1

La soluci
on del problema pasa por minimizar la funcion F (a, b, c) para determinar los valores
de a, b y c. Para ellos, se resuelve el siguiente sistema de ecuaciones normales
N

N
N
X
X
X

y
=
aN
+b
x
+c
x

i
i
i

=
0
i=1
i=1
i=1

N
N
N
n

X
X
X
F
2
3

x
y
=
a
x
+b
x
+c
x
=0
i i
i
i
i

i=1
i=1
i=1
i=1

N
N
N
n
=0

X
X
X
X

2
2
3
4

x i yi = a
xi +b
xi +c
xi

i=1

i=1

i=1

i=1

que escrito en forma matricial resulta

N
N
N

X
X
X
xi
x2i
yi
N

i=1
i=1
i=1


N
N
N
N
X
X
X
X


xi
x2i
x3i b =
x i yi


i=1
i=1
i=1
i=1
X
X
N
N
N
N
X
X

2
3
4
c
xi
xi
xi
x2i yi
i=1

i=1

i=1

i=1

Este resultado se puede generalizar (observar la estructura y disposicion de los elementos de


las matrices en el caso polin
omico) para ajustar un modelo polinomico de cualquier grado. De
manera que el sistema de ecuaciones normales, para el modelo polinomico general
y = a0 + a1 x + a2 x2 + . . . + an xn
expresado en forma matricial es
P
P 2

N
x
x
P
P 2i
P i3

x
x
x
P i
P i3
P i4
2

xi
xi
xi

..
..
..
.
.
.
P n P n+1 P n+2
xi
xi
xi

P n
...
xi
P n+1
...
xi
P n+2
...
xi
..
..
.
.
P 2n
...
xi

a0
a1
a2
..
.
an

P
P yi
P x2i yi
x i yi
..
P .n
x i yi

cuya soluci
on nos permite obtener los valores de los n + 1 parametros a0 , a1 , . . . , an .

Apuntes de M
etodos Estadsticos para la Computaci
on

84

2.4. Modelos de regresi


on no lineal

Ejemplo 2.23 Ajustar el modelo parab


olico D = a + b C + c C 2 a los datos del ejemplo 2.2
de la p
agina 54.
Consideremos la tabla estadstica de la distribucion de frecuencias de las variables C y D, a la
que hemos a
nadido una serie de columnas que nos resultaran u
tiles.
ci di
0 0
0 1
1 0
1 1
2 1
Con los valores de
P
d

P i
ci di

P 2
ci di

ni ci ni c2i ni c3i ni c4i ni di ni ci di ni c2i di ni


2
0
0
0
0
0
0
0
4
0
0
0
0
4
0
0
4
4
4
4
4
0
0
0
8
8
8
8
8
8
8
8
2
4
8
16
32
2
4
8
20 16
20
28
44
14
12
16

la tabla, podemos construir el


P
P
= aN
+b ci +c c2i
P
P
P
= a ci +b c2i +c c3i
P
P
P
= c c2i +b c3i +c c4i

siguiente sistema

14 =

12 =

16 =

de ecuaciones lineales:

20a + 16b + 20c

16a + 20b + 28c

20a + 28b + 44c

1
1
2
cuya solucion, determina los valores de los parametros a = , b = y c = , y por tanto, el
3
6
6
modelo que buscamos es:
2 1
1
D = C + C2
3 6
6
En la figura 2.11 se representa la nube de puntos (puntos azules) y la curva general de
regresion (cruces en rojo), cada una de ellas con un n
umero que indica su frecuencia absoluta.
Ademas, se representa la par
abola de regresion (lnea discontinua) que se ajusta a estos datos.

Figura 2.11: Ajuste parabolico


En este ejemplo, podamos haber utilizado la curva general de regresion para ajustar el
modelo parabolico y haber obtenido el mismo resultado. Como se observa en la figura, el modelo
de regresion pasa exactamente por los puntos de la curva general de regresion, lo que supone
que el ajuste es perfecto en el sentido de que los errores cometidos con cualquier otro modelo
sera siempre mayores.
Y todo esto ocurre porque el n
umero de puntos distintos de la curva general de regresion
(que es tres) coincide con el n
umero de coeficientes del modelo (que tambien es tres por ser un
modelo parabolico completo), en virtud de las propiedades de la curva general de regresion.

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

85

2. Regresi
on y correlaci
on

Si aplicamos el metodo de los mnimos cuadrados para ajustar cualquier otro modelo de
regresion con m
as de tres coeficientes (por ejemplo un modelo c
ubico completo) dara lugar a un
sistema de ecuaciones normales compatible indeterminado, pues existiran infinidad de modelos
(por ejemplo, infinidad de polinomios de grado 3) que se ajustan perfectamente a la nube de
puntos, en el sentido de que, todo ellos, pasan por todos los puntos de la curva general de
regresion.


2.4.3.

Otros ajustes

En general, para ajustar un modelo de regresion, utilizaremos el metodo de los mnimos


cuadrados descrito en la secci
on 2.2.2. Este metodo que ya hemos usado para determinar el
modelo lineal y el polin
omico, se resume en los siguientes pasos:
1. Consideramos el conjunto de datos {(x1 , y1 ), (x2 , y2 ), . . . , (xN , yN )}.
2. Representamos la nube de puntos para determinar que modelo resulta mas adecuado.
3. Si el modelo es f (x) y depende de los parametros a1 , a2 , . . . , an , entonces consideramos la
funci
on
N
X
F (a1 , a2 , . . . , an ) =
(yi f (xi ))2
i=1

4. Calculamos todas las derivadas parciales de la funcion F y las igualamos a 0 para obtener
el sistema de ecuaciones normales.
5. Al resolver este sistema obtenemos el valor de los parametros que determinan el modelo
de regresi
on ajustado.
Ejemplo 2.24 Obtener una f
ormula que permita determinar el modelo de regresi
on y = bx para
el conjunto de datos {(x1 , y1 ), (x2 , y2 ), . . . , (xN , yN )}.
Para aplicar el metodo de los mnimos cuadrados, debemos minimizar la funcion
F (b) =

N
X
i=1

(yi bxi )2

que solo depende de un par


ametro. En este caso, la derivada de F , igualada a 0, determina la
ecuacion normal:
N
N
X
X
dF
(b) = 0 =
x i yi b
x2i = 0
dx
i=1
mnimo3

i=1

La solucion de esta ecuaci


on determina el
de la funcion F que corresponde al valor del
coeficiente b, calculado a partir del conjunto de puntos.

b=

N
X

xi yi

i=1
N
X

x2i

i=1

El punto crtico obtenido es el mnimo de la funci


on F pues

P
d2
F (b) = 2 x2i > 0.
2
dx

Apuntes de M
etodos Estadsticos para la Computaci
on

86

2.4. Modelos de regresi


on no lineal

OBSERVACION:
Aunque el modelo y = bx que hemos ajustado es lineal, no debemos confundirlo con el modelo lineal general y = a + bx. Un error muy com
un, que debemos evitar, es
2
aplicar la formula Cov(X, Y )/x del modelo lineal general para calcular el valor del parametro
b, considerando que el termino independiente (a) es igual a 0.

En ocasiones, es posible aplicar los dos metodos (linealizar o aplicar, directamente, mnimos
cuadrados) a un mismo modelo de regresi
on. Veamos un ejemplo.
Ejemplo 2.25 Ajustar el modelo y = ax + bx3 de dos maneras distintas (linealizaci
on del
modelo y metodo de los mnimos cuadrados) para ajustarlo al siguiente conjunto de datos de la
variable (X, Y ):
{(1, 5), (2, 8), (3, 9), (4, 8), (5, 0)}
En primer lugar ajustamos el modelo reduciendolo a un modelo lineal:
Si dividimos por x la expresi
on del modelo obtenemos
y = ax + bx3

y
= a + bx2
x

Y =A+BX

y podemos considerar el modelo lineal Y = A + B X donde


Y =

y
x

X = x2

A=a

B=b

Si aplicamos estas transformaciones a los valores de las variables, obtenemos el siguiente


conjunto de datos de las nuevas variables (X, Y ):
{(1, 5), (4, 4), (9, 3), (16, 2), (25, 0)}
Para estos valores, calculamos la recta de regresion Y /X que resulta ser Y = 40 9765
0,1979 X . Deshaciendo los cambios de variable, obtenemos que a = A = 40 9765 y que
b = B = 00 1979. Por tanto, el modelo ajustado es
y = 40 9765x 00 1979x3
Observese que este metodo no podra haberse utilizado si el valor de x de alguna de las observaciones hubiese sido 0, pues no hubiese sido posible aplicar la transformacion.
Y ahora, utilizamos el metodo de los mnimos cuadrados para ajustar directamente el mismo
modelo:
En primer lugar, consideramos la funcion
X
F (a, b) =
(yi axi bx3i )2

Despues, calculamos todas las derivadas parciales de la funcion F , y las igualamos a 0 para
obtener el sistema de ecuaciones normales.

X
X
F
2
4

x
y
=
a
x
+b
x
=0
i i

i
i
a
X
X

F
x3i yi = ax4i
+b
x6i

=0
b
Dpto. Matem
atica Aplicada (Universidad de M
alaga)

87

2. Regresi
on y correlaci
on

que aplicado a los valores de nuestras variables, resulta ser el sistema de ecuaciones:
80

55a

979b

824 = 979a + 20515b


cuya soluci
on, determina el valor de los parametros a 40 912 = y b 00 194 que determinan el modelo de regresi
on ajustado:
y = 40 912x 00 194x3
En este ejemplo, para hacer el ajuste, no tendra sentido simplificar el conjunto de observaciones
utilizando la curva general de regresion, pues todos los valores de la variable independiente son
distintos, y por lo tanto, la curva general de regresion coincide con la propia nube de puntos. 
Observese, en el ejemplo anterior, que aunque son muy parecidos, los coeficientes de los
modelos obtenidos por cada uno de los metodos son distintos. El objetivo de los dos metodos
es minimizar los errores, sin embargo, la transformacion aplicada en la linealizacion del modelo
distorsiona estos errores. Por lo tanto, el uso directo del metodo de los mnimos cuadrados
proporciona un modelo m
as ajustado que el metodo de linealizacion, si bien, en muchos casos
puede resultar m
as sencillo aplicar este u
ltimo.

2.4.4.

Bondad del ajuste

En los modelos que se reducen al caso lineal, se suele calcular el coeficiente de correlaci
on
lineal para el modelo transformado que es tipo lineal. Este coeficiente se puede utilizar como
indicativo de la bondad del propio ajuste. Sin embargo, no debemos utilizarlo para comparar
dos ajustes distintos.
En los modelos polin
omicos completos (con todos sus terminos) se verifica la formula de
la descomposici
on de la varianza que, en general, no es cierta para cualquier modelo. Por lo
tanto, en el caso polin
omico resulta apropiado utilizar el coeficiente de determinacion (R2 ) como
medida de correlaci
on. Adem
as, este coeficiente toma valores en el intervalo [0, 1] con la misma
interpretaci
on que se le daba en el caso lineal.
Ejemplo 2.26 Utilizar el coeficiente de determinaci
on para estudiar la bondad de los modelos
lineal y parab
olico ajustados a los datos del ejemplo 2.16 de la p
agina 75.
Para el modelo lineal D =
eij
c1 = 0
c2 = 1
c3 = 2

11 1
+ C podemos determinar los residuos (E)
18 9

d1 = 0 d2 = 1
11/18 7/18
13/18 5/18
15/18 3/18

con frecuencias

nij
c1 = 0
c2 = 1
c3 = 2

d1 = 0 d2 = 1
2
4
4
8
0
2

y calcular la varianza residual e2 = 00 2056 que nos permite calcular el coeficiente de determinacion para el modelo lineal
R2 = 1

00 2056
e2
=
1

= 00 0212
00 21
d2

Apuntes de M
etodos Estadsticos para la Computaci
on

88

2.4. Modelos de regresi


on no lineal

Para el modelo parab


olico y =
eij
c1 = 0
c2 = 1
c3 = 2

d1 = 0 d2 = 1
2/3 1/3
2/3 1/3
1
0

1
2 1
C + C 2 podemos determinar los residuos (E)
3 6
6
nij
d1 = 0 d2 = 1
c1 = 0
2
4
con frecuencias
c2 = 1
4
8
c3 = 2
0
2

y calcular la varianza residual e2 = 00 2 que nos permite calcular el coeficiente de determinacion


para el modelo lineal
00 2
2
R2 = 1 e2 = 1 0 = 00 0476
0 21
d
En ambos casos, el coeficiente de determinacion es muy proximo a cero, lo que indica que los
ajustes no son apropiados. Adem
as, de los resultados se deduce que la parabola es un modelo
mejor que la recta para ajustar los datos de la muestra, pues el valor de R2 es mayor. Esta
conclusion es siempre cierta para estos dos modelos en cualquier conjunto de datos pues la
expresion de la par
abola y = a + bx + cx2 generaliza a la de la recta y = a + bx, que es un caso
particular que se obtiene cuando c = 0.

En general, para determinar el grado de bondad de un modelo cualquiera, se suele utilizar
el coeficiente de determinaci
on. Sin embargo, hay que tener en cuenta que, solo en el caso
polinomico completo, incluyendo el caso lineal, este coeficiente toma un valor entre 0 y 1. Por
esa razon, para comparar la bondad de dos ajustes cualesquiera, a una misma nube de puntos,
es preferible utilizar el coeficiente SSE que determina la suma de los cuadrados de los residuos
SSE =

N
X

e2i ni

i=1

N
X
=
(yi f (xi ))2 ni

o bien

SSE =

i=1

p
k X
X

e2ij nij

i=1 j=1

p
k X
X
=
(yj f (xi ))2 nij
i=1 j=1

Ejemplo 2.27 Determinar que modelo, el lineal o el parab


olico, se ajusta mejor a los datos del
ejemplo 2.16 de la p
agina 75.
Para el modelo lineal podemos determinar los residuos (ver ejemplo anterior) y calcular el valor
de SSE = 37/9 40 111. De la misma manera, para el modelo parabolico podemos determinar
los residuos (ver ejemplo anterior) y calcular el valor de SSE = 4.
La curva general de regresi
on establece una cota inferior del valor de SSE para cualquier
modelo que se ajuste a este conjunto de datos.
nij 0 1 D
ci di ni
0
1
2
C

2 4 6
4 8 12
0 2 2
6 14 20

0
1
2

2/3 6
2/3 12
1
2
20

()

3 X
2
X
i=1 j=1

(dj di )2 nij = 4

3 X
2
X
2
2
2
2
()
(dj di )2 nij = 2(0 )2 + 4(1 )2 + 4(0 )2 + 8(1 )2 + 2(1 1)2 = 4
3
3
3
3
i=1 j=1

Lo que significa que cualquier modelo que se ajuste a los datos del ejemplo, por el metodo de los
mnimos cuadrados, debe tener un valor de SSE mayor o igual a 4. El hecho de que el modelo
parabolico haya sido exactamente 4, indica que este ajuste parabolico es perfecto, en el sentido
de que ning
un otro ajuste puede disminuir la suma de los cuadrados de los residuos.


Dpto. Matem
atica Aplicada (Universidad de M
alaga)

89

2. Regresi
on y correlaci
on

2.5.

Relaci
on de problemas

1. En la elaboraci
on de la siguiente tabla de
un error.
Y \X
0
1
[0, 4]
3
3
(4, 6]
3
4
(6, 8]
1
3
(8, 12]
0
0
7
11

frecuencias de la variable (X, Y ) se ha cometido


2
1
2
2
1
6

3
0
0
1
2
3

4
0
0
0
3
3

5
0
0
0
2
2

7
9
7
9
32

Se pide:
a)
b)
c)
d)

Detectar y corregir la errata.


Representar la distribuci
on condicionada (Y /X = 2) y calcular el sesgo y la curtosis.
Calcular las rectas de regresion de X sobre Y y de Y sobre X.
Calcular el coeficiente de correlacion lineal y la varianza residual del modelo lineal
Y /X.

2. Demostrar la igualdad de las dos siguientes formulas que permiten calcular la covarianza:
Cov(X, Y ) =

p
k X
X
i=1 j=1

(xi x
) (yj y) fij =

p
k X
X
i=1 j=1

xi yj fij x
y

3. Demostrar las siguientes propiedades de los momentos ordinarios y centrales que se establecen en la secci
on 2.1.5 de la pagina 60:
m00 = 1

m10 = x

m01 = y

00 = 1

10 = 0

01 = 0

4. La siguiente tabla recoge los valores de fuerza (F ) y elongacion (E), registrados en 6


pruebas de tensi
on de acero.
F 1 2 3 4 5 6
E 15 35 41 63 77 84
Estimar el modelo lineal de regresion E/F y obtener una medida de la bondad del ajuste.
5. Representar gr
aficamente los datos de las muestras de las variables (X, Yi ) con i =
1, 2, . . . , 7 que se proporciona en la siguiente tabla:
X
0
4
6
8
12
14
16
22
26

Y1
0
2
3
4
6
7
8
11
13

Y2 Y3 Y4 Y5 Y6 Y7
13 4 11 0 10 2
11 3 13 2 7 5
10 8 8 4 12 3
9 6 4 3 4 8
7 7 7 7 5 4
6 13 6 6 2 4
5 2 3 8 8 10
2 11 2 11 4 12
0 0 1 13 5 6

Apuntes de M
etodos Estadsticos para la Computaci
on

90

2.5. Relaci
on de problemas

a) A la vista de las gr
aficas, elegir, en la siguiente lista, un valor para el coeficiente de
correlaci
on lineal de cada una de las muestras anteriores y justificar la eleccion.
1

00 875

00 543

00 606

00 986

b) Calcular los coeficientes de correlacion lineal y comprobar que se ha elegido correctamente.


6. Representar gr
aficamente, calcular la recta de regresion y
cion lineal de la variable X con cada una de las variables Y
tabla:
X Y1 Y2 Y3 Y4 Y5 Y6
1
4 1 6 1 7 6
2
2 3 5 1 5 4
3
3 5 4 3 4 3
4
2 7 3 5 2 1
5
4 9 2 6 2 5

determinar el grado de correlaque se presentan en la siguiente


Y7
1
4
2
1
5

7. Los siguientes datos est


an tomados de un estudio sobre el flujo de trafico a traves de un
t
unel para vehculos. Las cifras son los valores promedio basados en las observaciones que
se hicieron en 10 intervalos de 5 minutos.
Densidad(veh/km) 43
55
40
52
39
33
50
33
44
21
Velocidad(km/h) 270 0 230 8 300 7 240 0 340 8 410 4 270 0 400 4 310 7 510 2
Se pide:
a) Representar el diagrama de dispersion.
b) A la vista del diagrama, elegir el valor correcto de r entre estos tres valores: 0968,
-0968, -0198.
c) Verificar la respuesta calculando r.
d ) Hay alguna evidencia real de que exista asociacion entre la velocidad de los vehculos
y la densidad?
8. Recordando que dos variables son linealmente incorreladas si r = 0. Se pide
a) Justificar que 2 variables aleatorias son linealmente incorreladas si y solo si su covarianza es 0.
b) Dados los puntos (1,0), (2,1), (4,1) y (5,a), hallar el valor de a sabiendo que las
variables X e Y son incorreladas. Determinar las rectas de regresion.
9. Veamos la importancia de la representacion grafica de los datos. Las siguientes tablas
presentan tres conjuntos de datos que tienen la misma correlacion y la misma recta de

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

91

2. Regresi
on y correlaci
on

regresi
on:
X1
Y1
10 80 04
8
60 95
13 70 58
9
80 81
11 80 33
14 90 96
70 24
6
4
40 26
12 100 84
7
40 82
5
50 68

X2
10
8
13
9
11
14
6
4
12
7
5

Y2
90 14
80 14
80 74
80 77
90 26
80 10
60 13
30 10
90 13
70 26
40 74

X3
10
8
13
9
11
14
6
4
12
7
5

Y3
70 70
60 60
90 60
70 80
80 70
90 90
70 96
50 92
80 80
60 90
20 62

a) Calcular la recta de regresion y el coeficiente de correlacion lineal de cada conjunto


y comprobar que son iguales.
b) Utilizar el diagrama de dispersion para representar los conjuntos de datos junto a la
recta de regresi
on calculada.
c) En que conjunto de datos utilizaras la recta de regresion para predecir el valor de
la variable Y cuando X = 16?
10. Sea (X,Y) una variable estadstica bidimensional. La variable X presenta las modalidades
a y 0 mientras que la variable Y toma los valores a 1 y 1. Ademas, se conoce que la
proporci
on de datos muestrales que presentan la modalidad 0 en la variable X es 00 75 y
la proporci
on de datos muestrales que presentan la modalidad a 1 en la variable Y es
00 5. Sabiendo que la recta de regresion mnimo cuadratica de X sobre Y es X + Y = 1.
Calcular:
a) El coeficiente de correlacion.
b) Estimar el valor de X para Y = 0 y el de Y para X = 1.
11. Las rectas x 2y = 4 y 2x 9y = 8 son las rectas de regresion de una variable estadstica
bidimensional (X, Y ), con N = 10 y x2 = 9.
a) Hallar el coeficiente de correlacion lineal, la varianza de Y y la covarianza.
b) Si se descubre que uno de los puntos considerados, el (2, 1), no debera haberse
utilizado, hallar las nuevas rectas de regresion.
12. A partir de 30 observaciones de una variable estadstica bidimensional (X, Y ) se obtuvieron
las rectas de regresi
on: X = (Y 1)/2 e X = Y 1, sabiendose que la varianza de X es
1. M
as adelante se obtuvo una nueva observacion que resulto ser el punto (0, 1).
a) Obtener las nuevas rectas de regresion.
b) Las varianzas residuales de ambos ajustes. Han aumentado o disminuido ?
c) Mejoran los ajustes al tomar una nueva observacion ?
13. Sea una regresi
on lineal mnimo cuadratica del tipo Y /X obtenida a partir de N observaciones de una variable estadstica bidimensional (X, Y ), con centro de gravedad el origen
de coordenadas.

Apuntes de M
etodos Estadsticos para la Computaci
on

92

2.5. Relaci
on de problemas

Con objeto de obtener m


as informacion, se realiza una nueva observacion, que resulta ser
de nuevo el centro de gravedad.
Ante la duda de que esta informaci
on adicional que parece reiterativa, no aporte nada nuevo, se decide realizar una nueva regresion lineal del tipo Y /X con las N + 1 observaciones.
a) Estudiar si esta informaci
on es de utilidad, pues hace disminuir la varianza residual.
b) Comprueba si aumenta o no, el coeficiente de correlacion lineal.
c) En que tanto por ciento como maximo, disminuye la varianza residual con respecto
a la inicial ?
14. Consideremos los siguientes modelos de regresion:
y = a ebx

y = a xb

y=

1
a+bx

Para cada uno de ellos, se pide:


a) Determinar los cambios de variable necesarios para reducir los siguientes modelos al
caso lineal.
b) Determinar las ecuaciones que permiten calcular los coeficientes del modelo original,
a partir de los coeficientes del modelo lineal
c) Determinar las restricciones que debe verificar el conjunto de datos para poder aplicar
la reducci
on.
15. Ajustar el modelo y = a bx (reduciendolo al caso lineal) a los siguientes datos:
Variable X
Variable Y

1
30

2
45

3
70

4
100

5
150

16. Ajustar el modelo y = a xb (reduciendolo al caso lineal) a los siguientes datos:


Variable X
Variable Y
17. Ajustar el modelo y =

1
05

2
20

3
45

4
80

5
125

1
(reduciendolo al caso lineal) a los siguientes datos:
a+bx

Variable X
Variable Y

1
100

2
050

3
033

4
025

5
020

18. Consideramos la muestra (1,0), (2,1), (1,2), (-1,0), (2,2) de la variable (X, Y ). Se pide:
a) Ajustar un modelo del tipo Y = a + b(1/X).
b) Ajustar la recta Y /X .
c) Que modelo resulta m
as apropiado?
19. Dados los puntos: (1,1) , (2,1) , (3,2) , (4,4) y (5,8), se pide:
a) Estudiar si resultara conveniente realizar un ajuste lineal.
b) Ajustar una funci
on del tipo y = a bx .
Dpto. Matem
atica Aplicada (Universidad de M
alaga)

93

2. Regresi
on y correlaci
on

c) Utilizar los modelos para predecir y comparar los valores y para x = 6 y x = 10. A la
vista de los resultados, elegir el modelo mas adecuado para la prediccion y justificar
la respuesta.
d ) Comparar los dos modelos utilizando el coeficiente de correlacion lineal y SSE.
20. Dados los puntos (0,09), (2,1/3), (3,1/7), (4,1/10) y (6,1/82) obtener los coeficientes del
ajuste por transformaci
on al modelo lineal, para una relacion entre ambas variables del
x
tipo y = 1/(ab + 1).
21. Se prob
o el desgaste (d en mm.) de seis moldes, probando cada uno de ellos bajo una
diferente temperatura (t en unidades de 100 C) de operacion controlada en un ba
no de
aceite. Los resultados de la prueba fueron:
t 1 1,5 2
3
3,5
4
0
0
0
0
0
d 3 3 5 0 5 5 9 4 11 4 120 8
Puede suponerse que los valores de la temperatura no tienen error y hay bases para suponer
que el desgaste y la temperatura estan relacionados por una funcion lineal. Se pide:
a) Obtener la ecuaci
on del modelo lineal de regresion.
b) Estimar el desgaste cuando la temperatura de operacion es 250 C.
c) Elegir otro modelo de regresion que resulte mas apropiado y que no contemple desgaste cuando la temperatura es de 0 grados.
22. Vamos a estudiar el movimiento uniformemente acelerado de un objeto a partir de los
datos del espacio (e) y del tiempo (t) recogidos en la siguiente tabla:
tiempo
espacio

1
13

2
41

3
67

4
119

5
176

6
245

7
333

a) Ajustar mediante mnimos cuadrados la expresion del espacio en funcion del tiempo.
b) Estimar el espacio inicial, la velocidad inicial y la aceleracion.
c) Predecir el espacio recorrido cuando t = 10.
d ) Hallar la nueva ecuaci
on considerando el nuevo dato e = 6 para t = 0. (Observaci
on:
utilizar los c
alculos anteriores).
23. El tiempo total necesario para detener un automovil despues de percibir un peligro se
compone del tiempo de reaccion mas el tiempo de frenado. Por tanto, la velocidad del
vehculo no es suficiente para calcular este tiempo total aplicando las leyes de la mecanica.
Para estudiar este fen
omeno se considera la siguiente tabla que contiene las distancias (d
en metros) de frenada de un automovil que marcha a la velocidad (v en Km/h) desde el
instante en que se observa el peligro.
v
d

30
130

45
225

60
350

75
520

90
750

105
1050

Representar gr
aficamente los datos, determinar un modelo que se ajuste a la nube de
puntos y utilizarlo para estimar d cuando v es 80 Km/h. (interpolacion) y 120 km/h.
(extrapolaci
on). Estudiar las limitaciones del modelo.

Apuntes de M
etodos Estadsticos para la Computaci
on

94

2.5. Relaci
on de problemas

24. Ajustar una recta y una par


abola de regresion Y /X al conjunto de puntos {(2, 3), (3, 4), (8, 9), (9, 8)}.
Comprobar que la par
abola se ajusta mejor a los datos y justificar por que ocurre siempre
esto, independientemente del conjunto de puntos.
25. Dada la tabla:

X\Y
20
30
40
50

0
2
1
1
2

1
0
3
3
0

2
0
2
2
0

se pide
a) Ajustar un modelo lineal de regresion.
b) Calcular el coeficiente de correlacion lineal y la covarianza.
c) Estudiar la dependencia e independencia de las distribuciones.
d ) Ajustar una par
abola de regresi
on y comparar la bondad del modelo con el caso lineal.
26. Cambio de variable. Al analizar los datos, a veces conviene aplicar una transformacion
que simplifique su aspecto general. La siguiente tabla muestra el contenido de oxgeno Y
a los X metros de profundidad de un lago:
X
Y

10
65

20
56

30
54

40
60

50
46

60
14

70
01

Dar respuesta a las siguientes cuestiones:


a) Aplicar el cambio de variable X 0 = (X 40)/10 y calcular la media de la nueva
variable X 0 .
b) Ajustar la recta de regresi
on Y /X 0 .
c) Estudiar la correlaci
on lineal.
d ) Utilizar el modelo para predecir el contenido de oxgeno a los 65 metros.
e) Ajustar una par
abola y comparar la bondad del ajuste con el modelo lineal.
27. Dada la siguiente tabla de frecuencias:
Y \X 1 2 3 4 5
34 5 3 1
45 1 2 1 2
56
4 3 1
67
1 2 2
78
2
a) Aplicar el cambio de variable W = X 3 y Z = Y 50 5.
b) Calcular la recta de regresi
on Z/W .

c) Ajustar el modelo parab


olico de regresion z = a + bw2 .
d ) Ajustar el modelo de regresi
on z = a + bw + cw3 .
e) Comparar la bondad de los modelos utilizando una medida de correlacion apropiada.

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

95

2. Regresi
on y correlaci
on

28. El n
umero de agricultores espa
noles, en millones viene dado por los puntos (1973, 90 47),
0
0
(1974, 9 26), (1975, 8 86), (1976, 80 25), (1977, 70 81), (1978, 80 01), (1979, 70 55), (1980, 70 24),
(1981, 70 01), (1982, 60 88) y (1983, 70 03).
a) Aplicar una traslaci
on a los a
nos para obtener una nueva variable con media 0.
b) Predecir el n
umero de agricultores en el a
no 1970 suponiendo una dependencia lineal
entre las variables.
c) Hallar el coeficiente de correlacion lineal.
d ) Ajustar una curva del tipo y = a bx y comparar la bondad del ajuste con el modelo
lineal.
29. Estudiar en que medida le afectan los cambios de origen y de escala al coeficiente de
correlaci
on lineal.
30. Los datos que muestra el siguiente ejemplo provienen del registro del n
umero de autom
oviles que salen de una poblaci
on grande por la carretera principal hacia la costa en cada
uno de los 10 domingos seleccionados al azar. Las observaciones se hicieron en un punto
de observaci
on sobre la carretera durante un intervalo de tiempo fijo, y para mantener los
n
umeros sencillos, se expresan redondeandolos al 1000 mas cercano. Tambien se muestra
la temperatura (en grados centgrados) que se registro en la poblacion al principio del da.
t 13 16 9 10 18 23 19 27 15 10
v 18 19 9 12 21 25 26 30 24 14
Se pide:
a) Representar gr
aficamente los datos.
b) Elegir y ajustar un modelo que permita establecer la relacion que existe entre la
temperatura (t) y el n
umero de vehculos (v).
c) Justificar la elecci
on del modelo del apartado anterior.
31. Algunas veces se requiere que la curva de regresion pase por el origen. En estos casos, elegimos modelos que no tengan termino independiente, como en el siguiente ejercicio. Ajustar
el modelo E = aC a los siguientes datos obtenidos en un experimento para determinar la
rigidez de un resorte. Se midi
o la extension (E) del resorte (a partir de su longitud natural)
bajo la acci
on de diferentes cargas (C):
Carga (Newtons) 2 4 6 8 10 12
Extension (mm) 10 19 29 40 48 56
32. Regresi
on m
ultiple. En la tabla, z representa una propiedad fsica particular de las
barras de acero forjado, y x e y son los porcentajes de elementos a y b que se encuentran
presentes en la aleaci
on. Se escogieron cuatro niveles para x y cuatro para y, lo que da 16
posibles combinaciones, y se registro experimentalmente un valor de z para barra de cada
tipo. (Este es un ejemplo de lo que se conoce como dise
no factorial completo).
x 5 5 5 5 10 10 10 10 15 15 15 15 20 20 20 20
y 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4
z 28 30 48 74 29 50 57 42 20 24 31 47 9 18 22 31

Apuntes de M
etodos Estadsticos para la Computaci
on

96

2.5. Relaci
on de problemas

a) Demostrar que las ecuaciones normales para el modelo lineal de regresion m


ultiple
z = a + b x + c y en forma matricial son

P
P P
n
x
a
P
P 2 P y
P z

b =

x
x
xy
P
P
P 2
P xz
y
xy
y
c
yz

b) Resolver el sistema para deducir las formulas que determinan los coeficientes a, b y c
en funci
on de los momentos:
a = z b
x c
y

b=

xz y2 yz xy
x2 y2 (xy )2

c=

x2 yz xy xz
x2 y2 (xy )2

c) Utilizar las f
ormulas anteriores para calcular los valores de a, b y c a partir de los
datos del experimento.
d ) La linealidad del modelo significa que hay una relacion lineal entre z y x cuando y
esta fija, y entre z e y cuando x esta fija. Sobre el diagrama de dispersion, representar
las distintas rectas obtenidas al fijar los valores de y que se investigan (1, 2, 3 y 4).
Hacer los mismo para los valores de x que se investigan (5, 10, 15 y 20).
e) Calcular el mayor valor de z estimado por el modelo dentro del intervalo de valores
de x e y que se investigan. Justificar la respuesta.
33. Formulas de codificaci
on.
a) Obtener la f
ormula lineal de codificacion que transforme respectivamente los valores
5, 10, 15 y 20 de la variable x en los valores en -3, -1, 1 y 3 de la variable u.
b) Analogamente, obtener la f
ormula lineal de codificacion que transforme los valores 1,
2, 3 y 4 de la variable y en los valores en -3, -1, 1 y 3 de la variable v.
c) Aplicar estas f
ormulas de codificacion a los datos del ejercicio 32 de la pagina 95 y
comprobar que el nuevo modelo de regresion lineal m
ultiple z = a + bu + cv coincide
con la ecuaci
on que relacionaba x e y con z.
34. Consideramos los datos (1,2,1), (1,4,3), (2,2,4), (2,2,5), (2,4,3), (1,4,3) y (2,4,5) de una
muestra de la variable (x, y, z). Se pide:
a) Ajustar un plano de regresi
on a la nube de puntos.
b) Ajustar un modelo del tipo z = a + b ln(xy).

c) Determinar el modelo de regresion mas apropiado.

35. Para determinar el modelo y = a + bx, aplicando


el metodo de los mnimos cuadrados,
P
tenemos que minimizar la funci
on F (a, b) = (yi abxi ). Los valores de a y b obtenidos,
resolviendo la ecuaci
on F (a, b) = 0, son puntos crticos de la funcion F , pero son
mnimos de la funci
on? Para ello, es necesario aplicar alg
un criterio de clasificacion de
extremos de un campo escalar. Un criterio sencillo, que podemos aplicar aqu, consiste
en calcular la matriz Hessiana de F (2 F (a, b)) y comprobar que, tanto el elemento que
ocupa la posici
on (1,1), como el determinante de la matriz, son n
umeros positivos. Se pide:
a) Calcule la matriz Hessiana de F y u
sela para determinar que el punto crtico obtenido,
aplicando el metodo de los mnimos cuadrados, es un mnimo de la funcion F .
b) Realice esta misma comprobacion para el modelo parabolico de regresion.

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

97

2. Regresi
on y correlaci
on

2.6.

Anexo I: Justificaci
on de algunos resultados

En esta secci
on vamos a presentar la justificacion de algunos de los resultados que hemos visto
en este tema. Incluiremos aquellas demostraciones que utilizan resultados basicos de matematicas
o aquellas que se apoyan en los conocimientos aprendidos en otras asignaturas de matematicas
de la titulaci
on.
Consideramos una muestra de tama
no N de una variable
P bidimensional (X, Y ) que toma los
valores (xi , yi ) con frecuencias absolutas ni , siendo N =
ni , y frecuencias relativas fi para
todo i = 1, . . . , k.
Sea y = a+bx la recta de regresi
on de Y sobre X con b = xy /x2 y a = yb
x, y consideremos

las variables Y (de los valores estimados) que toma los valores yi = a + bxi con frecuencias fi ,
y la variable E (de los residuos) que toma los valores ei = yi yi con frecuencias fi .

2.6.1.

Descomposici
on de las varianzas para el modelo lineal de regresi
on

Vamos a demostrar que, en el caso lineal, se verifica la propiedad: y2 = y2 + e2 . Para ello,


vamos a demostrar el resultado equivalente e2 = y2 y2 , mediante la siguiente cadena de
igualdades:
e2 =

N
N
N
X
X
(1) X
(yi a bxi )2 fi =
(yi y + b
x bxi )2 fi =
[(yi y) b(xi x
)]2 fi =
i=1

i=1

i=1

N
X
(2)
[(yi y)2 2b(yi y)(xi x
) + b2 (xi x
)2 ]fi = y2 2bxy + b2 x2 =
i=1

(2)

= y2 2

2
2
2
xy
xy
xy
(3) 2
2
+
=

= y y2
y
2
2
2
x
x
x

donde
(1) Sustituci
on: a = y b
x
xy
(2) Sustituci
on: b = 2
x
(3) Sustituci
on: y2 =

2.6.2.

2
2
xy
2
= a + bx entonces 2 = b2 2 = xy 2 = xy
pues
si
y
x
y
x2
x4 x
x2

El coeficiente de correlaci
on lineal de Pearson (r) es un n
umero comprendido entre -1 y 1

Veamos que se verifica la propiedad: y2 = r2 y2

(1)
(2)
y2 = b2 x2 =

Cov(X, Y )
x2

2

(3)
x2 =

Cov(X, Y )
x

2

y2 (2)
=
y2

Cov(X, Y )
x y

2

(4)

y2 = r2 y2

donde

Apuntes de M
etodos Estadsticos para la Computaci
on

98

2.6. Anexo I: Justificaci


on de algunos resultados

(1) Propiedad de la varianza frente a la transformacion afn Y = a + bX


(2) Operar y simplificar
(3) Multiplicar y dividir por y2
(4) Definicion del coeficiente r
Considerando el resultado anterior y la f
ormula de la descomposicion de la varianza obtenemos:
)
y2 = y2 + e2
= y2 = r2 y2 + e2 = e2 = (1 r2 )y2
y2 = r2 y2
Ahora bien, como e2 0 y y2 0 (por definicion de la varianza) entonces (1 r2 ) 0 y, por
lo tanto, r2 1, es decir, 1 r 1.

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

99

2. Regresi
on y correlaci
on

2.7.
>
>
>
>
>

Anexo II: Comandos de R

x=c(1,2,3,4,5)
y=c(2,4,6,8,9)
table(x,y)
cov(x,y)
cor(x,y)

# Tabla de doble entrada


# Covarianza muestral (dividido por N-1)
# Coef. Correlaci
on lineal de Pearson

MODELOS DE REGRESI
ON LINEAL

###

###

> reg1<-lm(y ~ x)
# Regresi
on lineal: Y = a0 + a1 * X
> reg2<-lm(y ~ x+I(x^2)+I(x^3)) # Regresi
on: Y = a0+a1*X+a2*X^2+a3*X^3
###

MODELOS DE REGRESION NO LINEAL

> reg3<-nls(y ~ a*exp(b*x)


> reg4<-nls(y ~ a*b^x)
> reg5<-nls(y ~ a+b*x)
###
>
>
>
>
>
>
>
>
>

###

# Regresi
on: Y = a * e^bX
# Regresi
on: Y = a * b^X
# Regresi
on: Y = a + b * X

DATOS DEL MODELO: Regresi


on y Correlaci
on

reg=lm(y ~ x)
plot(x,y);abline(reg)
summary(reg)
names(reg)
reg$fitted.values
reg$residuals
coef(reg)
resid(reg)
fitted(reg)

#
#
#
#
#
#
#
#

###

Representa la nube de puntos y el modelo ajustado


Resumen datos del modelo
Datos de la Regresi
on lineal almacenados en "reg"
Valores estimados de "y" por el modelo
Residuos estimados
Coeficientes del Modelo
Residuos del Modelo
Valores ajustados por el modelo

# F
ormulas para definir R^2 y SSE
> 1-var(resid(reg))/var(y)
> sum(resid(reg)^2)

# Coeficiente de determinaci
on (R^2)
# Suma de los cuadrados de los residuos (SSE)

########################################################################
> reg1<-lm(y~x)
> reg1
Call:
lm(formula = y ~ x)
Coefficients:
(Intercept)
0.4

x
1.8

Apuntes de M
etodos Estadsticos para la Computaci
on

100

2.7. Anexo II: Comandos de R

> summary(reg1)
Call:
lm(formula = y ~ x)
Residuals:
1
2
3
4
5
-2.000e-01 3.193e-16 2.000e-01 4.000e-01 -4.000e-01
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
0.4000
0.3830
1.044 0.373021
x
1.8000
0.1155 15.588 0.000574 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 0.3651 on 3 degrees of freedom
Multiple R-squared: 0.9878,Adjusted R-squared: 0.9837
F-statistic:
243 on 1 and 3 DF, p-value: 0.0005737
########################################################################
> reg2<-nls(y~a+b*x)
> reg2
Nonlinear regression model
model: y ~ a + b * x
data: parent.frame()
a
b
0.4 1.8
residual sum-of-squares: 0.4
Number of iterations to convergence: 1
Achieved convergence tolerance: 1.251e-07
> summary(reg2)
Formula: y ~ a + b * x
Parameters:
Estimate Std. Error t value Pr(>|t|)
a
0.4000
0.3830
1.044 0.373021
b
1.8000
0.1155 15.588 0.000574 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 0.3651 on 3 degrees of freedom
Number of iterations to convergence: 1
Achieved convergence tolerance: 1.251e-07

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

Apuntes de
ESTADISTICA

Series estadsticas

Sixto Sanchez Merino


Dpto. de Matematica Aplicada
Universidad de Malaga

Mi agradecimiento al profesor Carlos Cerezo Casermeiro, por sus


correcciones y sugerencias en la elaboraci
on de estos apuntes.

Apuntes de Estadstica
2011, Sixto Sanchez Merino.
Este trabajo est
a editado con licencia Creative Commons del tipo:
Reconocimiento-No comercial-Compartir bajo la misma licencia 3.0 Espa
na.
Usted es libre de:
copiar, distribuir y comunicar p
ublicamente la obra.
hacer obras derivadas.
Bajo las condiciones siguientes:
Reconocimiento. Debe reconocer los creditos de la obra de la manera especificada
por el autor o el licenciador (pero no de una manera que sugiera que tiene su apoyo
o apoyan el uso que hace de su obra).
No comercial. No puede utilizar esta obra para fines comerciales.
Compartir bajo la misma licencia. Si altera o transforma esta obra, o genera
una obra derivada, s
olo puede distribuir la obra generada bajo una licencia identica
a esta.
Al reutilizar o distribuir la obra, tiene que dejar bien claro los terminos de la licencia de
esta obra.
Alguna de estas condiciones puede no aplicarse si se obtiene el permiso del titular de los
derechos de autor.
Nada en esta licencia menoscaba o restringe los derechos morales del autor.

Captulo 3

Series estadsticas
En un estudio estadstico, los datos de una muestra proceden de las observaciones de una
variable estadstica. Si estas observaciones estan ordenadas y estamos interesados en estudiar su
evolucion entonces la muestra constituye una serie estadstica de datos.
En este captulo estudiaremos dos tipos de series de datos: los n
umeros ndice y las series temporales. Para cada una de ellas, veremos sus caractersticas y determinaremos algunos metodos
que permitan extraer la informaci
on que proporcionan las series estadsticas.

3.1.

N
umeros ndice

Normalmente, cuando se quiere estudiar la evolucion de determinados fenomenos complejos


donde intervienen varias variables, uno de los mayores problemas es la forma de medir algunos
agregados (sumas) que son heterogeneas (no se parecen). Dichos problemas se presentan sobre
todo en el an
alisis de variables econ
omicas como listas de precios, cantidades, etc. El problema
de dicha medici
on consiste, en obtener un u
nico n
umero que sea descriptivo del volumen total
del agregado que se quiera estudiar, o en obtener un u
nico n
umero que nos posibilite estudiar
la evoluci
on en el tiempo de dicho agregado. La solucion a este problema se tiene mediante el
uso de una tecnica estadstica llamada n
umero ndice.
Llamamos n
umero ndice o simplemente ndice a una medida estadstica dise
nada para poner
de relieve cambios en una variable o en un grupo de variables relacionadas con respecto al
tiempo, situaci
on geogr
afica o cualquier otra caracterstica. Una coleccion de n
umeros ndice
para diferentes a
nos, lugares, etc., recibe el nombre de serie de ndices
En el caso m
as sencillo, los n
umeros ndice sirven para conocer la variacion porcentual de
una determinada magnitud en el tiempo o en el espacio. En este caso, los n
umeros ndice no son
otra cosa que el porcentaje de variacion de cada valor de la variable con respecto a un valor de
referencia llamado periodo base o periodo de referencia.
Por ejemplo, sean xa y xb dos valores de una variable X en dos instantes de tiempo a y b.
Entonces, el cociente entre xb y xa
xb
xb/a =
xa
determina un n
umero ndice, que denotaremos por xb/a , y que representa la relacion entre los

103

104

3.1. N
umeros ndice

valores de la variable en esos dos instantes. Este n


umero se suele multiplicar por 100 para expresarlo en tantos por ciento. Adem
as, el instante a, que determina el denominador del cociente,
se denomina periodo base o de referencia.
Ejemplo 3.1 Calcular e interpretar el n
umero ndice que determina la relaci
on entre el precio
del gas
oleo A en febrero de 2011, que era de 123 euros, respecto al precio en marzo del 2009,
que era de 84 centimos de euro.
El n
umero ndice (p) que determina la relacion entre los precios del gasoleo A en esos dos
instantes de tiempo es
123
p2011/2009 =
10 464(1460 4 %)
84
Lo que significa que el precio del gas
oleo A se incremento mas de un 46 % en esos dos a
nos. 
Con los n
umeros ndice podemos comparar los costes de alimentacion o de otros servicios en
una ciudad durante un a
no con los del a
no anterior, o la produccion de acero en un a
no en una
zona del pas con la de otra zona. Aunque se usan principalmente en economa e industria, los
n
umeros ndice son aplicables en muchos otros campos. En educacion, por ejemplo, se pueden
usar los n
umeros ndices para comparar la inteligencia relativa de estudiantes en sitios diferentes
o en a
nos diferentes.

3.1.1.

Clasificaci
on de n
umeros ndice

En funcion del n
umero de variables que queramos relacionar, podemos hablar de dos tipos
de n
umeros ndices: n
umeros ndices simples y n
umeros ndices complejos. Los ndices simples
se refieren a una sola variable mientras que los ndices complejos hacen intervenir a mas de una
variable.

(
Elementales

Simples

En cadena
Indices
(

Sin ponderar

Complejos
Ponderados

Atendiendo al periodo base considerado, los ndices simples pueden ser elementales o en
cadena. Los ndices simples elementales estan referidos a un mismo periodo base, mientras que
los ndices simples en cadena est
an referidos al periodo inmediatamente anterior en la serie y,
por tanto, no es fijo. En cuanto a los ndices complejos podemos establecer otra clasificacion
atendiendo a la ponderaci
on o no de las variables que intervienen.

3.1.2.

Propiedades de los n
umeros ndice

A continuaci
on vamos a relacionar las propiedades mas importantes que deseamos que cumpla
un n
umero ndice. Para todas ellas, consideramos los ndices xa , xb , xc . . . expresados en tantos
por 1 y correspondientes a los periodos de tiempo a, b, c, . . . respectivamente de la variable X.

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

105

3. Series estadsticas

1. Propiedad identidad: El ndice de un periodo respecto al mismo periodo es 1, es decir,


xa/a = 1.
2. Propiedad de inversi
on temporal: Establece una relacion entre los ndices correspondientes
a dos periodos de tiempo.
xa/b xb/a = 1

xa/b =

1
xb/a

3. Propiedad cclica o circular: Establece una relacion entre los ndices de varios periodos de
tiempo encadenados.
xa/b xb/c xc/a = 1 ,

xa/b xb/c xc/d xd/a = 1 ,

...

4. Propiedad cclica o circular modificada: Establece otra relacion entre los ndices de varios
periodos de tiempo encadenados.
xa/b xb/c = xa/c

xa/b xb/c xc/d = xa/d

...

Desde un punto de vista te


orico, sera deseable que los n
umeros ndice verificasen estas
propiedades. Si bien, los ndices simples que vamos a definir cumplen todas ellas, no se conoce
ning
un ndice complejo que verifique todas las propiedades.

3.2.

Indices simples

Llamamos ndices simples a los que hacen referencia a una variable concreta, es decir, a los
que dan a conocer la evoluci
on de una u
nica variable comparandola con ella misma al tomar un
periodo de tiempo como referencia o base.
Los n
umeros ndices simples se calculan dividiendo el valor actual de la variable entre el valor
de la variable en el tiempo utilizado como base. En funcion de que el tiempo considerado como
base sea fijo para todos los valores o vaya cambiando, se distinguen dos tipos de n
umeros ndice:
elementales o en cadena. Ambos tipos verifican todas las propiedades definidas anteriormente.
En esta secci
on vamos a definir, calcular e interpretar estos dos tipos de ndices y veremos
tres ejemplos de ndices elementales: las relaciones de precios, de cantidad y de valor.

3.2.1.

Indices simples elementales (ISE)

Los ndices elementales son un tipo de ndices simples que responderan estrictamente a la
definicion como cociente de valores de la variable. En este caso se toma un u
nico valor como
periodo base o periodo de referencia y es fijo para todos los valores de la variable.
Consideramos una serie de valores x0 , x1 , . . . , xk observados de la variable X en los instantes o
periodos de tiempo t = 0, 1, . . . , k. Los n
umeros ndice simples elementales se obtienen dividiendo
cada uno de los valores de la variable X por el valor fijo de la variable que corresponde con el
momento que se toma como base. El ndice obtenido con ese cociente se multiplica por 100 para
expresar el resultado en tantos por cien.

Apuntes de M
etodos Estadsticos para la Computaci
on

3.2.
Indices simples

106

En la siguiente tabla se calculan estos ndices para los distintos valores de la variable X en
los periodos de tiempo (t) correspondientes y tomando como base el instante t = 0.

tiempo t

...

variable X

x0

x1

x2

...

xk

ISE

x1
x0

x2
x0

...

xk
x0

ISE en %

100

x1
100
x0

x2
100
x0

...

xk
100
x0

El ndice elemental para un periodo dado con respecto al mismo periodo es siempre 100. En
particular, el n
umero ndice correspondiente al periodo base es siempre 100. Esto da cuenta de
la notacion (frecuente en la literatura estadstica) de escribir, por ejemplo, 1969=100, para
indicar que se ha tomado 1969 como periodo base.
Si en un periodo, el n
umero ndice es mayor de 100, significa que existe un incremento del
valor de la variable en ese periodo con respecto al valor de dicha variable en el periodo tomado
como base. Por ejemplo, un ndice de 134 %, significa que existe un incremento del 34 % respecto
del periodo base. Si el n
umero ndice es menor de 100, significa que existe una disminucion del
valor de la variable en ese periodo con respecto al valor de dicha variable en el periodo base.
As, si este ndice es 98 %, significa que existe una disminucion del 2 %, siempre con respecto al
periodo base.
Ejemplo 3.2 La siguiente tabla contiene las cifras de ventas (en miles de millones) de una
empresa durante los u
ltimos cinco a
nos de existencia de la peseta como moneda de curso legal.
A
no
ventas

1997 1998 1999 2000 2001


10 5
20 4
20 4
10 8
20 7

Calcular la serie de n
umeros ndice simples elementales tomando como referencia el a
no 1997 e
interpretar los resultados.
Para calcular los ndices simples elementales, dividimos las cifras de ventas de cada a
no entre
las ventas registradas durante el a
no 1997 y multiplicamos por 100.
A
no
ISE

1997 1998 1999 2000 2001


100 160 160 120 180

Por ejemplo, el n
umero ndice 180 correspondiente al a
no 2001 se ha calculado dividiendo la cifra
de ventas de este a
no entre las ventas registradas durante el a
no 1997. Esto significa que en el
a
no 2001 las ventas se han visto incrementadas en un 80 % respecto al a
no base 1997. Ademas,
podemos observar que el ndice para el a
no 1997 es 100 por ser el periodo tomado como base.
Estos ndices elementales permiten conocer facilmente que durante el lustro se ha vendido
por encima de los registros obtenidos en el a
no 1997. Para ello, solo necesitamos comprobar que
todos los ndices elementales obtenidos son mayores que 100.


Dpto. Matem
atica Aplicada (Universidad de M
alaga)

107

3. Series estadsticas

3.2.2.

Indices simples en cadena (ISC)

Los ndices en cadena son un tipo de ndices simples donde el periodo base va a ir cambiando
de un valor de la variable a otro. Para calcular el ndice de un periodo tomaremos como base el
valor de la variable en el periodo inmediatamente anterior.
Consideramos una series de valores x0 , x1 , . . . , xk observados de la variable X en los instantes o periodos de tiempo t = 0, 1, . . . , k. Para cada periodo t, el ndice simple en cadena se
obtiene dividiendo el valor de la variable en ese periodo (xt ) por el valor de la variable en el
periodo anterior (xt1 ). El ndice obtenido con ese cociente se multiplica por 100 para expresar
el resultado en tantos por cien.
En la siguiente tabla se calculan estos ndices para los distintos valores de la variable X en
los periodos de tiempo (t) correspondientes.

tiempo t

...

variable X

x0

x1

x2

...

xk

ISC

x1
x0

x2
x1

...

xk
xk1

ISC en %

x1
100
x0

x2
100
x1

...

xk
100
xk1

Observese que la definici


on no tiene sentido para el primer valor de la serie. Ademas, si en
un periodo, el n
umero ndice es mayor de 100, significa que existe un incremento del valor de
la variable en ese periodo con respecto al valor de dicha variable en el periodo anterior. Por
ejemplo, un ndice de 134 %, significa que existe un incremento del 34 % respecto del periodo
anterior. Si el n
umero ndice es menor de 100, significa que existe una disminucion del valor de
la variable en ese periodo con respecto al valor de dicha variable en el periodo anterior. As, si
este ndice es 98 %, significa que existe una disminucion del 2 %, siempre con respecto al periodo
anterior.
Ejemplo 3.3 Calcular los ndices simples en cadena para la serie de datos de ventas del ejemplo 3.2 de la p
agina 106, e interpretar los resultados.
Para calcular los ndices simples en cadena, dividimos las cifras de ventas de cada a
no entre las
ventas registradas durante el a
no anterior y multiplicamos por 100 %.
A
no
ventas
ISC

1997 1998 1999 2000 2001


10 5
20 4
20 4
10 8
20 7

160 100
75
150

Por ejemplo, el n
umero ndice 150 correspondiente al a
no 2001 se ha calculado dividiendo la
cifra de ventas de este a
no entre las ventas registradas durante el a
no 2000. Esto significa que
en el a
no 2001 las ventas se han visto incrementadas en un 50 % respecto al a
no anterior. Sin
embargo, el n
umero 75 del a
no 2000 significa que en este a
no se redujeron las ventas en un 25 %
respecto al a
no anterior. Por otro lado, el n
umero 100 del a
no 1999 indica que las cifras de ventas
de este a
no coinciden con las ventas registradas el a
no anterior.

Apuntes de M
etodos Estadsticos para la Computaci
on

3.2.
Indices simples

108

Estos ndices en cadena permiten estudiar la evolucion de las ventas a


no a a
no. En nuestro ejemplo, resulta f
acil determinar el a
no donde no se ha producido una evolucion favorable
(incremento) de las ventas que corresponde al a
no 2000 cuyo ndice es inferior a 100.

Ejemplo 3.4 La siguiente tabla contiene el consumo de petr
oleo en Espa
na durante la decada
de los 90, medido en miles de toneladas.
A
no
Consumo

1990
1991
1992
1993
1994
1995
1996
1997
1998 1999
0
0
0
0
0
0
0
0
47 741 49 367 50 464 49 709 51 894 54 610 55 433 57 396 610 670 630 04

Calcular los ndices simples elementales y en cadena tomando como referencia el a


no 1990 e
interpretar los resultados.
Para calcular los ndices simples elementales, dividimos el consumo de cada a
no entre el consumo
del a
no 1990 y multiplicamos por 100 %. En la casilla correspondiente al a
no base colocamos
100 %.
A
no
ISE

1990
1991
1000 00 1030 41

1992
1993
1994
1050 70 1040 12 1080 70

1995
1996
1140 39 1160 11

1997
1998
1999
1200 22 1290 18 1320 05

El n
umero 12022 del a
no 1997 significa que en este a
no se produjo un incremento del 2022 %
del consumo respecto al a
no 1990.
Para calcular los ndices simples en cadena, dividimos el consumo de cada a
no entre el
consumo del a
no anterior y multiplicamos por 100 %.
A
no
ISC

1990

1991
1992
1993
1994
1995
1996
1030 41 1020 22 980 50 1040 40 1050 23 1010 51

1997
1998
1999
1030 54 1070 45 1020 22

El n
umero 10745 del a
no 1998 significa que en este a
no se produjo un incremento del 745 %
del consumo respecto al a
no anterior. El n
umero 9850 del a
no 1993 significa que en este a
no se
produjo un descenso del consumo de energa equivalente al 150 % del consumo respecto al a
no
anterior.
Podemos observar que los ndices elementales son todos mayores que 100 lo que indica que
el consumo durante toda la decada fue superior al consumo producido en el a
no 1990. Con este
tipo de ndice es m
as difcil apreciar si durante todos los a
nos se ha producido este incremento.
Sin embargo, al observar los ndices en cadena se aprecia mas facilmente este fenomeno. Los
a
nos con ndice inferior o superior a 100 indican una disminucion o aumento respectivamente
del consumo de este combustible.


3.2.3.

Relaci
on de precios, cantidades y valores

Uno de los ejemplos m


as usuales de ndice simple es lo que se conoce como relaci
on de
precios, que no es m
as que el cociente entre el precio de un artculo en un periodo dado y su
precio en otro periodo (base). Adem
as, por sencillez se supone que los precios en cada periodo
son constantes, ya que en caso de no ser as, podemos tomar un promedio adecuado para el
periodo de modo que la suposici
on sea v
alida.

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

109

3. Series estadsticas

Si pa y pb son los precios de un artculo durante los periodos a y b respectivamente,


entonces la relaci
on de precios en el periodo b con respecto al periodo a se denota por pb/a y
viene definida por la f
ormula
pb
pb/a =
pa
En vez de comparar los precios de un artculo, podemos estar interesados en comparar las
cantidades (o vol
umenes) de produccion, consumo, exportacion, etc. En este caso, el n
umero
ndice simple se conoce como relaci
on de cantidad o relaci
on de volumen.
Si qa y qb representan las cantidades durante los periodos a y b respectivamente, entonces
la relaci
on de cantidad en el periodo b con respecto al periodo a se denota por qb/a y se calcula
de manera an
aloga a los precios
qb
qb/a =
qa
Si p es el precio de un artculo durante un periodo y q es la cantidad (o volumen) producida,
vendida, etc., durante ese mismo periodo, entonces el producto p q recibe el nombre de valor
total. Por ejemplo, si 10 artculos se venden a 215 euros, el valor total es p q = 20 15 10 = 210 5
euros.
La relaci
on de valor es un ndice simple que permite comparar el valor total en dos periodos
de tiempo. Sean pa y qa el precio y la cantidad de artculos registrados durante el perido a,
y pb y qb durante el periodo b. Ahora los valores totales durante estos periodos vienen dados
por va = pa qa y vb = pb qb . Definimos la relaci
on de valor del periodo b respecto del periodo
a como el cociente entre los valores totales en esos periodos
   
vb
pb qb
pb
qb
vb/a =
=
=

= pb/a qb/a
va
p a qa
pa
qa
donde pb/a y qb/a son los ndices de precios y cantidades expresados en tantos por 1. Es decir, la
relacion de valor es el producto de la relacion de precios por la relacion de cantidad.
Ejemplo 3.5 La siguiente tabla contiene los precios en euros y las cantidades (en miles) producidas, de un mismo artculo, por una factora durante la decada de los 90.
A
no
Precio
Cantidad

1990 1991 1992 1993 1994 1995 1996 1997 1998 1999
10 0
10 2
10 5
10 8
20 1
20 8
30 2
20 4
20 7
30 0
12
14
18
18
20
15
12
16
20
24

Calcular la relaci
on de precios, de cantidad y de valor tomando como referencia el a
no 1990 e
interpretar los resultados.
Primero calculamos las relaciones de precios (pt ) y de cantidad (qt ) como ndices elementales.
t
pt
qt

1990 1991 1992 1993 1994 1995 1996 1997


1998 1999
100
120
150 180
210
280 320
240
270
300
100 1160 67 150 150 1660 67 125 100 1330 33 1660 67 200

Ahora, para calcular la relaci


on de valor (vt ), necesitamos primero obtener las cifras del valor
multiplicando el precio y la cantidad en cada periodo. Despues, calculamos el ndice elemental

Apuntes de M
etodos Estadsticos para la Computaci
on

3.3.
Indices complejos

110

de la serie de datos obtenida y obtenemos el resultado.


t
valor
vt/0

1990 1991 1992 1993 1994 1995 1996 1997 1998 1999
12
160 8
27
32,4
42
42
380 4 380 4
54
72
100 140 225 270 350 350 320 320 450 600

El n
umero 270 del a
no 1993 significa que en este a
no se produjo un incremento del 170 % del valor
de la produccion respecto al a
no 1990. Observese que durante los a
nos 1994 y 1995 la relacion
de valor fue la misma y se debi
o a que una disminucion de la produccion se compenso con un
incremento de los precios. Igual ocurri
o durante los a
nos 1996 y 1997. Por u
ltimo, el n
umero
600 del a
no 1999 indica que el valor de la produccion se ha visto multiplicado por 6 durante
la decada de los noventa condicionado por un incremento tanto de las cantidades como de los
precios.


3.3.

Indices complejos

Llamamos ndices complejos a los que hacen referencia a dos o mas variables, es decir, a
los que dan a conocer la evoluci
on de varias variables a lo largo del tiempo comparandolas con
respecto a ellas mismas, tomando un periodo de tiempo como referencia o base. Ademas, las
variables tienen que estar relacionadas entre s de alguna forma, ya que no podemos mezclar
variables diferentes.
Existen dos tipos de ndices complejos:

Indice complejo sin ponderar: Se trata de construir un ndice complejo a partir de


ndices simples, d
andole a todos la misma importancia.

Indice complejo ponderado: Se trata de construir un ndice complejo a partir de ndices


simples, d
andole distinta importancia o peso a cada uno de ellos.
En lo que sigue se considerar
an n variables X1 , X2 , . . . , Xn que toman valores en k instantes
o periodos de tiempo t como se recoge en la siguiente tabla
t
0
1
..
.

X1
x10
x11
..
.

X2
x20
x21
..
.

...
...
...
..
.

Xn
xn0
xn1
..
.

x1k

x2k

...

xnk

donde xi,t representa el valor de la variable Xi en el tiempo t.


Como hemos de llegar a un solo n
umero ndice resumiendo una gran cantidad de informacion,
es facil comprender que los promedios (media aritmetica, media geometrica, mediana, etc.)
juegan un papel importante en el c
alculo de n
umeros ndices. As como existen muchos metodos
para calcular promedios, tambien hay muchos para calcular los n
umeros ndices, cada uno con
sus ventajas y desventajas propias.

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

111

3. Series estadsticas

3.3.1.

Indices complejos sin ponderar

Veamos dos metodos para calcular ndices complejos sin ponderar.


M
etodo de agregaci
on simple
En este metodo de calcular un ndice, expresamos el valor total de la variable en el tiempo
dado como porcentaje del valor total de las variables en el tiempo base. Es decir, para cada
tiempo t definimos el ndice:

It =

n
X

i=1
n
X

xit
xi0

100

t = 0, 1, 2, . . . , k

i=1

que recibe el nombre de ndice de Bradstrest y Dutot


Aunque este metodo es f
acil de aplicar, tiene dos grandes desventajas que lo convierten en
insatisfactorio. Por un lado, no tiene en cuenta la importancia relativa de las distintas variables
(no es ponderado). As pues, por ejemplo asignara igual peso a la leche que a la crema de afeitar
a la hora de calcular el IPC. Por otro lado, las unidades escogidas al anotar los valores de la
variable afectan al ndice.
M
etodo del promedio simple
El ndice producido por este metodo depende del procedimiento utilizado para promediar las
relaciones de precios; los procedimientos incluyen la media aritmetica, la geometrica, la arm
onica
y la mediana. Por ejemplo, si consideramos la media aritmetica, el ndice correspondiente al
tiempo t respecto al base t = 0 es:

It =

n
X
xit
xi0
i=1

100

t = 0, 1, 2, . . . , k

y recibe el nombre de ndice de Sanerbeck.


Si bien este metodo no se ve afectado por la unidad de medida elegida, conserva a
un la
desventaja citada de dar la misma importancia a todas las variables.
Ejemplo 3.6 La siguiente tabla recoge los valores de las variables X1 , X2 , . . . , X6 en 5 instantes
de tiempo (t).
t X1 X2 X3 X4 X5 X6
0 2 22 7
8
7
8
1 3 25 9 13 8
9
2 3 27 10 15 9
9
3 4 28 11 18 11 10
4 4 30 11 22 12 11

Apuntes de M
etodos Estadsticos para la Computaci
on

3.3.
Indices complejos

112

Calcular los ndices complejos sin ponderar por el metodo de agregaci


on simple y por el metodo
del promedio simple.
Para aplicar el metodo de agregaci
on simple, calculamos la suma o agregado para cada periodo
de tiempo y, a partir de ella, calculamos los n
umeros ndice tomando como base el periodo 0.
t Agregado Indice
0
54
100
1
67
1240 1
2
73
1350 2
3
82
1510 9
4
90
1660 7
Para aplicar el metodo del promedio simple utilizando la media aritmetica, calculamos las
series de ndices para cada variable.
t
0
1
2
3
4

X1
100
150
150
200
200

X2
100
1130 6
1220 7
1270 3
1360 4

X3
X4
X5
X6
100
100
100
100
1280 6 1620 5 1140 3 1120 5
1420 9 1870 5 1280 6 1120 5
1570 1 225 1570 1 125
1570 1 275 1710 4 1370 5

Indice
100
1300 2
1400 7
1650 2
1790 6

La u
ltima columna contiene, para cada periodo de tiempo, la media aritmetica de los ndices
correspondientes de las variables.


3.3.2.

Indices complejos ponderados

Con el fin de evitar las desventajas del metodo de agregacion simple, asignamos un peso wi
a cada variable Xi . Tales pesos indican la importancia de la variable en cuestion.
M
etodo de agregaci
on ponderada
Este metodo generaliza al metodo de agregacion simple y se utiliza si las variables son
homogeneas. Para cada tiempo t definimos el ndice as:

It =

n
X

xit wi

i=1

n
X

xi0 wi

100

t = 0, 1, 2, . . . , k

i=1

M
etodo del promedio ponderado
Este metodo generaliza al metodo del promedio simple utilizado en los ndices complejos sin
ponderar y se utiliza si las variables no son homogeneas. El promedio ponderado mas utilizado

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

113

3. Series estadsticas

es la media aritmetica ponderada, aunque tambien se utilizan otros, como la media geometrica
ponderada. Para cada tiempo t definimos el ndice as:

It =

n
X
xit
wi
xi0
i=1

n
X

wi

100

t = 0, 1, 2, . . . , k

i=1

Ejemplo 3.7 La siguiente tabla recoge los valores de X1 , X2 y X3 en 5 instantes de tiempo (t):
t X1 X2 X3
0 8
7
8
1 13 8
9
2 15 9
9
3 18 11 10
4 22 12 11
Calcule los ndices complejos por el metodo de agregaci
on ponderada y por el metodo del promedio
ponderado, sabiendo que a la variable X1 le asignamos el doble de importancia que al resto de
variables.
La ponderaci
on asignada es de 2, 1 y 1 respectivamente para las variables X1 , X2 y X3 .
Para aplicar el metodo de agregacion ponderada, calculamos la suma o agregado ponderado
para cada periodo de tiempo y, a partir de ella, calculamos los n
umeros ndice tomando como
base el periodo 0. Por ejemplo, para el periodo 2, el agregado 48 = 2 15 + 1 9 + 1 9 y el ndice
1540 8 = (48/31) 100.
Para aplicar el metodo del promedio ponderado utilizando la media aritmetica ponderada,
calculamos las series de ndices para cada variable. La u
ltima columna contiene, para cada
periodo de tiempo, la media aritmetica ponderada de los ndices correspondientes de las variables.
Por ejemplo, para el periodo 2, el ndice 154 = (2 1870 5 + 1 1280 6 + 1 1120 5)/4.
Agregaci
on ponderado
t Agregado Indice
0
31
100
1
43
1387
2
48
1548
3
57
1839
4
67
2161

t
0
1
2
3
4

Promedio
I1
I2
100
100
1625 1143
1875 1286
225 1571
275 1714

ponderado
Indice
I3
100
100
1125
138
1125
154
125
183
1375
2147


3.3.3.

Indices de precios

Los ndices de precios son los tipos de ndices complejos ponderados mas empleados en las
actividades econ
omicas e industriales. Consideran que las variables Xi , con i = 1, . . . , n son los

Apuntes de M
etodos Estadsticos para la Computaci
on

3.3.
Indices complejos

114

precios de los artculos cuyos valores en el periodo t se denotan por pit . A cada relacion de precios
asignamos un peso dado por el valor total del artculo en terminos de alguna unidad monetaria.
Como el valor de un artculo se obtiene multiplicando su precio p por la cantidad q, los pesos
vienen dados por w = p q.
En las formulas que aparecen a continuacion, las P
sumas se extienden
Pn a los valores de todas
las variables para un tiempo t, es decir, la expresion
equivale a i=1 .
Seg
un el valor del artculo considerado se distinguen tres ndices:

- El ndice de Laspeyres (metodo del a


no base) es un ndice complejo ponderado que utiliza
como ponderaci
on, el valor, a precios del periodo base, de la cantidad en dicho periodo, es
decir, wi = pi0 qi0
X pit
X
pi0 qi0
pit qi0
pi0
Lt = X
=X
pi0 qi0
pi0 qi0

- El ndice de Paasche (metodo del a


no dado) es un ndice complejo ponderado que utiliza
como ponderaci
on, el valor, a precios del periodo base, de la cantidad del periodo actual,
es decir, wi = pi0 qit
X pit
X
pi0 qit
pit qit
p
Pt = X i0
=X
pi0 qit
pi0 qit

- El ndice de Marshall-Edgeworth es un ndice complejo ponderado que, a diferencia de los


anteriores, utiliza como ponderaci
on la media aritmetica de las cantidades del a
no base y
del a
no dado, es decir, wi = pi0 (qi0 + qit )/2
X

Mt = X

pit (qi0 + qit )


pi0 (qi0 + qit )

Si utilizamos los ndices de Laspeyres y de Paasche dados anteriormente obtenemos que


- El ndice ideal de Fisher es la media geometrica de los ndices de Laspeyres y de Paasche
s P
 P

p
pit qi0
pit qit
P
P
Ft = Lt Pt =

pi0 qi0
pi0 qit
El ndice ideal de Fisher, que en particular verifica el criterio de inversion temporal y el de
inversion de factores, es mejor que cualquier otro n
umero ndice u
til en cuanto a satisfacer las
propiedades consideradas importantes (de ah el apelativo de ideal). No obstante, desde una
perspectiva practica, tambien sirven y se utilizan con mucha frecuencia los otros ndices que
hemos definido.
Ejemplo 3.8 Calcule los ndices de precios correspondientes a los datos que aparecen en la
siguientes tabla, tomando 2000 como a
no base:

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

115

3. Series estadsticas

t
2000
2001
2002
2003
2004

Precios
2
3
3
3
4

A
Cantidades
8
7
10
12
11

Precios
3
4
5
7
8

B
Cantidades
5
6
6
7
8

Precios
1
2
2
4
5

C
Cantidades
3
3
5
8
10

Aplicamos las f
ormulas como se indica en las siguientes tablas:
X

Indice de Laspeyres: Lt = X
t
2000
2001
2002
2003
2004

c
alculos
100
100
100
100
100

28+35+13
28+35+13
38+45+23
28+35+13
38+55+23
28+35+13
38+75+43
28+35+13
48+85+53
28+35+13

=
=
=
=
=

Lt
100
1470 1
1610 8
2080 8
2550 9

I. de Marshall-Edgeworth: Mt = X

2001
2002
2003
2004

Indice de Paasche: Pt = X

pi0 qi0

t
2000

pit qi0

t
2000
2001
2002
2003
2004

Mt
100

= 1460 4
= 1620 3
= 2160 1
= 2720 2

=
=
=
=
=

Pt
100
1450 7
1620 8
2200 8
2820 1

Indice de Fisher:

pi0 (qi0 + qit )

c
alculos

pi0 qit

calculos

28+35+13
28+35+13 100
37+46+23
27+36+13 100
310+56+25
210+36+15 100
312+77+48
212+37+18 100
411+88+510
211+38+110 100

pit (qi0 + qit )

2(8+8)+3(5+5)+1(3+3)
2(8+8)+3(5+5)+1(3+3) 100
3(8+7)+4(5+6)+2(3+3)
2(8+7)+3(5+6)+1(3+3) 100
3(8+10)+5(5+6)+2(3+5)
2(8+10)+3(5+6)+1(3+5) 100
3(8+12)+7(5+7)+4(3+8)
2(8+12)+3(5+7)+1(3+8) 100
4(8+11)+8(5+8)+5(3+10)
2(8+11)+3(5+8)+1(3+10) 100

pit qit

Ft =
t
2000
2001
2002
2003
2004

p
Lt Pt

calculos
100 100
0
0
147 1 145 7
0
0
161 8 162 8
0
0
208 8 220 8
0
255 9 2820 1

=
=
=
=
=

Ft
100
1460 4
1620 3
2140 7
2680 7


Por u
ltimo, queremos hacer notar que todos los ndices de precios de esta seccion se pueden
definir an
alogamente para cantidades y obtener los ndices de cantidades de Laspeyres, Paasche,
Marshall-Edgeworth o Fisher. Las formulas que hemos mostrado para calcular los ndices de
precios son v
alidas para obtener estos ndices de cantidades sin mas que cambiar los valores de
los precios por los de las cantidades y viceversa.

Indice de precios al consumo


Uno de los ndices de Laspeyres mas conocidos es el llamado ndice del coste de la vida o
ndice de precios al consumo, m
as conocido como IPC. En este ndice que elabora el Instituto
Nacional de Estadstica (INE), los precios estan ponderados por las cantidades, y la ponderaci
on
son las cantidades consumidas por la poblacion.

Apuntes de M
etodos Estadsticos para la Computaci
on

116

3.4. Series de n
umeros ndice

La importancia de este ndice est


a en su significado y sus implicaciones sociales. Pensemos
que, por ejemplo, en muchos contratos aparecen ciertas clausulas de revision salarial que producen aumentos anuales autom
aticos en correspondencia con los aumentos del ndice de precios al
consumo.
Con este ndice, estamos interesados en comparar precios, cantidades o valores de grandes
grupos de artculos. Por ejemplo, al calcular un ndice de precios al consumo no solo queremos
comparar los precios de la leche en dos periodos, sino tambien los precios de los huevos, de
la carne, del calzado, de la vivienda, etc., de modo que se consiga una vision general de la
evolucion de los precios. Naturalmente, podramos simplemente hacer una lista con todos estos
precios, pero eso no sera muy satisfactorio. Lo deseable es disponer de un solo n
umero ndice
que compare los precios en ambos periodos en promedio.
No es difcil ver que los c
alculos de n
umeros ndice que afecten a un grupo de artculos
conllevan muchos problemas que hay que solventar. Por ejemplo, debemos decidir que artculos
o servicios deben incluirse, as como su peso de importancia relativa; hemos de recolectar datos
referentes a precios y cantidades de tales artculos; hemos de decidir que hacer con las distintas
calidades dentro de un mismo artculo, o con ciertos artculos o servicios que estan disponibles
en un a
no pero no en el a
no base; por fin, hemos de decidir como reunir toda esa informacion y
sacar un solo n
umero ndice del coste de la vida que tenga significado practico.

3.4.

Series de n
umeros ndice

Como vimos en la primera secci


on, la coleccion de n
umeros ndice correspondientes a los
valores de una variable constituyen una serie de n
umeros ndice. Una utilizacion directa de las
series de ndices consiste en analizar las variaciones o fluctuaciones de una variable o de un
conjunto de variables en un periodo de tiempo.
Las principales caractersticas de estas series son las variables que intervienen, sus ponderaciones y el periodo considerado como base. En esta seccion vamos a estudiar como se obtienen
nuevas series de ndices cuando modificamos alguna de sus caractersticas y como se relacionan
entre s.
Ademas, veremos una aplicaci
on de las series de ndices para eliminar la influencia de unas
variables sobre otras en un proceso que se denomina deflaci
on.

3.4.1.

Cambio de periodo base

Una serie de n
umeros ndice se calcula a partir de los valores observados temporalmente en
una variable, tomando uno de ellos como periodo base. En la practica es deseable que el perodo
base elegido para la comparaci
on sea un periodo de estabilidad no muy alejado en el pasado.
Por tanto, de cuando en cuando puede ser necesario cambiar el periodo base.
Una posibilidad es recalcular todos los n
umeros ndice en terminos del nuevo periodo base
aunque para ello es necesario disponer de los valores de la variable. Un metodo aproximado mas
simple consiste en dividir todos los n
umeros ndice para los diversos a
nos correspondientes al
periodo base antiguo por el n
umero ndice correspondiente al nuevo periodo base, expresando los
resultados como porcentajes. Estos resultados representan los nuevos n
umeros ndices, siendo el

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

117

3. Series estadsticas

n
umero ndice para el nuevo periodo base 100.
Sea It/0 el n
umero ndice correspondiente al periodo t tomando como base el periodo 0. Si
queremos cambiar de base considerando un nuevo periodo a, aplicamos la formula:
It/a =

It/0
Ia/0

para calcular el nuevo ndice correspondiente al periodo t. Matematicamente hablando, este


metodo es estrictamente aplicable solo si los n
umeros ndice satisfacen el criterio circular. Sin
embargo, para muchos tipos de ndices, el metodo afortunadamente da resultados que en la
practica son suficientemente pr
oximos a los que se obtendran teoricamente.
Ejemplo 3.9 Consideremos los datos del ejemplo 3.8 de la p
agina 114. Recalcular el ndice de
Paasche tomando 2002 como a
no base utilizando los dos procedimientos.
El primer procedimiento (I2002 ) consiste en volver a calcular todos los ndices de Paasche igual
que se hizo en el ejemplo 3.8 pero tomando como base el a
no 2002. Para ello, sera necesario
disponer de los datos originales. El segundo procedimiento (
ultima columna de la tabla) es m
as
sencillo y se calcula aplicando una simple regla de tres a los ndices I2000 ya conocidos.
t
2000
2001
2002
2003
2004

I2000
100
1450 7
1620 8
2200 7
2820 1

I2002
28+35+13
0
38+55+23 100 = 61 8
37+46+23
0
37+56+23 100 = 89 5
310+56+25
310+56+25 100 = 100
312+77+48
0
312+57+28 100 = 134 5
411+88+510
0
311+58+210 100 = 169 9

It/2002
100
0

1620 8 100 = 61 4
0
145 7
0
1620 8 100 = 89 5
0
162 8
1620 8 100 = 100
2200 7
0
1620 8 100 = 135 6
2820 1
0
1620 8 100 = 173 3


3.4.2.

Renovaci
on y empalme

Las principales caractersticas de los ndices complejos ponderados son el periodo base y los
pesos asignados a cada variable. Con el fin de que estos indicadores sean lo mas representativos
posible de la realidad, conviene de vez en cuando, revisar las variables que intervienen y los
pesos asignados a las mismas. A partir de ese momento, vamos a calcular una nueva serie con
parametros distintos y a relacionarla con la anterior.
El proceso de renovaci
on consiste en obtener esta nueva serie de n
umeros ndices, a partir
de los mismos valores de la variable pero cambiando los pesos asignados a las variables. Para
ello, volvemos a aplicar las mismas formulas utilizando las nuevas caractersticas de la serie.
El proceso de empalme consiste en relacionar ambas series truncadas en el periodo de renovacion. Para ello, aplicamos un cambio de base a la serie antigua, tomando como periodo base
el periodo de renovaci
on.
Ejemplo 3.10 Utilizando los datos del ejemplo 3.8 de la p
agina 114, renovar el ndice de Paasche tomando como nuevo a
no base el 2002 y efectuar el empalme correspondiente.

Apuntes de M
etodos Estadsticos para la Computaci
on

118

3.4. Series de n
umeros ndice

Primero se calculan los ndices de Paasche tomando 2002 como nuevo a


no base. Para ello sera necesario disponer de la tabla de datos del ejemplo 3.8. Despues se calculan los ndices de empalme
aplicando una simple regla de tres a partir del ndice antiguo y el nuevo para el a
no 2002. Por
u
ltimo se toman los ndices de empalme para los a
nos anteriores a 2002 y los nuevos ndices de
Paasche para los a
nos posteriores a 2002.
t
I2000
2000
100
2001 1450 7
2002 1620 8
2003
2004

Renovacion

310+56+25
310+56+25 100 = 100
312+77+48
0
312+57+28 100 = 134 5
411+88+510
0
311+58+210 100 = 169 9

Empalme
100
0
1620 8 100 = 61 4
100
0
0
1620 8 145 7 = 89 5
100
0
1620 8 162 8 = 100

I2002
610 4
890 5
100
1340 5
1690 9


3.4.3.

Deflaci
on de series estadsticas

Como vimos, el producto del precio de un artculo por su cantidad da lugar a una cifra que
tiene caracter de valor. Por lo tanto, el valor vt de un conjunto de n artculos distintos en un
periodo t viene determinado
n
X
vt =
pit qit
i=1

siendo pit y qit el precio y la cantidad del artculo i en el periodo t.

Los ndices simples elementales para los valores vt se denominan n


umeros ndice de valor y
determinan una serie de ndices conocida como serie de valor. Podemos comprobar que el ndice
de precios de Laspeyres (LP ) por el ndice de cantidades de Paasche (P Q ) da lugar al ndice de
valor
P
P
P
qit pit
pit qit
vt
pit qi0
Q
P
= vt/0
P
=P
=
Lt Pt = P
v0
pi0 qi0
qi0 pit
pi0 qi0
y, de la misma manera, tambien se puede calcular este ndice de valor como el producto del
ndice de precios de Paasche (P P ) por el ndice de cantidades de Laspeyres (LQ )
P
P
P
pit qit
qit pi0
pit qit
vt
P
P
P
PtP LQ
=
= vt/0

=
=
t
v0
pi0 qit
qi0 pi0
pi0 qi0

Estas series cronol


ogicas de valor se refieren a las variaciones en el tiempo de cifras monetarias
que estan sujetas a las fluctuaciones del poder adquisitivo de la moneda. Por ejemplo, aunque los
ingresos de una familia pueden estar creciendo teoricamente durante un cierto n
umero de a
nos,
sus ingresos reales pueden en verdad estar disminuyendo debido al aumento del coste de la vida,
en tanto en cuanto este aumento del coste de la vida hace que disminuya su poder adquisitivo.
Denominaremos valor nominal, aparente o corriente a las cifras monetarias observadas y
valor real o constante a las cifras corregidas convenientemente para eliminar la influencia de la
depreciacion monetaria. La operaci
on de convertir valores nominales en valores reales recibe el
nombre de deflaci
on. En otras palabras, la deflacion consiste en eliminar el efecto de la inflacion.
Para deflactar hay que tener en cuenta que lo que se persigue es obtener valoraciones en
terminos reales, es decir, la valoraci
on a lo largo del tiempo en euros del periodo tomado como

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

119

3. Series estadsticas

base, porque cuando analizamos una serie estadstica en terminos de valores nominales podemos estar sobrevalorando o infravalorando las fluctuaciones que tiene la variable o conjunto de
variables, puesto que en terminos aparentes se esta recogiendo la influencia de la inflacion.
Por tanto, nuestra intenci
on es pasar de una serie de valores nominales a la serie de valores
reales, es decir, con precios constantes e iguales a los correspondientes al a
no que se toma como
base:
Valores nominales
Valores reales
X
X
pi0 qi0
pi0 qi0
X
X
pi1 qi1
pi0 qi1
X
X
=
pi2 qi2
pi0 qi2
..
..
.
X
X .
pik qik
pi0 qik

Para obtener los valores reales a partir de los valores nominales, basta dividir estos por el
ndice de precios de Paasche. Sin embargo, es mas com
un utilizar el ndice del coste de la vida
o ndice de precios al consumo (IPC), que prepara el Instituto Nacional de Estadstica.
Por tanto, el IPC se utiliza para eliminar la influencia de los precios en una serie que este valorada en terminos monetarios. Lo que hacemos es calcular el valor real, dividiendo el valor
nominal de cada a
no por el n
umero ndice del coste de la vida, IPC, usando un periodo base
adecuado, es decir:
valor nominal
100
valor real =
IPC
tomando el IPC en tanto por ciento. Con esta formula se obtiene el valor real de una cantidad en
unidades monetarias del a
no base considerado en el IPC. Por ejemplo, si el IPC corresponde al
instante t respecto del instante a tomado como base (It/a ), entonces el valor real representar
a al
valor nominal en el instante t en unidades monetarias del instante a.
Ejemplo 3.11 Si el sueldo de un obrero ha crecido un 50 % en 10 a
nos (1970-1980) y en ese
mismo periodo el IPC se ha doblado, cu
anto ha crecido realmente el sueldo del obrero?
Si el sueldo de un individuo en 1980 es el 150 % de su sueldo en 1970 (o sea, han crecido un
50 %), y el coste de la vida se ha doblado en ese mismo periodo de tiempo (IPC1980/1970 =200),
entonces su sueldo real en 1980 en pesetas de 1970 se calcula as:
Valor real

1970

Valor nominal1980
150
100 =
100 = 75 %
IPC1980/1970
200

Por lo tanto, aunque aparentemente cobra un 50 % mas de sueldo, realmente cobra un 25 %


menos y, es decir, cobra m
as pero ha perdido poder adquisitivo.

En el ejemplo anterior hemos utilizado el IPC para calcular una cantidad (sueldo) correspondiente a un a
no (1980) en terminos de unidades monetarias de un a
no anterior (1970). Veamos
otro ejemplo donde realizamos esta comparacion, pero respecto a un a
no posterior.
Ejemplo 3.12 Un SEAT 600 en el a
no 1960 costaba unas 65.000 ptas. (39066 e). Se disponen
de los siguientes datos del IPC:
I60/92 = 40 956 %

I01/92 = 1360 584 %

I06/01 = 1180 337 %

Apuntes de M
etodos Estadsticos para la Computaci
on

120

3.4. Series de n
umeros ndice

Calcule el precio real que hubiese costado comprar el coche en el a


no 2006.
En este ejemplo queremos calcular el precio en pesetas del a
no 2006 de un artculo que fue
comprado en 1960. Para ello, primero calculamos el IPC correspondiente al periodo 2006-1960
a partir de los ndices disponibles:
I60/06 = I60/92 I92/01 I01/06 =

I60/92
00 04956
= 0
= 00 03066(30 066 %)
I01/92 I01/06
1 365844 10 18337

Ahora, para calcular el precio real del coche en el a


no 2006, dividimos su valor nominal entre el
IPC del periodo que hemos calculado:
Precio real (2006) =

Precio nominal (1960)


65.000
= 0
100 = 2.120.026 ptas.
I60/06
3 066

Y por lo tanto, un SEAT 600 que costase 65.000 ptas. en el a


no 1960 hubiese costado en 2006
mas de dos millones de pesetas, exactamente 2.120.026 ptas. (12.74161e).

Por u
ltimo, utilizaremos el IPC para deflactar una serie cronologica y poder comparar cantidades.
Ejemplo 3.13 Deflactar la serie cronol
ogica de las indemnizaciones totales (miles de pesetas),
abonadas en Espa
na por las compa
nas de seguros, durante el periodo 1956-1960, tomando como
deflacionador el ndice del coste de la vida. Utilice los resultados para comparar las cantidades.
A
no
1956
1957
1958
1959
1960

Indemnizaciones
318.511
523.926
670.718
905.661
1.036.129

IPC1936=100
6431
7124
8077
8667
8769

En primer lugar cambiamos de base la serie de ndices tomando 1956 como a


no base y despues
usamos el nuevo IPC para calcular las cantidades pagadas por las compa
nas en pesetas de 1956
lo que nos permitir
a comparar unos a
nos con otros.
A
no
1956
1957
1958
1959
1960

IPC1956=100
100
7120 4
0
64300 1 100 = 110 8
807 7
0
64300 1 100 = 125 6
866 7
0
64300 1 100 = 134 8
876 9
0
6430 1 100 = 136 4

Siniestros deflaccionados
318.511
100 100 = 318.511
523.926
1100 8 100 = 472.857
670.718
1250 6 100 = 534.011
905.661
1340 8 100 = 671.855
1.036.129
1360 4 100 = 759.625

Observemos como podemos utilizar estos resultados para comparar cantidades. Tomando los
datos de la primera tabla, observamos que las cantidades pagadas por siniestros en 1956 se ven
duplicadas en 1958 y triplicadas al a
no siguiente, en 1959. Sin embargo, una vez deflaccionada
la serie, observamos que la cantidad correspondiente al a
no 1956 no se duplica hasta 1959 y no
se llega a triplicar en todo el periodo.


Dpto. Matem
atica Aplicada (Universidad de M
alaga)

121

3. Series estadsticas

3.5.

Series Temporales o Cronol


ogicas

Una serie temporal es un conjunto de observaciones tomadas en instantes especficos, generalmente a intervalos iguales. Es decir, es una variable estadstica bidimensional donde una
variable es el tiempo (variable independiente) y la otra corresponde al fenomeno cuantitativo
que se quiere estudiar (variable dependiente). Por ejemplo, la cotizacion diaria al cierre de la
sesion burs
atil de ciertas acciones, produccion de leche en unos a
nos o las temperaturas cada
hora por el Instituto Metereol
ogico de una ciudad.

3.5.1.

Representaci
on gr
afica

La representaci
on gr
afica de una serie temporal se realiza mediante un diagrama de dispersion, donde el tiempo se representa en el eje X y la variable, objeto de estudio, se representa en
el eje Y .

Figura 3.1: Serie Temporal


En la gr
afica1 de la figura 3.1 se representa una serie temporal (x(t)) mediante un diagrama
de dispersi
on que permite observar el comportamiento de dicha serie a lo largo del tiempo (a
nos).
El objetivo ser
a poder predecir el comportamiento de esta serie temporal en un futuro no muy
lejano.

3.5.2.

Promedios o Medias M
oviles

Dado un conjunto de n
umeros y1 , y2 , . . . , yN , llamamos promedio o media m
ovil de orden k,
a la siguiente sucesi
on de medias aritmeticas:
y1 + ... + yk
k

y2 + ... + yk+1
k

yN k+1 + ... + yN
k

Si los datos se dan anual o mensualmente, se llama media movil de k a


nos o de k meses.
1

Fuente: http://www.seh-lelha.org/tseries.htm

Apuntes de M
etodos Estadsticos para la Computaci
on

122

3.5. Series Temporales o Cronol


ogicas

Las medias m
oviles tienen la propiedad de que tienden a reducir la variacion presente en un
conjunto de datos, es decir, originan la suavizacion de series en el tiempo. Si el periodo de la
media movil se hace coincidir exactamente con el periodo de cierta fluctuacion sistematica, esta
fluctuacion queda eliminada en la serie resultante al aplicar la media movil.
Ejemplo 3.14 Calcular la media m
ovil de orden 3 (Y3 ) para los valores 2, 6, 1, 5, 3, 7 y 2 de
la variable Y .
2+6+1
3
6+1+5
3
1+5+3
3
5+3+7
3
3+7+2
3

=3
=4
=

=3

Y3

Y
2
6
1
5
3
7
2

=5
=4

3
4
3
5
4

Como se aprecia en el ejemplo, cada media se van calculando a partir del conjunto de datos
que se obtiene del anterior, eliminando el primero y a
nadiendo el siguiente. De ah que reciba el
nombre de media m
ovil.
8
Serie temporal
Media mvil (3)

7
6
5
4
3
2
1
0
0

Figura 3.2: Media movil de orden 3

Como se observa en la figura 3.2, la representacion de la media movil da lugar a una serie
temporal mas suave que la original. Es decir, si buscamos rectas paralelas que acoten las series,
entonces, las correspondientes rectas que acotasen a las medias moviles distaran menos, entre
s, que las que acotasen a los valores originales.

Si el orden es impar, la media m
ovil queda centrada pues su valor se asigna al dato que ocupa
la posicion central. Sin embargo, si el orden es par, la media movil queda descentrada pues no
hay ning
un valor del conjunto que ocupe la posicion central. En tal caso, se procede a centrar o
corregir la media m
ovil, volviendo a calcular la media entre 2 consecutivos.

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

123

3. Series estadsticas

Ejemplo 3.15 Calcular una media m


ovil de orden 4 con los datos del ejemplo 3.14.
2+6+1+5
= 30 5
4
6+1+5+3
= 30 75
4

1+5+3+7
=4
4
5+3+7+2
= 40 25
4

Y
2
6
1
5
3
7
2

Y4

30 5
30 625
3, 75 0
3 875
4
40 125
40 25

Y4

3.6.

An
alisis de las series temporales

Existen una gran cantidad de componentes que conforman una serie temporal, aunque estas
pueden dividirse en cuatro grandes grupos:
1. Tendencia secular (T).
2. Variaciones estacionales o periodicas (E o S).
3. Variaciones cclicas (C).
4. Variaciones aleatorias, irregulares o accidentales (A o I).
La primera y la tercera son observables a largo plazo mientras que la segunda y la u
ltima se
estudian en cortos periodos de tiempo. El objetivo es saber como se relacionan e interact
uan estas
componentes. Desgraciadamente esto es bastante difcil, por lo que se presentan, basicamente,
dos alternativas:
1. Hip
otesis Aditiva:
Y =T +E+C +A
donde Y es la conjunci
on de los 4 factores mediante acumulacion o suma.
2. Hip
otesis Multiplicativa:
Y =T EC A
donde Y es la conjunci
on de los 4 factores mediante el producto.
La elecci
on de cu
al de estas hip
otesis es la mejor depende del grado de acierto a que conduce
la aplicaci
on de cada una. Nosotros consideraremos, principalmente, la segunda, aunque aplicar
la primera se realizara de forma an
aloga.
En la gr
afica2 de la figura 3.3 se muestra una serie temporal (arriba), junto a tres de sus
componentes (T, E y A) representadas aisladamente.
2

Fuente: http://www.seh-lelha.org/tseries.htm

Apuntes de M
etodos Estadsticos para la Computaci
on

124

3.6. An
alisis de las series temporales

Figura 3.3: Descomposici


on de una serie temporal en tres componentes

3.6.1.

Tendencia secular

La tendencia secular se refiere a la direccion general predominante de la serie observada en


un espacio de tiempo suficientemente amplio. Se puede representar por una curva de tendencia
(generalmente recta de tendencia).

Figura 3.4: Series temporales con tendencia mas (izquierda) o menos (derecha) pronunciada

En la grafica3 de la figura 3.4 se muestran dos series temporales. La tendencia es la recta


imaginaria que se aproxima a la serie de datos. Y, como se observa, la serie que se representa a
la izquierda, tiene una marcada tendencia creciente, mientras que la representada a la derecha,
tambien tiene una tendencia creciente, pero es mas suave.

Fuente: http://www.seh-lelha.org/tseries.htm

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

125

3. Series estadsticas

3.6.2.

Variaciones estacionales o peri


odicas

Las variaciones estacionales o periodicas son las variaciones ocurridas por los meses del a
no
o las estaciones, y que se repiten de forma cclica todos los a
nos (dentro de un periodo anual).
Por ejemplo, la subida de precios en Navidad, la produccion de productos agrcolas, las ventas
de ba
nadores o el n
umero de viajeros en un autob
us en las horas puntas.
Su representaci
on gr
afica viene determinada por una curva cclica de periodo corto.

3.6.3.

Variaciones cclicas

Las variaciones cclicas son aquellas variaciones que se observan a lo largo del tiempo, y
que se repiten cclicamente. Su representacion grafica se caracteriza por una curva de periodo
largo. Por ejemplo, la recesi
on econ
omica o el ndice de paro.
Generalmente estas variaciones cclicas son propias de las variables economicas y para observarse mejor es necesario que el periodo que abarca la serie temporal sea suficientemente amplio.

3.6.4.

Variaciones aleatorias, irregulares o accidentales

Las variaciones accidentales son los movimientos esporadicos (irregulares o aleatorios) que
se producen en una serie y que rompen su tendencia. Por ejemplo, la subida de petroleo en la
guerra del Golfo, una inundaci
on o una helada en el campo.
Adem
as, se suele suponer que tales sucesos producen variaciones que pierden influencia tras
poco tiempo.

3.7.

Estimaci
on de la tendencia

De entre los muchos metodos que existen para calcular la tendencia secular de una serie
temporal, resaltamos los 4 siguientes:

3.7.1.

M
etodo gr
afico

El metodo gr
afico consiste en determinar dos curvas (poligonales), una superior y otra inferior, que acoten a nuestra serie temporal. Despues, los puntos medios, localizados entre las dos
curvas determinan otra curva mucho mas amortiguada, que nos indica graficamente la tendencia
o direccion predominante de la serie.
Para ello, representamos gr
aficamente la serie temporal y procedemos de la siguiente manera:
1. Se unen, mediante segmentos, los puntos maximos de la serie, obteniendose una lnea
quebrada que se denomina poligonal de cimas.
2. De la misma forma, se unen los puntos mnimos de la serie, obteniendose la poligonal de
fondos.

Apuntes de M
etodos Estadsticos para la Computaci
on

126

3.7. Estimaci
on de la tendencia

3. Se trazan perpendiculares al eje de abscisas que pasen por los vertices de las poligonales
de cimas y fondos.

4. Se calculan los puntos medios de los segmentos determinados por los cortes de cada perpendicular con las poligonales de cimas y fondos.

5. Finalmente, la tendencia viene determinada por la curva poligonal que une los puntos
medios de los segmentos.

En la grafica de la figura 3.5 se representan los elementos necesarios para aplicar el metodo
grafico de estimaci
on de la tendencia. Se ha utilizado el color azul para la serie temporal y el
rojo para la tendencia. Las poligonales de cimas y fondos se representan con trazos continuos
8
negros y las perpendiculares
con trazos discontinuos.
7

1
0
-2

-1

10

11

12

-1

Figura 3.5: Aplicaci


on del metodo grafico para la estimacion de la tendencia
-2

3.7.2.

M
etodo de las medias m
oviles

Usando medias m
oviles de
ordenes adecuados, podemos eliminar las variaciones estacionales,
cclicas y aleatorias, obteniendo por tanto la tendencia secular.
Las desventajas del metodo son la perdida de los datos iniciales y finales de la serie y el
hecho de que cuanto mayor es el orden de las medias, mayor informacion se pierde, por lo que
habra que mantener un cierto equilibrio.

Ejemplo 3.16 En la siguiente tabla se muestra el c


alculo de la tendencia secular utilizando
medias m
oviles de orden 3 (Y3 ) y 4 (Y4 ) respectivamente:

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

127

3. Series estadsticas

t
1952
1953
1954
1955
1956
1957
1958
1959
1960
1961
1962
1963
1964
1965

Y
20 4
30 4
30 7
40 1
50 2
50 3
50 6
6
60 2
50 1
40 9
50 2
50 8
7

Y3 = T

30 17
30 73
40 33
40 87
50 37
50 63
50 93
50 77
50 40
50 07
50 30
6

Y4 = T

30 75
40 33
40 81
50 28
50 64
50 74
50 63
50 45
50 30
50 48

Y4
30 40
40 10
40 57
50 05
50 52
50 77
50 72
50 55
50 35
50 25
50 72

3.7.3.

M
etodo de mnimos cuadrados

Este metodo se basa en el ya conocido metodo de los mnimos cuadrados, pues una serie
temporal no es m
as que un caso de variable bidimensional.
Si los valores de las variables son muy grandes entonces los coeficientes con los que trabajamos
son elevados. Cuando la variable tiempo, t, toma valores consecutivos formando una serie de salto
constante e igual a la unidad, (lo que ocurre en la mayora de las ocasiones), puede sustituirse por
otra, t0 , que se obtenga de ella mediante un sencillo cambio de origen. La tecnica de simplificaci
on
a seguir es an
aloga en los dos casos posibles:
1. Si el n
umero de valores de t es impar entonces el cambio es t0 = t t.
2. Si el n
umero de valores de t es par entonces el cambio es t0 = 2(t t).
En cualquiera de los dos casos anteriores se verifica que:
N
X

t0i = 0

N
X

i=1

t0i = 0

i=1

con lo que el sistema de ec. normales para obtener los parametros a y b de una recta y = a + bx
de tendencia estara formado por dos ecuaciones con una incognita cada una:
N
X
i=1

t0i yi = b

N
X
i=1

t0i

N
X

yi = aN

i=1

Adem
as, se puede calcular el coeficiente de determinacion, para saber si el ajuste de tendencia
es representativo o no.

Apuntes de M
etodos Estadsticos para la Computaci
on

128

3.7. Estimaci
on de la tendencia

Ejemplo 3.17 Consideremos la serie temporal constituida por los valores 3, 5, 8, 9, 13 y 12 de


la variable Y para los a
nos 1960 a 1965 respectivamente. Calcular los valores de tendencia por
el metodo de los mnimos cuadrados y comprobar si son representativos.
ti
1960
1961
1962
1963
1964
1965

yi
3
5
8
9
13
12
50

t0i
5
3
1
1
3
5
0

70 = 70b
50 = 6a

t0i 2
25
9
1
1
9
25
70

t0i yi
15
15
8
9
39
60
70

yi = T
30 3
50 3
70 3
90 3
110 3
130 3
490 8

yi2
9
25
64
81
169
144
492

b = 1
a = 80 3

ei
00 3
00 3
00 7
00 3
10 7
10 3

y = t0 + 80 3

10 16
Como e2 = 10 16 y y2 = 120 61 entonces R2 = 1 0 = 00 908 (proximo a 1), lo que permite
12 61
afirmar que los valores de tendencia calculados son representativos.


Este tercer metodo permite realizar predicciones en el futuro, siempre que la lnea de ajuste
sea representativa (R2 1) y se limite a un futuro proximo.
Ejemplo 3.18 Utilizando los datos del ejemplo 3.17, predecir el valor de Y para el a
no 1968:
t0 = 2(1968 19620 5) = 11

y = 11 + 80 3 = 190 3


3.7.4.

M
etodo de semipromedios

Consiste en separar los datos en 2 partes (iguales preferiblemente) y promediar los datos en
cada uno de los 2 grupos, obteniendo as dos puntos (t1 , y1 ) y (t2 , y2 ). La linea de tendencia se
halla entonces haciendo pasar una recta por los 2 puntos calculados:

y y1 =

y2 y1
(t t1 )
t2 t1

Ejemplo 3.19 Utilizar el metodo de los semipromedios para calcular los valores de tendencia
de la serie temporal del ejemplo 3.17.

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

129

3. Series estadsticas

Grupo
1

ti
1960
1961
1962
1963
1964
1965

yi
3
5
8
9
13
12

Punto

50 3

(1961, 50 3)

110 3

(1964, 110 3)

yi = T
30 3
50 3
70 3
90 3
110 3
130 3

siendo y = 50 3 + 2(t 1961) la lnea de tendencia obtenida a partir de los puntos (1961,53) y
(1964,113).


3.8.

Estimaci
on de la variaci
on estacional

Existen muchos metodos para calcular la variacion estacional de una serie temporal, sin
embargo, la mayora se basan en el mismo principio: aislar la variacion estacional mediante la
eliminacion previa de las otras componentes.
Vamos a presenta dos metodos para la hipotesis multiplicativa Y = T E C A donde la
eliminacion de las componentes pasa por ir dividiendo la expresion anterior por las componentes
aisladas. Adem
as, presentaremos un metodo para la hipotesis aditiva Y = T + E + C + A ,
analogo a los anteriores, pero restando componentes.
En los tres casos, determinaremos unas medidas de la variacion estacional los ndices de
variaci
on estacional (IE ) y las diferencias de variaci
on estacional (DE ), asociadas a cada estacion o momento de repetici
on anual. Estas medidas se utilizan para desestacionalizar la serie,
eliminando esta componente.

3.8.1.

M
etodo de la media m
ovil en porcentajes

El metodo de la media m
ovil en porcentajes nos permite identificar la variacion estacional
de una serie temporal, procediendo de la siguiente manera:
1. Dada la serie cronol
ogica (por meses, estaciones, trimestres, etc.) en varios a
nos, se calcula
la tendencia mediante el metodo de medias moviles cuyo orden coincida con el n
umero de
estaciones o periodos (orden 12 para meses, orden 4 para estaciones o trimestres, etc.). Si
el orden de la media m
ovil es un n
umero par, entonces la centramos.
2. El promedio m
ovil calculado sirve para eliminar las variaciones estacionales y las accidentales. Por lo tanto, dividiendo los datos originales (Y = T E C A) entre los calculados
en el primer paso (T C), obtenemos conjuntamente las variaciones estacional y accidental
(E A).
Y
T EC A
=
=EA
T C
T C
Apuntes de M
etodos Estadsticos para la Computaci
on

130

3.8. Estimaci
on de la variaci
on estacional

3. Por ultimo, y para eliminar la componente accidental, basta con calcular las medias
aritmeticas de los valores obtenidos en el paso anterior, referidas a cada estacion o periodo.

Los valores obtenidos representan la variacion estacional y su media debe ser uno. Cuando no
lo sea, se recomienda normalizarlos, de manera que la nueva media sea exactamente uno. Estos
u
ltimos valores obtenidos, expresados en tantos por cien, se denominan ndices de variacion
estacional (IE ) y representan el porcentajes sobre la media de los valores estacionales. Es decir,
si IE es mayor del 100 % entonces, en esa estacion, el valor es superior a la tendencia y, en caso
contrario, es inferior.

Ejemplo 3.20 Calcular los ndices de variaci


on estacional de la serie de datos relativos a ventas, obtenida en un estudio realizado durante 5 a
nos, y que se recoge en la siguiente tabla:

A
no 1

A
no 2

A
no 3

A
no 4

A
no 5

20 2

20 2

20 4

20 5

Verano

30 1

30 5

30 6

30 6

Oto
no

20 6

20 8

40 3

40 5

40 9

Invierno

10 8

20 1

20 2

20 3

Primavera

Para calcular los ndices de variaci


on estacional, seguimos los pasos del metodo de la media
movil en porcentajes:

1. Calculamos T C (eliminamos E A) utilizando medias moviles de orden 4 que al centrarlas


se obtiene:

T C

A
no 1

A
no 2

A
no 3

A
no 4

A
no 5

Primavera

20 43

20 81

30 13

30 25

Verano

20 48

30 01

30 16

30 31

Oto
no

20 40

20 50

30 05

30 19

Invierno

20 41

20 56

30 09

30 20

2. Dividimos los datos de la tabla original por los de la que hemos obtenido en el paso anterior
para obtener E A.
Dpto. Matem
atica Aplicada (Universidad de M
alaga)

131

3. Series estadsticas

EA

A
no 1

A
no 2

A
no 3

A
no 4

A
no 5

Primavera

00 91

00 78

00 77

00 77

Verano

10 21

10 16

10 14

10 09

Oto
no

10 08

10 12

10 41

10 41

Invierno

00 75

00 78

00 68

00 69

3. Haciendo media aritmeticas por filas eliminamos A obteniendo la variacion estacional


(sin normalizar). Por u
ltimo, calculamos los ndices de variacion estacional como simples
proporciones.
E
Primavera

00 81

Verano

10 15

Oto
no

10 26

Invierno

00 72

IE
100
00 81 = 810 97 %
30 94/4
100
10 15 = 1160 84 %
0
3 94/4
100
10 26 = 1270 66 %
0
3 94/4
100
00 72 = 730 53 %
30 94/4

3,94
El valor obtenido para estos ndices mide la influencia de la variacion estacional sobre un nivel
medio de ventas, es decir, que en primavera descienden las ventas un 18 % aproximadamente, se
eleva casi un 17 % y un 28 % respectivamente en verano y en oto
no, y vuelven a descender m
as
de un 26 % en invierno.


3.8.2.

M
etodo del porcentaje medio

El metodo del porcentaje medio nos permite calcular los ndices de variacion estacional de
una serie temporal con el objetivo de poder desestacionalizar la serie. Para ello, procederemos
de la siguiente manera:
1. Expresamos cada dato de cada periodo (mes, estacion, trimestre, etc.) como porcentajes
del promedio anual.
2. Se calcula la media aritmetica de los porcentajes obtenidos para un mismo periodo en el
paso anterior. De esta forma se obtienen los ndices de variacion estacional.
3. Si la media de los ndices obtenidos en el paso anterior no es 100, entonces debemos
ajustarlos (normalizaci
on) dividiendo cada uno de ellos, por la media. Por ejemplo habra
que ajustarlos si la suma de los ndices, obtenidos en el paso anterior, no corresponde al
total te
orico, es decir, 1200 para meses, 400 para estaciones o trimestres, etc.

Apuntes de M
etodos Estadsticos para la Computaci
on

132

3.8. Estimaci
on de la variaci
on estacional

Ejemplo 3.21 Calcular los ndices de variaci


on estacional de la serie temporal del ejemplo 3.20
de la p
agina 130 utilizando el metodo del porcentaje medio.
Para ello, seguimos los siguientes pasos:
1. Calculamos las medias anuales:

Media

A
no 1

A
no 2

A
no 3

A
no 4

A
no 5

20 375

20 5

30 025

30 175

30 325

2. Calculamos los porcentajes y la media de los mismos o ndice de variacion estacional

A
no 1

A
no 2

A
no 3

A
no 4

A
no 5

IE

Primavera

840 21 %

880 00 %

720 73 %

750 59 %

750 19 %

790 144 %

Verano

1300 53 %

120 %

1150 70 %

1130 39 %

1080 27 %

1170 578 %

Oto
no

1090 47 %

112 %

1420 15 %

1410 73 %

1430 37 %

1300 544 %

Invierno

750 79 %

80 %

690 42 %

690 29 %

690 17 %

720 734 %
400

En este caso no es necesario ajustar los ndices puesto que su suma (400) corresponde al total
teorico.

Ejemplo 3.22 Calcular los ndices de variaci
on estacional para los dos a
nos observados por
periodos mensuales.
La siguiente tabla recoge los resultados obtenidos al aplicar los distintos pasos del metodo:

Enero
Febrero
Marzo
Abril
Mayo
Junio
Julio
Agosto
Septiembre
Octubre
Noviembre
Diciembre
Media
Suma

A
no 1
1
3
0
2
1
4
1
3
0
2
1
6
2

A
no 2
3
4
2
4
3
6
1
2
1
3
2
5
3

A
no 1
50 %
150 %
0%
100 %
50 %
200 %
50 %
150 %
0%
100 %
50 %
300 %

A
no 2
100 %
133 %
66 %
133 %
100 %
200 %
33 %
66 %
33 %
100 %
66 %
166 %

Media
75 %
141 %
33 %
116 %
75 %
200 %
41 %
108 %
16 %
100 %
58 %
233 %

1200 %

1200 %

1192 %

75 (1200/1196)
141 (1200/1196)
33 (1200/1196)
116 (1200/1196)
75 (1200/1196)
200 (1200/1196)
41 (1200/1196)
108 (1200/1196)
16 (1200/1196)
100 (1200/1196)
58 (1200/1196)
233 (1200/1196)

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

IE
=
750 25 %
= 1410 47 %
=
330 11 %
= 1160 39 %
=
750 25 %
= 2000 67 %
=
410 14 %
= 108, 36 %
= 16, 05 %
= 1000 34 %
= 58, 19 %
= 2330 78 %
1200 %

133

3. Series estadsticas

Observese que, en este ejemplo, para obtener los ndices de variacion estacional, ha sido necesario
ajustar las medias de los porcentajes, puesto que no sumaban 1200 (total teorico).


3.8.3.

Estimaci
on de la variaci
on estacional para el modelo aditivo

Los ndices de variaci


on estacional, necesarios para la desestacionalizacion de una serie temporal, no son aplicables cuando consideramos la hipotesis aditiva (Y = T + E + C + A). En estos
casos, definimos una medida equivalente que denominamos diferencias de variaci
on estacional,
y que denotamos por DE . Para ello, aplicaremos el metodo de la diferencia a la tendencia, de la
siguiente manera:
1. Calculamos la tendencia (T ) por cualquiera de los metodos ya estudiados.
2. A cada dato de la serie le restamos su correspondiente valor de la tendencia:
Y T =E+C +A
3. Para eliminar el resto de componentes (C + A), se promedian los valores correspondientes
a los mismos periodos.
4. Los valores obtenidos deben sumar 0, y si no es as, entonces hay que ajustarlos. Para
ello, se calcula la media y se le resta a cada uno de los valores, obteniendo la diferencia de
variaci
on estacional (DE ).
En este caso, la interpretaci
on es similar a los ndices de variacion estacional, pero tomando
el cero como centro. Por ejemplo, si DE es positivo entonces, en ese punto, el valor de la serie es
superior a la tendencia. Por el contrario, si DE se negativo indica que el correspondiente valor
de la serie es inferior a la tendencia.
Ejemplo 3.23 Calcular las diferencias de variaci
on estacional de la serie temporal del ejemplo
3.20 de la p
agina 130.
En primer lugar, estimamos la tendencia de la serie de ventas (V ) utilizando, por ejemplo, el
metodo de los mnimos cuadrados. Para ello, sera necesario asignar un n
umero a cada periodo
de tiempo (t). Comenzaremos asignado un 1 a la primavera (P) del a
no 1, y consecutivamente
al resto de periodos de tiempo, hasta asignar un 20 al invierno (I) del a
no 5.

t
V

P
1
20

A
no 1
V
O
2
3
31 26

I
4
18

P
5
22

A
no 2
V
O
6
7
30 28

I
8
20

...
...
...
...

P
17
25

A
no 5
V
O
18 19
36 49

I
20
23

La recta de regresi
on que se ajusta a los datos de la tabla anterior es
V = 0, 0617 t + 2, 2326
y determina la tendencia (T) que mostramos en la siguiente tabla:

Apuntes de M
etodos Estadsticos para la Computaci
on

134

3.8. Estimaci
on de la variaci
on estacional

A
no 1

A
no 2

A
no 3

A
no 4

A
no 5

Primavera

20 29

20 54

20 79

30 03

30 28

Verano

20 36

20 60

20 85

30 10

30 34

Oto
no

20 42

20 66

20 91

30 16

30 40

Invierno

20 48

20 73

20 97

30 22

30 47

En segundo lugar, a cada dato de la la serie le restamos su correspondiente valor de tendencia


y obtenemos los siguientes valores:

E+C +A

A
no 1

A
no 2

A
no 3

A
no 4

A
no 5

Primavera

00 29

00 59

00 63

00 78

Verano

00 74

0,34

Oto
no

00 18

00 14

10 39

10 34

10 50

00 68

00 73

00 87

10 02

10 17

Invierno

00 40

00 65

00 50

00 26

Para eliminar el resto de componentes, se promedian los valores correspondientes a los mismos
periodos.

DE
Primavera

0, 53

Verano

0, 51

Oto
no

0, 91

Invierno

0, 89

Los valores obtenidos suman 0, de manera que no sera necesario normalizarlos y, por lo
tanto, corresponden a las diferencias de variacion estacional. Los valores negativos obtenidos
para la primavera y el invierno, indican que, en estas estaciones, el valor de la serie es inferior a
la tendencia. Por el contrario, los valores positivos obtenidos para el verano y el oto
no indican
que los valores de la serie est
an por encima de la tendencia.


3.8.4.

Desestacionalizaci
on de una serie temporal

La componente estacional tiene interes, por s misma, pues nos permite conocer la evolucion a corto plazo de la serie temporal. Pero, ademas, es interesante llegar al conocimiento de
la serie temporal una vez eliminadas las variaciones estacionales, y este proceso se denomina
desestacionalizaci
on.

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

135

3. Series estadsticas

Una de las aplicaciones de la desestacionalizacion es el calculo de la tendencia real. La


eliminacion de la componente estacional se utiliza para recalcular la tendencia y obtener una
mejor aproximaci
on de la trayectoria real de la serie.
Para desestacionalizar una serie temporal, y dependiendo de la hipotesis elegida (aditiva o
multiplicativa), se procede de la siguiente manera:
1. Hip
otesis multiplicativa: Se divide cada dato de la serie por el ndice de variacion estacional:
T C A=

Y
IE

2. Hip
otesis aditiva: A cada dato de la serie se le resta la diferencia de variacion estacional:
T + C + A = Y DE
Ejemplo 3.24 Desestacionalizar la serie temporal del ejemplo 3.20 de la p
agina 130 para recalcular su tendencia, suponiendo la hip
otesis multiplicativa.
En el ejemplo 3.20 se determina la estacionalidad (E) que figura en la siguiente tabla:

A
no 1

A
no 2

A
no 3

A
no 4

A
no 5

Primavera

00 820

00 820

00 820

00 820

00 820

Verano

10 168

10 168

10 168

10 168

10 168

Oto
no

10 277

10 277

10 277

10 277

10 277

Invierno

00 735

00 735

00 735

00 735

00 735

Para desestacionalizar la serie, dividimos los datos de la tabla original por los valores anteriores:

T C A

A
no 1

A
no 2

A
no 3

A
no 4

A
no 5

Primavera

20 44

20 68

20 68

20 93

30 05

Verano

20 65

20 57

30 00

30 08

30 08

Oto
no

20 04

20 19

30 37

30 53

30 84

Invierno

20 45

20 72

20 86

20 99

30 13

Esta u
ltima tabla corresponde a las cifras de ventas obtenidas por la empresa, prescindiendo
de las variaciones estacionales.
Ahora, para calcular la tendencia real, recalculamos la tendencia a los datos desestacionalizados de la tabla anterior, aplicando cualquier metodo, por ejemplo el de mnimos cuadrados. Para
ello, sera necesario asignar un n
umero a cada periodo de tiempo (t). Comenzaremos asignado
un 1 a la primavera (P) del a
no 1, hasta asignar un 20 al invierno (I) del a
no 5.

Apuntes de M
etodos Estadsticos para la Computaci
on

136

3.9. Estimaci
on de las variaciones cclicas

t
V

P
1
244

A
no 1
V
O
2
3
265 204

I
4
245

P
5
268

A
no 2
V
O
6
7
257 219

I
8
272

...
...
...
...

P
17
305

A
no 5
V
O
18
19
308 384

I
20
313

La recta de regresi
on que se ajusta a los datos de la tabla anterior es

V = 0, 0578 t + 2, 2567
y determina la tendencia (T) que mostramos en la siguiente tabla:

A
no 1

A
no 2

A
no 3

A
no 4

A
no 5

Primavera

20 31

20 55

20 78

30 01

30 24

Verano

20 37

20 60

20 83

30 07

30 30

Oto
no

20 43

20 66

20 89

30 12

30 35

Invierno

20 49

20 72

20 95

30 18

30 41

Observese que estos valores de la tendencia real difieren de los valores de tendencia obtenidos
en el ejemplo anterior, ya que en este caso no estan afectados por la componente estacional. 

3.9.

Estimaci
on de las variaciones cclicas

Una vez calculadas las variaciones Estacionales y la Tendencia, restando o dividiendo los
datos originales, por estos, obtenemos:

Hipotesis multiplicativa:
Hipotesis aditiva:

Y
T EC A
=
=C A
T E
T E

Y (T + E) = (T + E + C + A) (T + E) = C + A

Para aislar la componente cclica, basta calcular un promedio movil apropiado de unos pocos
meses de duraci
on (digamos 3, 5
o 7 meses, de manera que no sea necesario el centrado). De
esta forma se suavizan las variaciones accidentales para dejar solo las variaciones cclicas.
Si ocurre una periodicidad de ciclos, se puede construir ndices cclicos de manera parecida
a como se han hecho los ndices estacionales.

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

137

3. Series estadsticas

3.10.

Estimaci
on de las variaciones aleatorias

Para aislar las variaciones aleatorias basta con restar o dividir por el resto de las componentes
ya calculadas T , E y C seg
un consideremos la hipotesis aditiva o multiplicativa.
Y
T EC A
=
=A
T EC
T EC

Hip
otesis multiplicativa:
Hip
otesis aditiva:

Y (T + E + C) = (T + E + C + A) (T + E + C) = A

En la pr
actica se observa que las variaciones aleatorias tienden a tener peque
na magnitud y
a seguir el esquema de una distribucion normal; es decir, las peque
nas desviaciones ocurren con
gran frecuencia, mientras que grandes desviaciones ocurren con peque
na frecuencia.

Ejemplo 3.25 Descomponer la serie temporal del ejemplo 3.20 de la p


agina 130 en sus cuatro
componentes, suponiendo la hip
otesis multiplicativa.
En el ejemplo 3.24 de la p
agina 135 se calculan tanto la tendencia como las variaciones estacionales. Si tomamos los datos desestacionalizados (T C A) que proporcionaba este ejemplo y
los dividimos entre los datos de tendencia corregida, obtenemos una nueva tabla con las componentes C y A:

C A

A
no 1

A
no 2

A
no 3

A
no 4

A
no 5

Primavera

10 05

10 05

00 97

00 97

00 94

Verano

10 12

00 99

10 06

10 00

00 93

Oto
no

00 84

00 82

10 16

10 13

10 14

Invierno

00 98

10 00

00 97

00 94

00 92

Si utilizamos medias m
oviles, por ejemplo, de orden 3, obtenemos la componente cclica:

A
no 1

A
no 2

A
no 3

A
no 4

A
no 5

Primavera

10 01

10 01

00 98

00 94

Verano

10 00

00 95

10 06

10 04

10 01

Oto
no

00 98

00 94

10 06

10 02

10 00

Invierno

00 96

00 93

10 04

10 00

Y, finalmente, para aislar la componente aleatoria (A) basta dividir, en cada periodo de
tiempo, los valores originales de la serie entre el producto de los valores calculados de las componentes (T E C), o de manera mas sencilla, dividir, simplemente, los valores de la primera
Apuntes de M
etodos Estadsticos para la Computaci
on

138

3.10. Estimaci
on de las variaciones aleatorias

tabla de este ejemplo (C A), por los correspondientes valores de la segunda (C).
A
Primavera

A
no 1

A
no 2

A
no 3

A
no 4

A
no 5

10 05

00 96

00 99

10 00

Verano

10 11

10 03

00 99

00 97

00 93

Oto
no

00 86

00 88

10 10

10 10

10 15

Invierno

10 03

10 08

00 94

00 94

Observese que los valores de las componentes C y A son proximos a 1, lo que indica que tienen
muy poco efecto en esta serie temporal, estudiada bajo la hipotesis multiplicativa. Analogamente,
cuando consideremos la hip
otesis aditiva, valores de las componentes proximos a cero indicaran
la poca influencia de esa componente en la serie temporal.


Dpto. Matem
atica Aplicada (Universidad de M
alaga)

139

3. Series estadsticas

3.11.

Relaci
on de problemas

1. Consideramos la variable X que toma los valores 22, 28, 34, 25 y 41 en cinco periodos de
tiempo consecutivos. Se pide:
a) Calcular la serie de ndices simples elementales con base el periodo de menor valor.
b) Calcular la serie de ndices simples en cadena.
c) Calcular la serie de ndices simples elementales tomando como base un periodo ficticio
cuyo valor sea la media de los valores de la variable en esos 5 a
nos.
2. El porcentaje de la poblaci
on mayor de 65 a
nos sobre el total de la poblacion en siete de
los distritos de la ciudad de Malaga es: 8 , 113 , 963 , 678 , 732 , 896 y 68. Determinar
el ndice simple m
as adecuado a este caso y calcular la serie de ndices correspondiente.
3. Comprobar que son correctos los ndices simples calculados para comparar la evoluci
on
del n
umero de franceses y noruegos residentes en la ciudad de Malaga entre los a
nos 1956
y 1958, e interpretar el resultado.
A
no

Franceses

Noruegos

IF

IN

1956

1035

44

100

100

1957

1230

56

1180 84

1270 27

1958

1351

65

1300 53

1470 72

4. Consideramos los valores 1, 2, 5, 8, 10, 15, 18, 20, 21, 24, 25, 28, 30, 32, 36, 45, 89, 99, 100
y 273 de una variable en 20 instantes de tiempo. Sin usar calculadora, obtener los ndices
simples elementales con base el instante 8 cuyo valor correspondiente es 20.
5. Consideramos los valores 1, 12, 18, 24, 48, 24, 12, 03, 01, 10, 8, 8, 10, 125, 1250 de una
variable en 15 instantes de tiempo consecutivos. Sin usar calculadora, obtener los ndices
simples en cadena.
6. Sin utilizar calculadora, determinar los errores cometidos en la elaboracion de esta serie
de ndices simples y justificar la respuesta.
variable 5
6
6
12 0 10 16
8
4
10
ISE
100 120 100 240 0 0 320 160 120 200
ISC
100 160 100 240 0 0 160 150 50 250
7. Consideramos la siguiente serie de n
umeros ndices simples correspondientes a los valores
de una variable X en diez periodos de tiempo (t).
t 1 2
3
4
5
6
7
8
9
10
IS 75 90 100 105 120 125 112 134 180 240
Obtener los valores de la variable X en cada uno de los siguientes casos:
a) Los ndices son elementales y el valor de la variable en el periodo t = 3 es 1350.
b) Los ndices son elementales y el valor de la variable en el periodo t = 6 es 281.

Apuntes de M
etodos Estadsticos para la Computaci
on

140

3.11. Relaci
on de problemas

c) Los ndices son en cadena y el valor de la variable en el periodo t = 3 es 1350.


8. Los ndices simples elementales y en cadena estan ntimamente relacionados. De hecho,
existe una f
ormula para calcular unos en funcion de los otros. Se pide:
a) Determinar una f
ormula que permita calcular los ndices elementales en funcion de
los ndices en cadena.
b) Consideremos que los datos del ejercicio 7 corresponden a una serie de ndices simples
en cadena. A partir de ella, calcular la serie de ndices elementales utilizando la
formula obtenida en el apartado anterior.
c) Determinar una f
ormula que permita calcular los ndices en cadena en funcion de los
ndices elementales.
d ) Consideremos que los datos del ejercicio 7 corresponden a una serie de ndices simples
elementales. A partir de ella, calcular la serie de ndices en cadena utilizando la
formula obtenida en el apartado anterior.
9. El precio de un kilo de az
ucar entre los a
nos 1975 y 1982 viene dado en la siguiente tabla:
A
no

1975 1976 1977 1978 1979 1980 1981 1982

Precio

25

29

34

38

42

45

70

77

Se pide:
a) Calcular la relaci
on de precios tomando 1975 como a
no base, explicando los resultados.
b) Calcular la relaci
on de precios tomando 1978 como a
no base y 1982 como a
no dado.
c) Calcular la relaci
on de precios tomando como base en cada periodo de tiempo el valor
que toma la variable en el periodo inmediatamente anterior (n
umero ndice simple en
cadena).
10. Consideremos cuatro productos de una industria, cuyos precios de venta y produccion son
los siguientes:

Producto
A
B
C
D

Precio
225
75
68
109

1979
Cantidad
200
15
10
34

Precio
314
82
75
120

1988
Cantidad
320
21
14
50

Se pide:
a) Para cada uno de los productos, determine el ndice de valor para 1988 con base en
1979.
b) Determine el ndice de valor, de todos los productos, para 1988 con base en 1979.
c) Determine los ndices de precios de Laspeyres, de Paasche, de Marshall-Edgeworth y
de Fisher para 1988 tomando como base el a
no 1979.

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

141

3. Series estadsticas

11. Indices complejos sin ponderar. La siguiente tabla muestra los precios y las cantidades de
tres artculos para los a
nos 1980 a 1984

t
1980
1981
1982
1983
1984

Precios
2
2
3
4
4

A
Cantidades
10
12
15
20
18

Precios
5
6
6
7
8

B
Cantidades
12
10
5
6
5

Precios
10
11
12
12
13

C
Cantidades
3
2
3
1
2

Se pide:
a) Calcular los ndices de precios, por agregacion simple, de estos productos, tomando
como base el a
no 1980.
b) Calcular los ndices de cantidad, por agregacion simple, de estos productos, tomando
como base el a
no 1980.
c) Calcular los ndices de precios, por la media aritmetica simple, de estos productos,
tomando como base el a
no 1980.
d ) Calcular los ndices de cantidad, por la media aritmetica simple, de estos productos,
tomando como base el a
no 1980.
12. Indices complejos ponderados. Con los datos de la tabla del ejemplo 11 de la pagina 141,
calcular:
a) Los ndices de precios, con base 1980, por el metodo de agregacion ponderada, y
tomando como pesos las cantidades para 1980.
b) Los ndices de precios, con base 1982, por el metodo de promedio ponderado, y tomando como pesos las cantidades para 1982.
13. Indices de precios. Con los datos de la tabla del ejemplo 11 de la pagina 141, calcular:
a) El n
umero ndice de precios de Laspeyres para 1984 tomando como base el a
no 1980.
b) El n
umero ndice de precios de Paasche para 1984 tomando como base el a
no 1980.
c) El n
umero ndice ideal de Fisher para 1984 tomando como base el a
no 1980.
d ) El n
umero ndice de precios de Marshall-Edgeworth para 1984 tomando como base
el a
no 1980.
14. Cambio de periodo base. La siguiente tabla muestra los precios y las cantidades de tres
artculos para los a
nos 1990 a 1994

t
1990
1991
1992
1993
1994

Precios
2
2
3
5
4

A
Cantidades
10
12
20
15
18

Precios
5
6
7
7
8

B
Cantidades
12
10
5
6
4

Precios
3
2
3
1
2

C
Cantidades
10
11
12
13
14

Apuntes de M
etodos Estadsticos para la Computaci
on

142

3.11. Relaci
on de problemas

Se pide:
a) Calcular los ndices de Laspeyres, con base 1990.
b) Calcular los ndices de Laspeyres, con base 1992, a partir de los datos obtenidos en
el apartado anterior.
c) Recalcular los ndices de Laspeyres, con base 1992, a partir de los datos originales y
compararlos con los que se han obtenido en el apartado anterior.
d ) Repetir el proceso con los ndices de Paasche, Marshall-Edgeworth y Fisher.
15. Renovacion y empalme. La siguiente tabla muestra los precios y las cantidades de tres
artculos para los a
nos 1990 a 1992

t
1990
1991
1992

Precios
2
2
3

A
Cantidades
10
12
20

Precios
5
6
7

B
Cantidades
12
10
5

Precios
3
2
3

C
Cantidades
10
11
12

Se pide:
a) Calcular los ndices de Paasche, con base 1990.
b) Se consideran los siguientes nuevos datos para los a
nos 1993 al 1995:
t
1993
1994
1995

Precios
4
6
5

A
Cantidades
25
20
22

Precios
8
8
9

B
Cantidades
6
7
5

Precios
4
2
3

C
Cantidades
13
14
15

Se pide:
1) Renovar el ndice de Paasche tomando 1993 como nuevo a
no base.
2) Empalmar las dos series de ndices
16. Consideremos que el salario medio por hora en unidades monetarias de los trabajadores
de un determinado sector productivo y los ndices de precios de consumo a lo largo de seis
a
nos fueron los siguientes:
A
nos
1979
1980
1981
1982
1983
1984

Salarios/hora
52
58
60
63
64
84

Indice de precios
140
162
175
190
200
205

Se pide:
a) Estudie la evoluci
on de los salarios/hora en terminos reales.
b) Cuantificar la variaci
on en ese periodo del salario/hora en unidades monetarias corrientes y en terminos reales.

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

143

3. Series estadsticas

17. Hallar los deflactores implcitos para el producto interior bruto a precios de mercado
conociendo los datos de la siguiente tabla:

A
nos
1980
1981
1982
1983
1984
1985

Producto interior bruto


A precios corrientes A precios constantes de 1980
15209
15209
16980
15171
19567
15356
22235
15633
25121
15925
27930
16282

18. Sabiendo que el IPC del a


no 1998 respecto del a
no 1990 es de 135 %, se pide:
a) Calcule el valor real en 1990 de un producto que costase 1000 pesetas del a
no 1998.
b) Calcule el valor real en el a
no 1998 de un producto que en el a
no 1990 costaba 1000
pesetas.
19. En el a
no 2006 compre un coche por valor de 24.000 euros. Suponiendo verdaderos los
siguientes datos del IPC:
I90/69 = 1000 %

I90/06 = 75 %

Que le hubiese costado a mi padre (valor real) comprarlo en 1969?


20. La siguiente tabla muestra la poblacion agricultora (en millones) en EE.UU. durante los
a
nos 1973-1983.
A
no

1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983

Poblaci
on

90 47

90 26

80 86

80 25

70 81

80 01

70 55

70 24

70 01

60 88

70 03

Se pide:
a) Obtener la media m
ovil de orden 4 y de orden 5 y representar en una grafica los
promedios conjuntamente con los datos originales.
b) Calcular la tendencia por el metodo de los mnimos cuadrados, ajustando una recta
y representar gr
aficamente el resultado junto a los valores originales.
c) Calcular la tendencia por el metodo de semipromedios y representar graficamente
el resultado junto a los valores originales. Hacer el ejercicio tomando primero como
promedio la media aritmetica y repetirlo utilizando la mediana. Sugerencia: Omitir el
dato central correspondiente al a
no 1978 para poder dividir los datos en dos conjuntos
con igual n
umero de elementos.
d ) Presentar en una tabla los valores de la tendencia obtenidos en los metodos anteriores
y comparar los distintos resultados.
21. La siguiente tabla muestra la produccion de energa electrica mensual de consumo no
industrial, en miles de millones de kilovatios-hora (Kwh), en EE.UU. durante los a
nos
1976-1981.

Apuntes de M
etodos Estadsticos para la Computaci
on

144

3.11. Relaci
on de problemas

Ene

Feb

Mar

Abr

May

Jun

Jul

Ago

Sep

Oct

Nov

Dic

1976

1780 2

1560 7

1640 2

1530 2

1570 5

1720 6

1850 9

1850 8

1650 0

1630 6

1690 0

1830 1

1977

1960 3

1620 8

1680 6

1560 9

1680 2

1800 2

1970 9

1950 9

1760 0

1660 4

1660 3

1830 9

1978

1970 3

1730 7

1730 2

1590 7

1750 2

1870 4

2020 6

2050 6

1850 6

1750 6

1760 3

1910 7

1979

2090 5

1860 3

1830 0

1690 5

1780 2

1860 7

2020 4

2040 9

1800 6

1790 8

1770 4

1880 9

1980

2000 0

1880 7

1870 5

1680 6

1750 7

1890 4

2160 1

2150 4

1910 5

1780 5

1780 6

1950 6

1981

2050 2

1790 6

1850 4

1720 4

1770 7

2020 7

2200 2

2100 2

1860 9

1810 4

1750 6

1950 6

Se pide:
a) Calcular los ndices de variaci
on estacional por el metodo de media movil en porcentajes.
b) Calcular los ndices de variaci
on estacional por el metodo de porcentaje medio.
c) Construir una tabla de comparacion para los ndices estacionales hallados en los
apartados anteriores.
d ) Desestacionalizar los datos haciendo uso de los ndices de variacion estacional obtenidos por el metodo de la media movil en porcentajes.
e) Representar en un mismo gr
afico los datos originales y los desestacionalizados para
poder comparar.
f ) Calcular la tendencia por el metodo de los mnimos cuadrados.
g) Calcular las variaciones cclica y accidental.
22. Las siguientes cifras corresponden a los matrimonios celebrados en Espa
na durante el
periodo 1959-1962.
1959

1960

1961

1962

1er .

cuatrimestre

66

62

63

61

2o .

cuatrimestre

77

77

78

78

3er .

cuatrimestre

100

97

96

97

Se pide:
a) Calcular las componentes de la serie temporal considerando la hipotesis multiplicativa.
b) Calcular las componentes de la serie temporal considerando la hipotesis aditiva.

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

Apuntes de
ESTADISTICA

Probabilidad

Sixto Sanchez Merino


Dpto. de Matematica Aplicada
Universidad de Malaga

Mi agradecimiento a los profesores Carlos Cerezo Casermeiro y


Carlos Guerrero Garca, por sus correcciones y sugerencias en la
elaboraci
on de estos apuntes.

Apuntes de Estadstica
2011, Sixto Sanchez Merino.
Este trabajo est
a editado con licencia Creative Commons del tipo:
Reconocimiento-No comercial-Compartir bajo la misma licencia 3.0 Espa
na.
Usted es libre de:
copiar, distribuir y comunicar p
ublicamente la obra.
hacer obras derivadas.
Bajo las condiciones siguientes:
Reconocimiento. Debe reconocer los creditos de la obra de la manera especificada
por el autor o el licenciador (pero no de una manera que sugiera que tiene su apoyo
o apoyan el uso que hace de su obra).
No comercial. No puede utilizar esta obra para fines comerciales.
Compartir bajo la misma licencia. Si altera o transforma esta obra, o genera
una obra derivada, s
olo puede distribuir la obra generada bajo una licencia identica
a esta.
Al reutilizar o distribuir la obra, tiene que dejar bien claro los terminos de la licencia de
esta obra.
Alguna de estas condiciones puede no aplicarse si se obtiene el permiso del titular de los
derechos de autor.
Nada en esta licencia menoscaba o restringe los derechos morales del autor.

Captulo 4

Probabilidad
Un experimento cientfico es una accion que da lugar a resultados identificables. Este experimento puede ser determinista o aleatorio y sera en este u
ltimo tipo donde centraremos nuestro
estudio.
Las caractersticas de un experimento aleatorio son: (1) Los posibles resultados son conocidos
previamente, (2) el resultado no es predecible y (3) repeticiones en situaciones analogas puede
dar resultados diferentes.

Espacio muestral y suceso aleatorio


El espacio muestral de un experimento aleatorio es el conjunto formado por todos los posibles
resultados del experimento. El cardinal de este conjunto puede ser finito (n
umero obtenido al
lanzar un dado) o infinito (tiempo que tarda una bombilla en fundirse).
Un suceso aleatorio es un subconjunto de elementos del espacio muestral. Para un experimento aleatorio, un suceso queda definido si una vez realizado el experimento, queda siempre
determinado si sucedi
o o no.
Se llama espacio de sucesos al conjunto formado por todos los subconjuntos del espacio
muestral, es decir, si E es el espacio muestral, entonces, P(E) (conjunto de las partes de E) es
el espacio de sucesos. Por ejemplo, si jugamos a cara o cruz (Head and Tail en ingles) y
lanzamos una moneda, el espacio muestral E = {H, T } esta formado por los sucesos H=salir
cara (Head, en ingles) y T =salir cruz (Tail, en ingles); y el espacio de sucesos es el conjunto
P(E) = {, {H}, {T }, {H, T }}.

Suceso elemental, seguro e imposible


Un suceso se dice elemental si corresponde a un u
nico resultado simple del experimento, por
ejemplo, A=salir 5 al lanzar un dado={5}. Un suceso compuesto es la union de varios sucesos
elementales, es decir, un conjunto formado por varios resultados posibles del experimento, por
ejemplo, B=salir n
umero impar al lanzar un dado={1, 3, 5}.
Llamamos suceso seguro al suceso que sabemos que ocurrira siempre al realizar el experimento y que se corresponde con el espacio muestral, por ejemplo, en el experimento del lanzamiento

147


4.1. Algebra
de Boole de sucesos

148

de un dado, el suceso seguro es E = {1, 2, 3, 4, 5, 6}. El suceso imposible es aquel que no puede suceder nunca y se representa por , por ejemplo, salir un n
umero mayor que 7 en el
experimento de lanzar un dado.
Decimos que dos sucesos A y B de un espacio muestral son incompatibles si A B = .
Por ejemplo, al lanzar un dado, los sucesos A=salir par y B=salir impar son incompatibles,
pues A = {2, 4, 6} y B = {1, 3, 5} con lo cual A B = .
Si A es un suceso del espacio muestral E, llamamos suceso contrario o complementario del
suceso A, y lo denotamos por A
o bien Ac al suceso que ocurre cuando no se da el suceso A,
es decir, A = E A. Por ejemplo, en el experimento de lanzar un dado, el complementario del

suceso A=salir par es el suceso A=salir


impar, pues A = {2, 4, 6} y A = E A = {1, 3, 5}.
Ejemplo 4.1 Consideramos el experimento de lanzar un dado y observar el n
umero que aparece
en la cara superior. Sean A=salir un n
umero par, B=salir impar y C=salir primo tres
determinando
sucesos. Describir el espacio muestral E y los sucesos A B, B C, A B, B C,
su tipo.
A = {2, 4, 6}
B = {1, 3, 5}
C = {2, 3, 5}

AB
BC
AB
B C

= {1, 2, 3, 4, 5, 6} , suceso seguro


= {1, 2, 3, 5} , suceso compuesto
= , suceso imposible
= {1} , suceso elemental

Como podemos observar en las definiciones anteriores y en el ejemplo, existe una gran
analoga entre los sucesos y la teora de conjuntos que permite determinar la estructura del
espacio de sucesos.

4.1.

Algebra
de Boole de sucesos

Como aplicaci
on directa de la teora de conjuntos, el espacio de sucesos P(E), con las operaciones union, intersecci
on y complementario, tiene la estructura de algebra de Boole. Pero
veamos que tambien podemos obtener esta misma estructura en subconjuntos del espacio de
sucesos.
Se llama
algebra de sucesos sobre el espacio muestral E a toda familia A P(E) que verifica
los siguientes condiciones:
Ax.1) E A

Ax.2) Si A A entonces A A

Ax.3) Si A, B A entonces A B A
De la condici
on (Ax.3) sobre la pertenencia al algebra de la union de dos sucesos se deduce
por induccion la pertenencia al
algebra de cualquier union finita de sucesos. Imponer que se
cumpla esta condici
on para la uni
on numerable de sucesos da lugar a la definicion de -algebra.
Se llama -
algebra de sucesos sobre el espacio muestral E a toda familia A P(E) que
verifica los siguientes condiciones:

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

149

4. Probabilidad

Ax.1) E A
Ax.2) Si A A entonces A A
Ax.3) Si Ai A para todo i I entonces iI Ai A (con I finito o infinito numerable).
Si un conjunto de sucesos A es un algebra o un -algebra de sucesos sobre un espacio muestral
E, diremos que (E, A) es un espacio probabilizable. Normalmente, en el caso finito, tomaremos
como algebra el conjunto P(E).
Ejemplo 4.2 Consideramos el experimento de lanzar un dado y observar el n
umero que aparece en la cara superior cuyo espacio muestral es E = {1, 2, 3, 4, 5, 6}. El conjunto de sucesos
A = {, {1}, {2}, {1, 2}, E} no es un
algebra de sucesos pues no verifica el axioma (Ax.2). Sin
embargo, el conjunto de sucesos B = {, {1, 3, 5}, {2, 4, 6}, E} s es un
algebra de sucesos pues
verifica los tres axiomas.
Hay muchas propiedades que se deducen de la definicion axiomatica de algebra de sucesos.
y aplicando las condiciones (Ax.1) y (Ax.2). Igual
Por ejemplo, A sabiendo que = E
ocurre con la intersecci
on de sucesos: si A, B A entonces A B A como consecuencia de
y aplicar sucesivamente las condiciones (Ax.2) y (Ax.3). En una escribir A B = A B
T
T
S
algebra, si Ai A, entonces iI Ai A como consecuencia de escribir iI Ai = iI Ai y
aplicar sucesivamente las condiciones (Ax.2) y (Ax.3).
Ejemplo 4.3 Si A es un
algebra de sucesos sobre el espacio muestral E, demostrar la siguiente
propiedad:
Si A, B A entonces A B A
Como A A por hipotesis y B A por el axioma (Ax.2),
Sabemos que A B = A B.
aplicamos que la intersecci
on de dos sucesos del algebra pertenece al algebra y deducimos que
A B A.


4.2.

Probabilidad

En primer lugar, veamos la definicion axiomatica de probabilidad. Despues veremos su definicion clasica o frecuentista que relaciona los conceptos de probabilidad y frecuencia relativa.

4.2.1.

Definici
on axiom
atica de probabilidad

Sea (E, A) un espacio probabilizable, se llama funci


on de probabilidad, o simplemente probabilidad a toda funci
on P : A [0, 1] que verifique las siguientes condiciones:
Ax.1) Para todo A A, se verifica que P (A) 0
Ax.2) P (E) = 1

Apuntes de M
etodos Estadsticos para la Computaci
on

150

4.2. Probabilidad

Ax.3) Para todo {Ai : Ai A}iI , se verifica que P (


para todo i 6= j, con i, j I.

iI

Ai ) =

iI

P (Ai ) si Ai Aj =

Si P es una funci
on de probabilidad sobre el espacio probabilizable (E, A), se llama espacio
de probabilidad a la terna (E, A, P ).
Una funcion de probabilidad queda determinada conociendo el valor de la funcion para los
sucesos elementales, pues la probabilidad de cualquier otro suceso se calcula aplicando el axioma
(Ax.3).
Ejemplo 4.4 Consideramos el experimento que consiste en lanzar un dado. Calcule la probabilidad de que salga un n
umero par.
Los sucesos elementales del experimento son {1, 2, 3, 4, 5, 6} y si el dado no esta trucado, los
sucesos son equiprobables y la probabilidad de cada uno de ellos es 1/6. El suceso que nos piden
corresponde con el subconjunto {2, 4, 6} cuya probabilidad es la suma de las probabilidades de
cada uno de los sucesos elementales que lo componen, es decir, 1/2.

Ejemplo 4.5 Sea E = {a1 , a2 , a3 } el espacio muestral de un cierto experimento aleatorio. Determine si la funci
on P definida por P (a1 ) = 41 , P (a2 ) = 21 y P (a3 ) = 81 es una probabilidad.
La union disjunta de los sucesos elementales corresponde con el espacio muestral cuya probabilidad ha de ser 1 en virtud del axioma (Ax.2). Por lo tanto, por el axioma (Ax.3), la suma de
las probabilidades de todos los sucesos elementales ha de ser 1. Pero en este caso, P no es una
probabilidad pues P (E) = P (a1 ) + P (a2 ) + P (a3 ) = 7/8 6= 1, en contra de los axiomas (Ax.2)
y (Ax.3).

En cualquier espacio de probabilidad (E, A, P ) se verifican las siguientes propiedades:
= 1 P (A)
1. P (A)
2. P () = 0
3. Si A B P (A) P (B)
4. 0 P (A) 1
5. P (A B) = P (A) + P (B) P (A B)
6. P (A B C) = P (A) + P (B) + P (C) P (A B) P (A C) P (B C) + P (A B C)
7. P (A B) = P (A) P (A B)
Ademas, cada una de las propiedades anteriores se demuestra a partir de la definicion
axiomatica de probabilidad y de las propiedades que se hayan demostrado previamente, utilizando la estructura de
algebra de Boole del algebra A.
= 1 P (A) y utilcela para
Ejemplo 4.6 Demuestre la propiedad de la probabilidad P (A)
demostrar la propiedad P () = 0.

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

151

4. Probabilidad

Por ser A un
algebra de Boole, sabemos que para cualquier suceso A se verifica que E = A A.

Como esta uni


on es disjunta, aplicando el axioma (Ax.3), tenemos que P (E) = P (A) + P (A).
Finalmente, aplicamos el axioma (Ax.2), sustituyendo P (E) por 1, y despejamos para obtener
= 1 P (A).
la propiedad P (A)
Para demostrar la segunda propiedad usamos la propiedad que hemos demostrado pero consi = 1 P (E), es decir,
derando el caso particular A = E. De esta manera tenemos que P (E)
P () = 1 1 = 0.

Resulta muy pr
actico utilizar los diagramas de Venn para interpretar el significado de las
propiedades de la probabilidad. Para ello, identificamos la probabilidad de los sucesos con su
area y asignamos 1 a la probabilidad del universo donde se representan los sucesos.
Ejemplo 4.7 Interpretar la f
ormula de la probabilidad de la uni
on de sucesos, a partir de un
diagrama de Venn
Si representamos la uni
on de los sucesos A y B en un diagrama de Venn como el de la figura 4.1
A

Figura 4.1: Diagrama de Venn de la union de sucesos

observamos que al sumar las


areas de A y B, hay una region (A B) que hemos sumado dos
veces y que debemos restar para calcular la probabilidad de la union: P (AB) = P (A)+P (B)
P (A B).


4.2.2.

Relaci
on entre frecuencias y probabilidad

Los fen
omenos aleatorios son totalmente imprevisibles de manera aislada, pero presentan
regularidades cuando se repiten un n
umero elevado de veces. Un experimento aleatorio se caracteriza porque repetido muchas veces y en identicas condiciones el cociente entre el n
umero de
veces que aparece un resultado y el n
umero total de veces que se realiza el experimento tiende a
un n
umero fijo. Esta propiedad es conocida como ley de los grandes n
umeros, establecida por
Jakob Bernouilli (1654-1705).
Consideremos un suceso A del espacio muestral E de un experimento aleatorio. Si se realiza
N veces dicho experimento y el suceso A aparece nA veces, se dice que la frecuencia relativa
fA del suceso A es nA /N . La probabilidad del suceso A puede considerarse como el lmite de la
frecuencia relativa del suceso A, cuando el n
umero de experiencias (N ) tiende a infinito:
nA
N N

P (A) = lm fA = lm
N

Apuntes de M
etodos Estadsticos para la Computaci
on

152

4.3. Probabilidad condicionada. Sucesos independientes

Ejemplo 4.8 Si consideramos el experimento de lanzar una moneda, la probabilidad de salir


cara es 1/2. Que significado tiene este n
umero?
Esta claro que cuando lanzamos la moneda una u
nica vez, no podemos predecir el resultado
(experimento aleatorio). Sin embargo, si lanzamos la moneda muchas veces, esperamos que aproximadamente la mitad de ellas (1/2) sean caras. La probabilidad es, por tanto, una estimacion
del comportamiento de un experimento cuando se realiza muchas veces.

Hay fenomenos aleatorios, como el lanzamiento de dados, de monedas, etc., en que, por razones de simetra y regularidad, se puede suponer que todos los sucesos elementales son equiprobables, es decir, que tienen igual probabilidad de presentarse. En estos casos es u
til la definicion
de probabilidad de Pierre-Simon Laplace (1749-1827): La probabilidad de un suceso A es igual al
cociente entre el n
umero de casos favorables a que ocurra el suceso y el n
umero de casos posibles,
en el supuesto de que todos sean igualmente probables
P (A) =

n
umero de casos favorables al suceso A
n
umero de casos posibles

Ejemplo 4.9 Si extraemos simult


aneamente dos bolas de una urna que contiene 5 bolas blancas
y 7 bolas rojas cu
al es la probabilidad de que ambas bolas extradas sean del mismo color?
Como
C5,2
P (BB) =
=
C12,2
se tiene

5
2

12
2

10
5
=
=
66
33

C7,2
P (RR) =
=
C12,2

P (BB RR) = P (BB) + P (RR) =

7
2

12
2

21
7
=
66
22

7
31
5
+
=
33 22
66


4.3.

Probabilidad condicionada. Sucesos independientes

Consideremos un espacio de probabilidad (E, A, P ) y sea A A un suceso con P (A) > 0.


Para cualquier suceso B A definimos la probabilidad del suceso B condicionada al suceso A,
de la siguiente manera:
P (A B)
PA (B) =
P (A)
Fijado un suceso A A, la funci
on PA : A [0, 1] es una probabilidad pues cumple la definicion
axiomatica:
Ax.1: PA (B) =

P (B A)
0 por ser cociente de n
umeros no negativos.
P (A)

Ax.2: PA (E) =

P (E A)
P (A)
=
=1
P (A)
P (A)

Ax.3: Si B C = PA (B C) =

P ((B C) A)
P ((B A) (C A))
=
=
P (A)
P (A)

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

153

4. Probabilidad

= {(B A) (C A) = } =

P (B A) P (C A)
+
= PA (B) + PA (C)
P (A)
P (A)

Esta probabilidad se suele denotar por P (B | A) y su definicion recoge la idea de actualizaci


on
del valor de la probabilidad en funci
on de la informacion que se tenga en cada momento. El valor
de la probabilidad de B cambia cuando conocemos la ocurrencia de un suceso A.
Ejemplo 4.10 En el ejemplo del lanzamiento de un dado, calcular la probabilidad de obtener
un cinco si sabemos que saldr
a un n
umero impar.
Consideremos el espacio muestral E = {1, 2, 3, 4, 5, 6} correspondiente al experimento aleatorio
de lanzar un dado y sea I=n
umero impar un suceso del espacio de sucesos. Al principio, los
sucesos elementales son equiprobables y podemos calcular P (5) = 1/6 y P (I) = 1/2. Aplicando
la definici
on de probabilidad condicionada tenemos
P (5 | I) =

P (5 I)
P (5)
1/6
1
=
=
=
P (I)
P (I)
1/2
3

Observese como la probabilidad original asociada al suceso elemental 5 a pasado de ser 1/6 a
ser 1/3 cuando hemos conocido la informacion de que el n
umero era impar.


Sucesos independientes
Sean A y B dos sucesos de un espacio de probabilidad (E, A, P ). Decimos que el suceso A es
independiente del B si y s
olo si P (A | B) = P (A). Esta relacion de independencia es simetrica,
es decir, si el suceso A es independiente del B entonces el suceso B es independiente del A y se
expresa as:
A y B son independientes P (A | B) = P (A) o bien P (B | A) = P (B)
Aplicando la definici
on de probabilidad condicionada podemos afirmar que si dos sucesos son
independientes entonces se cumple:
P (A B) = P (A) P (B)
Ejemplo 4.11 Consideremos una urna compuesta de 3 bolas blancas y 5 bolas negras. Se extrae
una bola y despues otra. Que probabilidad hay de que las dos bolas sean blancas?
El enunciado no dice nada y, sin embargo, el experimento es completamente distinto si devolvemos la primera bola a la urna antes de extraer la segunda (extracciones con reemplazamiento) o
no la devolvemos (extracciones sin reemplazamiento). Veamos que ocurre en ambos casos: Sean
Bi los sucesos extraer bola blanca en la i-esima extraccion, con i = 1, 2. La probabilidad que
nos piden es:
P (B1 B2 ) = P (B1 ) P (B2 | B1 )
Extracciones con reemplazamiento. Si devolvemos la bola a la urna, el resultado de la
segunda extracci
on no depende, en absoluto, del resultado de la primera y, por lo tanto,
los sucesos son independientes
P (B1 B2 ) = P (B1 ) P (B2 | B1 ) = P (B1 ) P (B2 ) =

3 3
9
=
= 00 140625
8 8
64

Apuntes de M
etodos Estadsticos para la Computaci
on

154

4.4. Teorema de la probabilidad total. Teorema de Bayes

Extracciones sin reemplazamiento. Sin embargo, si no devolvemos la bola a la urna, la


composici
on de la urna (n
umero de bolas de cada color) sera distinta a la original y las
probabilidades (casos favorables entre casos posibles) de los sucesos seran distintas:
P (B1 B2 ) = P (B1 ) P (B2 | B1 ) =

3 2
3
=
= 0, 10714
8 7
28

Observese que la probabilidad condicionada P (B2 | B1 ) se ha calculado como casos favorables


entre posibles, en funci
on de la nueva composicion de la urna despues de la primera extraccion.


4.4.

Teorema de la probabilidad total. Teorema de Bayes

Consideremos un espacio de probabilidad (E, A, P ) y sea C = {Ci }iI un conjunto de


sucesos. Decimos que C es un sistema completo de sucesos de E si se verifican las siguientes
condiciones:
1) Las intersecciones son vacas, es decir, Ci Cj = para todo i, j I tal que i 6= j
S
2) La uni
on es el total, es decir, iI Ci = E

El conjunto C tambien se denomina particion del espacio muestral E.

Ejemplo 4.12 El conjunto C = {A, B, C}, con A = {1, 2}, B = {3, 5, 6} y C = {4}, constituye
una partici
on del espacio muestral E = {1, 2, 3, 4, 5, 6} del experimento consistente en lanzar un
dado.

4.4.1.

Teorema de la probabilidad total

Consideremos un espacio de probabilidad (E, A, P ) y sea C = {Ci }iI un sistema completo


de sucesos, tal que para todo i I, P (Ci ) > 0. Si B A es un suceso cualquiera, entonces:
X
P (B) =
P (B | Ci ) P (Ci )
iI

Ejemplo 4.13 Tres m


aquinas A, B y C producen respectivamente el 50 %, 30 % y 20 % del
n
umero total de artculos de una f
abrica. Los porcentajes de desperfectos de producci
on de estas
m
aquinas son 3 %, 5 % y 10 %. Si se seleccionan al azar un lote de productos, halle la proporci
on
de artculos defectuosos.
De los datos del problema deducimos que las probabilidades de cada uno de los sucesos elementales del espacio muestral E = {A, B, C} son P (A) = 00 5, P (B) = 00 3, P (C) = 00 2. Ademas, si
consideramos el suceso D=artculo defectuoso, sabemos que P (D | A) = 00 03, P (D | B) = 00 05,
P (D | C) = 00 10. Como A, B y C constituyen una particion de E, podemos calcular la probabilidad que nos piden aplicando el teorema de la probabilidad total:
P (D) = P (D | A) P (A) + P (D | B) P (B) + P (D | C) P (C)
= 00 03 00 5 + 00 05 00 3 + 00 10 00 2 = 00 05 5 %

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

155

4. Probabilidad

4.4.2.

Teorema de Bayes

El teorema de Bayes es una consecuencia directa del teorema de la probabilidad total y de


la definici
on de probabilidad condicionada cuando tenemos un sistema completo de sucesos.
Consideremos un espacio de probabilidad (E, A, P ) y sea C = {Ci }iI un sistema completo
de sucesos, tal que para todo i I, P (Ci ) > 0. Si B A es un suceso cualquiera, entonces:
P (B | Cj ) P (Cj )
P (Cj | B) = X
P (B | Ci ) P (Ci )
iI

Este teorema recoge la idea de actualizacion del valor de la probabilidad en funcion de la


informaci
on que se tenga en cada momento. Al principio tenemos P (Cj ) que es la probabilidad
a priori y representa la opini
on inicial sobre un asunto. Despues ocurre un suceso B que
representa la nueva informaci
on recibida y que determina las probabilidades P (B | Ci ) para todos
los Ci que se denominan verosimilitudes. Al final, aplicando el teorema de Bayes se obtiene
P (Cj | B) que se denomina probabilidad a posteriori y que representa la nueva opinion sobre
el asunto.
Ejemplo 4.14 Tres m
aquinas A, B y C producen respectivamente el 50 %, 30 % y 20 % del
n
umero total de artculos de una f
abrica. Los porcentajes de desperfectos de producci
on de estas
m
aquinas son 3 %, 5 % y 10 %. Sup
ongase que se selecciona al azar un artculo y resulta ser
defectuoso. Calcule la probabilidad de que el artculo haya sido producido por la m
aquina A.
De los datos del problema deducimos que las probabilidades de cada uno de los sucesos elementales del espacio muestral E = {A, B, C} son P (A) = 00 5, P (B) = 00 3 y P (C) = 00 2. Adem
as, si
consideramos el suceso D=artculo defectuoso, sabemos que P (D | A) = 00 03, P (D | B) = 00 05
y P (D | C) = 00 10. Con todos estos datos podemos calcular la probabilidad que nos piden:
P (A | D) =
=

P (D | A) P (A)
P (D | A) P (A) + P (D | B) P (B) + P (D | C) P (C)
00 03 00 5
00 015
=
= 00 3
00 03 00 5 + 00 05 00 3 + 00 10 00 2
00 05

Observese que a priori la probabilidad del suceso A era 00 5 y que una vez ocurrido el suceso
D se obtiene una nueva probabilidad a posteriori para el suceso A que es 00 3.


Apuntes de M
etodos Estadsticos para la Computaci
on

156

4.5.

4.5. ANEXO: Combinatoria

ANEXO: Combinatoria

Para determinar la probabilidad de algunos sucesos, especialmente aquellos que se obtienen aplicando la regla de Laplace, resulta muy u
til conocer la combinatoria. En las siguientes
definiciones consideramos que es un conjunto de n elementos.
Llamaremos variaciones de n elementos tomados de k en k al n
umero de ordenaciones
distintas de k elementos de . En el primer lugar de una posible lista ordenada podemos colocar
cualquier elemento de entre los n posibles. En segundo lugar, podemos colocar cualquiera de
entre los n 1 restantes. En tercer lugar, cualquiera de entre los n 2 restantes. As, hasta llegar
al lugar k-esimo en donde podemos colocar cualquier elemento de entre los n k + 1 restantes.
Por tanto:
n!
Vnk = n (n 1) (n 2) (n k + 1) =
(n k)!
Llamaremos permutaciones de n elementos al n
umero de ordenaciones posibles de todos los
elementos de . Por un razonamiento similar al anterior podemos llegar a que:
Pn = Vnn = n!
Llamaremos combinaciones de n elementos tomados de k en k al n
umero de subconjuntos
distintos formados por k elementos de . Aqu, {a, b, c} = {b, a, c} = {c, b, a} = . . . que, como
variaciones, no son la misma. Es decir, de entre todas las variaciones de n elementos tomados de
k en k, ahora consideraremos como iguales aquellas en las cuales sus elementos estan ordenados
de formas distintas. As:
 
Vnk
n!
n
k
Cn =
=
=
Pk
k! (n k)!
k
Llamaremos variaciones con repetici
on de n elementos tomados de k en k al n
umero de
ordenaciones distintas de elementos de , pudiendo elegirse un elemento, a lo sumo, k veces. As,
en el primer lugar de una posible lista ordenada podemos colocar cualquiera de los n elementos.
En el segundo lugar podemos colocar cualquiera de los n elementos, ya que cualquier elemento
lo podemos escoger, a lo sumo, k veces. As, hasta llegar al k-esimo lugar, en el cual podemos
colocar cualquiera de los n elementos.
V Rnk = nk
Llamaremos permutaciones con repetici
on al n
umero de ordenaciones posibles de todos
los elementos de cuando estos se encuentran agrupados en clases, siendo indistinguibles los
elementos de cada clase. Es decir, de entre todas las permutaciones posibles de los n elementos
de , cualquier permutaci
on entre s de los elementos de una misma clase da lugar a la misma
permutacion con repetici
on. As:
P Rnn1 ,n2 ,...,nr =

n!
siendo n1 + n2 + + nr = n
n1 ! n2 ! nr !

Llamaremos combinaciones con repetici


on de n elementos tomados de k en k al n
umero
de conjuntos distintos que podemos formar con k elementos de , pudiendo elegirse cualquier
elemento, a lo sumo, k veces. As, una forma de determinar el conjunto es indicando el n
umero
de veces que seleccionamos cada elemento. Para ello, tomemos k bolas en fila encerradas entre
dos barras y tomemos adem
as n 1 barras mas.

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

157

4. Probabilidad

- Diremos que el primer elemento de lo hemos tomado tantas veces como bolas haya entre
las barras 1a y 2a
- Diremos que el segundo elemento de lo hemos tomado tantas veces como bolas haya
entre las barras 2a y 3a
- ...
De esta forma se trata de colocar todas las barras y las bolas, es decir, se trata de colocar
n + k 1 elementos (k bolas y n 1 barras) siendo las barras indistiguibles y tambien las bolas.
As:
(n + k 1)!
k,n1
n1
k
CRnk = P Rn+k1
=
= Cn+k1
= Cn+k1
k! (n 1)!

4.5.1.

Identificaci
on del problema

Para determinar si nuestro problema corresponde con variaciones, permutaciones o combinaciones puede resultar u
til tener una respuesta a las siguientes preguntas:
1. Cu
antos elementos tengo? Esta pregunta hace referencia al total de elementos de que
dispongo en el conjunto antes de plantearme las agrupaciones. La respuesta sera el valor
de n.
2. Cu
antos elementos tienen las agrupaciones? La respuesta corresponde al valor de k.
3. Son distinguibles los elementos de ? Si la respuesta es no, entonces tenemos permutaciones con repetici
on. Si la respuesta es afirmativa, entonces nos seguimos preguntando.
4. Importa el orden? Es decir, si cambiamos el orden de los elementos de una misma agrupaci
on, estamos considerando el mismo caso? Si la respuesta es afirmativa, entonces nos
referimos a variaciones. Si la respuesta es negativa, entonces nos referimos a combinaciones.
Finalmente nos preguntamos.
5. Se pueden repetir los elementos en las agrupaciones? En cada uno de los casos anteriores, si la respuesta es negativa nos referimos a variaciones o combinaciones simples, y
si la respuesta es afirmativa, entonces nos referimos a variaciones o combinaciones con
repetici
on.
Con estas preguntas s
olo nos queda identificar a las permutaciones simples que corresponden
con las variaciones simples cuando n = k.
En la figura 4.2 se representa, a modo de algoritmo, el metodo que hemos descrito para
identificar los tipos de problemas de combinatoria.

Apuntes de M
etodos Estadsticos para la Computaci
on

158

4.5. ANEXO: Combinatoria

n, k

elementos
distinguibles

no

Permutaciones
con repeticion

importa
el orden

no

Combinaciones

Variaciones

se pueden
repetir

no

simples

s
con repeticion

Figura 4.2: Esquema de combinatoria

Ejemplo 4.15 Cu
antos grupos distintos de trabajo formados por 5 alumnos, se pueden formar
con los alumnos de una clase de 25 alumnos?
Partimos de un conjunto de n = 25 elementos distinguibles (alumnos de la clase) y queremos
hacer agrupaciones de k = 5 elementos (grupos de trabajo). Ahora bien:
- No importa el orden de los elementos en cada agrupacion, y
- No es posible que haya elementos repetidos en una misma agrupacion.
Por lo tanto, siguiendo el algoritmo, llegamos a que el n
umero de posibles grupos de trabajo es
 
25
25!
25 24 23 22 21
5
C25 =
=
=
= 53 130
5
5! 20!
12345


Dpto. Matem
atica Aplicada (Universidad de M
alaga)

159

4. Probabilidad

4.6.

Relaci
on de problemas

1. Sean A = {1, 2, 3, 4, 5, 6}, B = {3, 4, 5}, C = {6, 7, 8, 9} y D = {4, 5, 6, 7}, cuatro sucesos
B,
C,
U
, A B, A B, A B,

del espacio muestral U = {1, 2, 3, 4, 5, 6, 7, 8, 9}. Calcule A,


C D,
C D,
C D, B
D,
B
D,
B
D,
B
D,
A B, B A, B C, C B,
A B,
B D, D B, A D, D A y D C.
2. Sean A, B y C, tres sucesos cualesquiera de un espacio muestral U . Represente mediante
un diagrama de Venn los conjuntos (A B) (B C) y (B A) (B C).
3. Determine el conjunto que representan cada uno de los siguientes diagramas de Venn

B
A

B
C

B
C

4. Si en una clase de 100 alumnos, 54 han aprobado el examen de Matematicas, 75 el de fsica


y 40 han aprobado los dos ex
amenes, cuantos alumnos no han aprobado ninguna de las
dos asignaturas?
5. En una clase C de 30 alumnos, 18 estudian Matematicas (M C), 13 Filosofa (F C)
y 5 Historia (H C). Sabiendo que solo hay 3 alumnos que estudian simultaneamente
Matem
aticas y Filosofa, se pide:
a) Determine cuantos alumnos estudian Matematicas o Filosofa.
b) Cu
antos elementos tiene el conjunto C (M F )?

c) Puede saberse cuantos alumnos solo estudian Historia?

6. Se someti
o un grupo de personas a un cuestionario formado por tres preguntas. Sabemos
que el 8 % contestaron bien las tres preguntas, el 9 % contestaron bien solo a la 1 y 2,
el 11 % contestaron bien s
olo la 1 y 3, el 16 % contestaron bien la 2 y 3, el 45 %
contestaron bien a la 1, el 32 % a la 2 y el 39 % a la 3. Que porcentaje de personas no
contestaron bien a ninguna pregunta?
7. Definir tres espacios de probabilidad distintos sobre el espacio muestral E = {0, 1, 2}.
8. Consideremos el espacio muestral de 4 elementos E = {a, b, c, d}. Justifique si alguno de
los siguientes casos define una probabilidad:
a) P (a) =
b) P (a) =
c) P (a) =
d ) P (a) =

1
2
1
2
1
2
1
2

P (b) =
P (b) =
P (b) =
P (b) =

1
3
1
4
1
4
1
4

P (c) =

1
4

P (c) = 41
P (c) =
P (c) =

1
8
1
4

P (d) =

1
5

P (d) =
P (d) =

1
2

1
8

P (d) = 0

9. Consideremos el espacio muestral de 4 elementos E = {a, b, c, d}. Calcule las probabilidades


que se piden

Apuntes de M
etodos Estadsticos para la Computaci
on

160

4.6. Relaci
on de problemas

a) Hallar P (a) si P (b) = 13 , P (c) =

1
6

y P (d) =

b) Hallar P (a) y P (b) si P (c) = P (d) =


c) Hallar
d ) Hallar

1
4

1
9

y P (a) = 2P (b)

P (b, c, d) si P (b, c) = 13 , P (b, d) = 14 y P (b) = 15


P (a) si P (c, d) = 32 , P (b, d) = 12 y P (b) = 13

10. Consideremos el espacio de sucesos A = {A, B, C, D}. Determine si la siguiente funcion:


P (A) = 3/7; P (B) = 0; P (C) = 2/7; P (D) = 2/7
define una probabilidad sobre ese espacio.
11. Demostrar que si P es una probabilidad sobre E, entonces P (A B) = P (A) P (A B)
para cualquiera dos sucesos A y B de E.
12. Sean A y B dos sucesos tales que P (A B) = 00 8, P (A B) = 00 3 y P (B A) = 00 2.
a) Represente mediante un diagrama de Venn la situacion planteada.
b) Calcule la probabilidad de los sucesos A y B.
B A y B
A.

c) Calcule la probabilidad de los siguientes sucesos: A B, B A,


13. Halla la probabilidad de un suceso sabiendo que la suma de su cuadrado y del cuadrado
de la probabilidad del suceso contrario es 1/2.
14. Un programa inform
atico combina al azar los colores rojo, azul, verde, amarillo y negro, para obtener una bandera de tres franjas horizontales de colores (no necesariamente
distintos). Que probabilidad hay de que la bandera obtenida coincida con la alemana?
Que probabilidad hay de que la bandera obtenida coincida con la espa
nola?
15. Cinco amigos que van de viaje, llegan a un hotel donde solo quedan libres dos habitaciones,
una doble y una triple. Si en la recepcion del hotel asignan las habitaciones al azar, se
pide:
a) Que probabilidad hay de que Juan duerma en la misma habitacion que Marta?
b) Como cambiara esa probabilidad si el hotel dispusiera de tres habitaciones, una
individual y dos dobles?
16. En una pandilla de cinco amigos, que probabilidad hay de que haya, al menos, dos amigos
que cumplan a
nos el mismo da? Cuantos amigos tendra que tener la pandilla para que
esa probabilidad fuese 1/2?
17. Si elegimos al azar un punto en el cuadrado de vertices (0, 0), (2, 0), (2, 2), (0, 2), que probabilidad hay de que pertenezca al crculo de centro (1, 1) y radio 1 inscrito en el cuadrado.
Generalizar este resultado a un crculo de radio r inscrito en un cuadrado de lado 2r.
18. Un ejercicio de oposici
on consiste en responder adecuadamente a las preguntas relativas a
dos temas. Para cada opositor, se realiza un sorteo entre los 100 temas que componen el
temario y se extraen, al azar, tres temas, de los cuales, el opositor elige los dos temas del
ejercicio de oposici
on. Se pide:
a) Si un opositor se ha estudiado 65 temas, que probabilidad tiene de realizar satisfactoriamente el ejercicio, es decir, de que coincidan, al menos, dos de los tres temas
obtenidos al azar, con los que ha estudiado?

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

161

4. Probabilidad

b) Determine una f
ormula general que permita calcular la probabilidad de realizar satisfactoriamente el ejercicio de oposicion en funcion del n
umero (x) de temas estudiados
por el opositor.
c) Cu
antos temas (x) debe estudiar un opositor si desea tener una probabilidad de
aprobar, superior al 90 %?
d ) Determine una f
ormula que permita conocer el n
umero de temas, que debe estudiar
un opositor, en funci
on de la probabilidad de conocer, al menos, dos de los tres temas
obtenidos al azar.
e) F
ormula general: Determine la formula general que relaciona el n
umero de temas
estudiados (x) con la probabilidad de exito (p), en funcion del n
umero total de temas
del temario (N ), de los temas extrados al azar (T ) y del n
umero de ellos (t) que debe
conocer para aprobar.
19. Otro examen de oposici
on tiene un temario de 50 temas clasificados en dos bloques de
30 y 20 respectivamente. Para aprobar el examen hay que responder acertadamente a las
preguntas de 3 temas elegidos al azar en un sorteo; 2 del primer bloque y 1 del segundo.
a) Si un opositor ha estudiado 15 temas del primer bloque y 10 del segundo, que probabilidad tiene de conocer los tres temas de la oposicion?
b) Determinar la f
ormula general que permita calcular la probabilidad de aprobar en
funci
on del n
umero total de temas del temario (N ), clasificados en dos bloques (de
N1 y N2 temas respectivamente, con N = N1 + N2 ), del n
umero de temas estudiados
del primer bloque (x1 , con 0 x1 N1 ) y del n
umero de temas estudiados del
segundo bloque (x2 , con 0 x2 N1 ).
20. Distribuci
on Hipergeometrica: En un pueblo de 100 vecinos, 60 de ellos son mujeres y 40
son hombres. Si el a ayuntamiento sortea cuatro entradas gratuitas para el concierto de
la feria del pueblo, que probabilidad hay de que haya el mismo n
umero de hombres que
de mujeres agraciadas. Generalizacion: Supongamos que en el pueblo viven N1 hombres
y N2 mujeres que hacen un total de N habitantes. Si el ayuntamiento sortea n entradas,
que probabilidad hay de que sean agraciados n1 hombres y n2 mujeres, con n = n1 + n2 .
21. En todas las monedas espa
nolas de 2 euros figura, en el reverso, la inscripcion 2 EUROS,
pero en el anverso puede aparecer una imagen de S.M. el Rey Juan Carlos I de Borb
on,
de don Quijote de la Mancha o, recientemente, de la Mezquita Catedral de Cordoba.
Determine el espacio muestral y la funcion de probabilidad del experimento consistente en
lanzar
a) dos monedas de 2 euros con la imagen de S.M. el Rey Juan Carlos I de Borbon.
b) dos monedas de 2 euros, pero una de ellas con la imagen de don Quijote de la Mancha
y la otra con la imagen de la Mezquita Catedral de Cordoba.
c) una misma moneda de 2 euros, dos veces.
d ) Repetir todo el ejercicio utilizando tres monedas de 2 euros.
22. Consideramos el experimento aleatorio consistente en lanzar dos dados iguales:
a) Determinar el espacio muestral.

Apuntes de M
etodos Estadsticos para la Computaci
on

162

4.6. Relaci
on de problemas

b) Determinar los sucesos: A=Las caras son iguales, B=La suma de las caras es
mayor que 8, C=La suma de las caras es igual a 5 y D=La suma de las caras es
par.
c) Calcular la probabilidad de los sucesos del apartado anterior.
B,
A B, A B, A C, A C y A D.
d ) Determinar los sucesos: A,

e) Calcular la probabilidad de los sucesos del apartado anterior haciendo uso de las
propiedades de la funci
on de probabilidad.
f ) Analizar las diferencias de este experimento respecto a otro que utilizase dos dados
distintos (diferente color por ejemplo).

23. Consideremos el experimento de lanzar simultaneamente una dado y una moneda.


a) Determine el espacio muestral y la funcion de probabilidad.
b) Si me dan un euro por cada punto obtenido en el dado y un euro mas si sale cara o
dos euros m
as si sale cruz, determine el nuevo espacio muestral de las ganancias que
esperamos obtener y la probabilidad del suceso ganar 6 euros o mas.
24. Un dado se lanza dos veces. Halla la probabilidad de obtener 4, 5 o 6 en el primer lanzamiento y 1, 2
o 3 en el segundo.
25. Dos amigos salen de caza. El primero acierta un promedio de 2 piezas cada 5 disparos y
el segundo una pieza cada dos disparos. Si los dos disparan al mismo tiempo a una misma
pieza. Cu
al es la probabilidad de que la pieza haya sido alcanzada?
26. En una tienda de electrodomesticos nos informan de que, la probabilidad de que se avere
una lavadora durante su periodo de garanta es 1/4 y la de que se avere un frigorfico, durante el periodo de garanta, es 1/3. Supongamos que adquirimos ambos electrodomesticos.
Calcule la probabilidad de los siguientes sucesos:
a) Durante el perodo de garanta se averan los dos electrodomesticos.
b) Alg
un electrodomestico se avera durante su periodo de garanta.
c) Durante el perodo de garanta solo se avera la lavadora.
d ) Durante el perodo de garanta solo se avera el frigorfico.
27. Cual es la probabilidad de hundir un barco, sabiendo que solo pueden lanzarse 3 torpedos,
y que la probabilidad de hundir un barco con cada torpedo es 00 2?
Cuantos torpedos habra que lanzar para que la probabilidad de hundir un barco fuera,
al menos, del 90 %?
28. Un aparato consta de dos partes A y B, que se fabrican de manera independiente. Se sabe
que en el proceso de fabricaci
on la probabilidad de que la parte A salga defectuosa es 00 1 y
la probabilidad de un defecto en B es de 003. Cual es la probabilidad de que el aparato
sea defectuoso?
29. Sean A y B dos sucesos independientes tales que la probabilidad de que ocurran los dos
sucesos es 1/3 y de que no ocurra ninguno de los dos es 1/6. Calcule el valor de P (A) y
de P (B).

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

163

4. Probabilidad

30. Un sistema electr


onico de dos componentes se conecta en paralelo de modo que falle
solo si sus dos componentes fallan. La probabilidad de que el primer componente falle
es 00 10 y de que falle el segundo es 00 05. Suponiendo que ambos componentes funcionan
independientemente, se pide:
a) Que probabilidad hay de que el sistema funcione?
b) Si el sistema dispone los componentes en serie, como vara esa probabilidad?
c) Recalcular esta probabilidad si al sistema original (en paralelo) le a
nadimos un nuevo
componente en serie que tiene una probabilidad de fallar de 00 2.
31. Una resistencia R se quema una de cada 100 veces que se enciende un aparato durante
mas de 12 horas. Recientemente han salido al mercado unas nuevas resistencias R+ que
se queman una de cada 300 veces que el aparato esta encendido durante mas de 12 horas.
Las resistencias R vienen en un blster de 3 unidades y su precio es de 5 euros. Las
resistencias R+ se venden sueltas a 5 euros cada una. Con 5 euros, que es mas eficiente:
un sistema con las 3 resistencias R en paralelo (de manera que el sistema no funciona si
no funciona ninguna de las tres) o con una u
nica resistencia R+? Y si hubiera una oferta
de lanzamiento de R+ de 2x1?
32. Distribuci
on Binomial: Si lanzamos al aire 4 veces una moneda perfecta, que probabilidad
hay de salgan dos caras y dos cruces? Generalizacion: que probabilidad hay de que salgan
n1 caras y n2 cruces, si lanzamos al aire n veces (n = n1 + n2 ) una moneda trucada con
probabilidad p de salir cara?
33. Distribuci
on Geometrica: Se lanza una moneda al aire tantas veces como sea necesario
hasta obtener una cara. Que probabilidad hay de tener que lanzar cinco veces la moneda?
Generalizaci
on: Que probabilidad hay de tener que lanzar x veces una moneda trucada
con probabilidad p de salir cara?
34. Distribuci
on Binomial negativa: Se lanza una moneda al aire tantas veces como sea necesario hasta obtener cara tres veces cara. Que probabilidad hay de tener que lanzar diez
veces la moneda? Generalizacion: Que probabilidad hay de tener que lanzar x veces una
moneda trucada con probabilidad p de salir cara para obtener n caras?
35. Un tirador dispara sobre una diana y sabe que la probabilidad de que acierte es 1/3. Se
pide:
a) Calcular la probabilidad de que acierte al menos una vez si dispara 8 veces.
b) Calcular la probabilidad de no acertar en 8 disparos consecutivos.
36. Si dos dados se lanzan 20 veces, hallar:
a) La probabilidad de obtener alguna vez doble 6.
b) No haya sumado nunca 8 puntos.
c) Alguna vez sume 8 puntos.
37. En un taller trabajan 10 obreros y la probabilidad de que uno cualquiera de ellos este de
baja es 00 1. Determine la probabilidad de que un da
a) vengan todos los obreros a trabajar.

Apuntes de M
etodos Estadsticos para la Computaci
on

164

4.6. Relaci
on de problemas

b) falte al trabajo al menos un obrero.


38. 5 profesores imparten todos los das una hora de clase a un grupo de 20 alumnos. La
probabilidad de que falte un da a clase un profesor es 00 01 y la de que falte un alumno es
1/20. Calcule la probabilidad de los siguientes sucesos:
a) No venga a clase ning
un profesor.
b) Falte a clase alg
un profesor.
c) Falte alg
un alumno a clase.
d ) Vengan a clase todos los alumnos y todos los profesores.
e) Generalizar los resultados anteriores cuando la clase tiene n alumnos y la probabilidad
de que falte uno de ellos es 1/n.
39. Una moneda est
a trucada y la probabilidad de salir cara es tres veces mayor que la probabilidad de salir cruz. Consideremos el experimento de lanzar tres veces esta moneda y
anotar el n
umero de caras obtenido en los tres lanzamientos.
a) Determine el espacio muestral y la funcion de probabilidad.
b) Que resultado es m
as probable, que salga alguna cruz en los tres lanzamientos o que
el resultado de los tres lanzamientos sea el mismo?
c) Si repetimos dos veces el experimento, que probabilidad hay de que, en alguna de
las dos veces, hayan salido tres cruces?
40. Si P (A) = 1/3, P (B) = 1/4 y P (A B) = 1/5.
| A,
AB y B
| A.
a) Halle las probabilidades de los sucesos: A | B, B | A, A | B, B
b) Son A y B incompatibles? Son A y B independientes?

41. Si P (A B) = 00 8, P (A B) = 00 3 y P (B A) = 00 2.
(B A) | (A B).
a) Halle las probabilidades de los sucesos: A | B, A | B,
b) Son A y B incompatibles? Son A y B independientes?

42. Sean A y B dos sucesos que verifican lo siguiente:


La probabilidad de no ocurran simultaneamente los dos sucesos es 00 5,
la probabilidad de que no ocurra el suceso B es 00 9 y
la probabilidad de que ocurra el suceso B, sabiendo que ha ocurrido el suceso A es
1/3.
Determine la probabilidad de que ocurra el suceso A y responda a las siguientes preguntas:
a) Son A y B sucesos equiprobables? Justifique la respuesta.
b) Son A y B sucesos independientes? Justifique la respuesta.
c) Son A y B sucesos incompatibles? Justifique la respuesta.
43. En el experimento de lanzar un dado se consideran los siguientes sucesos: A = Obtener
un n
umero mayor que 4 y B = Obtener un m
ultiplo de 3. Se pide:

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

165

4. Probabilidad

a) Utilice la definici
on frecuentista de probabilidad para calcular P (A), P (B), P (AB),
P (A B), P (A | B) y P (B | A).

b) Probar que el resultado obtenido en el apartado anterior es el mismo si aplicamos la


definici
on de probabilidad condicionada para calcular P (A | B) y P (B | A).

44. Se lanzan dos dados. Si la suma de los puntos de las caras superiores es 5, hallar la
probabilidad de que en alguno de los dados salga 2. Realice este ejercicio de dos maneras
distintas (utilizando o no la probabilidad condicionada).
45. Se lanzan dos dados al aire y se anota la suma de los puntos obtenidos. Se pide:
a) Determinar el espacio muestral.
b) Calcular la probabilidad de anotar un 7.
c) Son equiprobables todos los sucesos elementales?
d ) Calcular la probabilidad de que el n
umero obtenido sea par.
e) Calcular la probabilidad de que el n
umero obtenido sea impar.
f ) Si sabemos que uno de los dados salio 4, como cambia esta informacion, el valor de
la probabilidad de obtener 6 puntos?
46. La probabilidad de fallo en tres maquinas A, B y C son: 00 1, 00 05 y 00 01. Determine el
espacio muestral y la funci
on de probabilidad y calcule las siguientes probabilidades:
a) Probabilidad de que funcione alguna.
b) Probabilidad de que fallen 2 maquinas a la vez.
c) Probabilidad de que funcionen las 3.
d ) Probabilidad de que si existe un u
nico fallo, este se deba a la maquina A.
e) Probabilidad de que si existen dos fallos, alguno se haya producido en la maquina A.
f ) Probabilidad de que si existe fallo (uno o varios), este averiada la maquina A.
47. Una urna contiene tres bolas rojas y siete negras. Se extraen dos bolas al azar. Describir
el espacio muestral E y la funcion de probabilidad P cuando:
a) Se extraen con reemplazamiento.
b) Se extraen sin reemplazamiento.
48. Una caja contiene cuatro bolas blancas y dos negras. Se saca una bola y a continuacion (sin
devolver la primera a la caja) se extrae otra. Consideramos los sucesos: A =la primera
bola extrada es blanca y B =la segunda bola extrada es blanca. Se pide:
a) Hallar P (A) y P (B | A).

b) Son A y B dos sucesos independientes?


c) Cual es la probabilidad de que las dos bolas extradas sean blancas?

d ) Cual es la probabilidad de que las dos bolas extradas sean negras?


49. Se sacan dos bolas de una urna que se compone de una bola blanca, otra roja, otra verde
y otra negra. Describa el espacio muestral E y la funcion de probabilidad P cuando:
a) La primera bola se devuelve a la urna antes de sacar la segunda.

Apuntes de M
etodos Estadsticos para la Computaci
on

166

4.6. Relaci
on de problemas

b) La primera bola no se devuelve a la urna antes de sacar la segunda.


c) Se extraen simult
aneamente de la urna las dos bolas.
50. Una caja contiene 12 objetos de los cuales 5 son defectuosos. Si se van tomando hasta
encontrar uno defectuoso. Encontrar:
a) Espacio muestral.
b) Probabilidad de que se obtenga en la sexta extraccion.
51. Una caja contiene dos bolas blancas y dos bolas negras y, sin mirar, se van sacando bolas
de la caja, consecutivamente y sin reemplazamiento, hasta que aparezcan las dos bolas
negras. Determine el espacio muestral del experimento y calcule la probabilidad de los
sucesos elementales, justificando matematicamente los calculos realizados.
52. Lanzamos una moneda perfecta tantas veces como sea necesario hasta que salga cara, y
anotamos el n
umero total de lanzamientos que han sido necesarios. Determine el espacio
muestral y la funci
on de probabilidad, y compruebe que la suma de las probabilidades de
todos los sucesos elementales es 1.
53. Demostrar que si A y B son dos sucesos independientes entonces A es tambien indepen = P (B) aplicando que B A = B (A B).
diente de B. Indicaci
on: Probar que P (B | A)
54. La probabilidad de que un hombre viva mas de 75 a
nos es 1/4 y la de que su mujer viva
mas de 75 a
nos es 1/3. Se pide:
a) Calcular la probabilidad de que ambos vivan mas de 75 a
nos.
b) Calcular la probabilidad de que el hombre viva mas de 75 a
nos y la mujer no.
c) Calcular la probabilidad de que ambos mueran antes de los 75 a
nos.
55. Una urna A contiene 4 bolas blancas y 6 rojas y otra B contiene 7 bolas blancas y 5 rojas.
Si se extrae una bola de la urna B
a) Cual es la probabilidad de sacar una bola roja?
b) Como cambia el valor de esta probabilidad si sabemos que antes de la extraccion se
saca una bola de la urna A y se pasa a la urna B?
56. Se tiene una urna vaca y se lanza una moneda al aire. Si sale cara se introduce en la urna
una bola blanca y si sale cruz se introduce una bola negra. El experimento se repite tres
veces y a continuaci
on se introduce la mano en la urna y se saca una bola. Cual es la
probabilidad de que en la urna quede un bola de cada color?
57. En la estantera de libros de Matem
aticas de una biblioteca hay un libro de algebra, siete
copias del mismo libro de c
alculo y cuatro copias del mismo libro de estadstica. El libro
de algebra tiene 300 p
aginas y 24 captulos; el de calculo tiene 350 paginas y 20 captulos;
y el de estadstica tiene 400 p
aginas y 22 captulos.
a) Determine la probabilidad de que, elegido un libro al azar, al abrirlo obtengamos una
pagina que encabeza un captulo.
b) Sabiendo que, al abrir al azar un libro elegido tambien al azar, hemos obtenido una
pagina que encabeza un captulo, de que rama de la Matematica es mas probable
que sea?

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

4. Probabilidad

167

c) Sabiendo que, al abrir al azar un libro elegido tambien al azar, no hemos obtenido una
p
agina que encabeza un captulo, de que rama de la Matematica es mas probable
que sea?
58. El 20 % de los productos fabricados por la empresa A y el 5 % de los fabricados por la
empresa B tienen alg
un defecto.
a) Si mis u
nicos suministradores son estas dos empresas, que porcentaje de productos
debo adquirir en cada una si estoy dispuesto a admitir entre mis productos un total
del 10 % de defectuosos.
b) Utilizando el porcentaje anterior, que probabilidad hay de que haya sido fabricado
por la empresa A un producto que elegido al azar resulto ser defectuoso?
59. El 2 % de una poblaci
on padece una enfermedad E, existiendo un sntoma S, tal que el 27 %
de los enfermos presentan el sntoma, mientras que un 5 % de los individuos no enfermos
presentan el sntoma. Calcular los porcentajes de individuos con el sntoma y de individuos
enfermos que presentan el sntoma.
60. En una operaci
on de fabricaci
on se utilizan dos lneas de produccion para ensamblar fusibles electr
onicos. Ambas lneas producen fusibles con la misma velocidad y generalmente
20 5 % de los fusibles que producen estan defectuosos. Sin embargo, la lnea 1 de producci
on
experiment
o recientemente problemas mecanicos y produjo 6 % de fusibles defectuosos durante un periodo de 3 semanas. Esta situacion no se conocio antes de que varios lotes de
fusibles electr
onicos producidos en este periodo se enviaran a los clientes. Si uno de los
dos fusibles probados por un cliente resulto tener defectos, que probabilidad hay de que
el lote del que provino se haya producido en la lnea que tuvo problemas? (Suponga que
todos los fusibles del lote se produjeron en la misma lnea).
61. En una planta de electr
onica, se sabe por experiencia que la probabilidad de que un obrero
de nuevo ingreso que haya asistido al programa de capacitacion de la compa
na cumpla
0
la cuota de producci
on es de 0 86 y que la probabilidad correspondiente de un obrero de
nuevo ingreso que no ha asistido a dicho curso de capacitacion es de 00 35. Si el 80 % de la
totalidad de los obreros de nuevo ingreso asisten al curso de capacitacion, se pide:
a) Que probabilidad existe de que un trabajador de nuevo ingreso cumpla la cuota de
producci
on?
b) Que probabilidad hay de que un obrero de nuevo ingreso que satisface la cuota de
producci
on haya asistido al curso de capacitacion de la compa
na?
62. Errores de diagn
ostico. Una cierta enfermedad la padece el p % de la poblacion. Se sabe
que la probabilidad de detectar la enfermedad, mediante un analisis no del todo fiable,
en una persona enferma es la misma que la de no detectarla en una persona sana, siendo
estas probabilidades la proporcion de personas que no padecen la enfermedad en dicha
poblaci
on.
a) Se le aplica el an
alisis a una persona y resulta negativo. Calcular la probabilidad de
que haya habido un error en el diagnostico.
b) Se le aplica el an
alisis a una persona y resulta positivo. Calcular la probabilidad de
que haya habido un error en el diagnostico.

Apuntes de M
etodos Estadsticos para la Computaci
on

168

4.6. Relaci
on de problemas

63. Secuencialidad del Teorema de Bayes. Un prisionero poltico en Rusia sera exiliado a
Siberia o a los Urales, y el no sabe a cual de los dos sera enviado, pero sabe que la
probabilidad de ser exiliado a Siberia es 00 8. Tambien sabe que si un residente en Siberia
es seleccionado aleatoriamente, la probabilidad de que lleve un abrigo de pieles es 00 5,
mientras que en los Urales, esta es de 00 7. Al llegar a su lugar de exilio, la primera persona
que ve no lleva abrigo de pieles. Se pide:
a) Cual es la probabilidad de que este en Siberia?
b) Teniendo en cuenta la informacion anterior, la siguiente persona que ve tampoco lleva
abrigo de pieles. Cu
al es ahora la probabilidad de que este en Siberia?
c) Y si hubiese visto juntas a las dos personas en el primer momento?
64. Supongase que una caja contiene 5 monedas, y que la probabilidad de obtener cara en
un lanzamiento es distinta para cada moneda. Sea pi la probabilidad de obtener cara al
lanzar la i-esima moneda (i=1,2,3,4,5) y supongase que pi = (i 1)/4.
a) Supongase que se selecciona una moneda de la caja al azar, y que al lanzarla una
vez se obtiene cara, cu
al es la probabilidad de que se haya seleccionado la i-esima
moneda?
b) Si la misma moneda es lanzada otra vez, cual sera la probabilidad de obtener otra
cara?
c) Si se ha obtenido una cruz en el primer lanzamiento de la moneda seleccionada y se
lanza otra vez la misma moneda, cual es la probabilidad de obtener una cara en el
segundo lanzamiento?
d ) Supongamos que, con la misma caja realizamos el siguiente experimento: seleccionamos aleatoriamente una moneda de la caja y la lanzamos repetidamente hasta que
obtenemos una cara. Si se obtiene la primera cara en el cuarto lanzamiento, cual es
la probabilidad de que se haya seleccionado la i-esima moneda?
e) Si se contin
ua lanzando la misma moneda hasta que aparece otra cara, cual es la
probabilidad de que se necesiten exactamente tres lanzamientos?
65. En una ciudad existen dos f
abricas de pelotas de tenis. En la fabrica F1 el porcentaje de
ellas que se fabrican de calidad A es del 80 %, de calidad B es del 5 % y de calidad C del
15 %. En la f
abrica F2 los porcentajes son a, b y c respectivamente.
a) Dar una expresi
on general, lo mas simplificada posible, de la proporcion de pelotas
de calidad A para toda la ciudad.
b) Sabiendo que a=92 % y que el porcentaje de pelotas de calidad A en toda la ciudad
es del 89 %, cu
al de las dos f
abricas produce mas pelotas de tenis?
c) Si el porcentaje de pelotas de calidad B en toda la ciudad es del 5 %, que valores
toman b y c? y entonces cu
al es la proporcion de pelotas fabricadas por F2 entre las
de calidad C?
66. En contra de la intuici
on. Proponemos cuatro ejemplos de la vida cotidiana donde nuestra intuici
on no coincide con la realidad, poniendo de manifiesto que saber un poco de
matematicas puede ayudarnos a no dejarnos enga
nar por las falsas apariencias.

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

4. Probabilidad

169

a) Coincidencia de cumplea
nos. En ocasiones nos sorprendemos por coincidencias que
no son extraordinarias. Por ejemplo. En una comida con 25 personas, dos cumplen
a
nos el mismo da. La probabilidad de que eso suceda puede parecernos bastante
baja, ya que hay 366 fechas posibles. Pero no lo es. A partir de 23 personas ya hay
un 50 % de probabilidades de que dos compartan da de nacimiento. Con 30 personas
supera el 70 %. Y en una reunion de 70 pueden apostar lo que quieran con garantas
de ganar: supera el 99 %.
b) Saber y ganar. El concursante de un programa de television se enfrenta a la prueba
final, en la que hay tres puertas. Detras de una de ellas hay un coche, y tras las otras
dos, nada. Elige una y el presentador ordena abrir alguna de las otras dos, siempre
una sin premio. Entonces, tienta al concursante: Desea cambiar de puerta?. La
intuici
on nos dice que da igual, que tendremos un 50 % de probabilidades de acertar.
Pero no es as. Si nos quedamos en la misma solo tendremos una probabilidad de
1/3 (33 %) de conseguir el premio, igual que al principio. Pero si cambiamos, la
probabilidad de obtener el coche sera de 2/3: seremos ganadores siempre que nuestra
primera opci
on no fuera la correcta. Y partamos con un 66 % de probabilidades de
equivocarnos.
c) Diagn
ostico terrible. Nos hacen una prueba para averiguar si padecemos una grave
enfermedad que afecta a una de cada 200 personas. El analisis tiene el 98 % de fiabilidad, esto es, falla el 2 % de las veces. Damos positivo. Debemos asustarnos? S,
pero no en exceso. La probabilidad de que padezcamos el mal es del 20 %. De cada
10.000 personas, unas 50 tendran la enfermedad. De ellas, 49 obtendran un resultado
positivo en la prueba y una dara negativo (por el margen de error). En cuanto a
la poblaci
on sana (9.950 personas), 9.751 daran negativo y 199 positivo. Luego la
mayora de las personas diagnosticadas del mal en ese analisis (199 de 248) ser
an en
realidad falsos positivos (80 %).
d ) Es tan improbable? 30 personas van a una fiesta y dejan su sombrero en un perchero.
A la salida, cada una toma uno sin fijarse bien si es el suyo. Que probabilidad hay de
que ninguna acierte? La intuicion nos se
nala que es muy difcil que suceda, pero no
lo es tanto. La probabilidad de que ninguno de los asistentes se lleve su sombrero es
de alrededor del 37 %. Aproximadamente la misma, por cierto, que la de que acierte
solo uno.
Utilice los conocimientos adquiridos en este tema de probabilidad para justificar los razonamientos y comprobar los c
alculos que se proporcionan en los cuatro ejemplos anteriores.

Apuntes de M
etodos Estadsticos para la Computaci
on

170

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

4.6. Relaci
on de problemas

Apuntes de
ESTADISTICA

Variable aleatoria

Sixto Sanchez Merino


Dpto. de Matematica Aplicada
Universidad de Malaga

Mi agradecimiento a los profesores Carlos Cerezo Casermeiro y


Carlos Guerrero Garca, por sus correcciones y sugerencias en la
elaboraci
on de estos apuntes.

Apuntes de Estadstica
2011, Sixto Sanchez Merino.
Este trabajo est
a editado con licencia Creative Commons del tipo:
Reconocimiento-No comercial-Compartir bajo la misma licencia 3.0 Espa
na.
Usted es libre de:
copiar, distribuir y comunicar p
ublicamente la obra.
hacer obras derivadas.
Bajo las condiciones siguientes:
Reconocimiento. Debe reconocer los creditos de la obra de la manera especificada
por el autor o el licenciador (pero no de una manera que sugiera que tiene su apoyo
o apoyan el uso que hace de su obra).
No comercial. No puede utilizar esta obra para fines comerciales.
Compartir bajo la misma licencia. Si altera o transforma esta obra, o genera
una obra derivada, s
olo puede distribuir la obra generada bajo una licencia identica
a esta.
Al reutilizar o distribuir la obra, tiene que dejar bien claro los terminos de la licencia de
esta obra.
Alguna de estas condiciones puede no aplicarse si se obtiene el permiso del titular de los
derechos de autor.
Nada en esta licencia menoscaba o restringe los derechos morales del autor.

Captulo 5

Variable aleatoria
Los posibles resultados de un experimento son todos los sucesos que constituyen el espacio
muestral. A menudo, nos interesa que estos resultados sean numericos. En este caso, utilizamos
una funci
on que permita clasificar a los sucesos, asignado valores numericos a cada uno de ellos.
Por ejemplo, si el experimento aleatorio consiste en lanzar tres veces una moneda, entonces el
espacio muestral se puede representa por {HHH, HHT, HT H, T HH, HT T, T HT, T T H, T T T }
donde H al suceso salir cara y T es el suceso salir cruz. Pero si estamos interesados en
determinar el n
umero de caras obtenidas en los tres lanzamientos de la moneda, entonces podemos definir una funci
on X que asigna un valor numerico (n
umero de caras) a cada resultado
del experimento. De esta manera, tenemos, por ejemplo, que X(HT H) = 2 o que X(T T T ) = 0.
Este tipo de funciones, cuyos valores dependen de los resultados de un experimento aleatorio,
se llaman variables aleatorias.
Las variables aleatorias y sus distribuciones de probabilidad, pueden considerarse una generalizacion del concepto frecuentista de probabilidad. Se introducen como el modelo matem
atico
ideal al que se aproximan las distribuciones de frecuencias que se obtendran en una repetici
on
indefinida de pruebas de este experimento. Por ello, nos recuerdan a las variables estadsticas y
a sus distribuciones de frecuencia que ya hemos estudiado en estadstica descriptiva.
Las variables aleatorias se clasifican conforme al rango de valores que pueden asumir, y
llamaremos soporte a ese conjunto de posibles valores (n
umeros reales) que puede tomar una
variable aleatoria.
En este captulo estudiaremos principalmente las variables aleatorias discretas, cuyo soportes
esta formado por un n
umero finito, o infinito numerable de valores (p.e. n
umero de defectos en
una inspecci
on de productos, n
umero de elementos en espera en una cola, etc.) y las variables
aleatorias continuas cuyo soporte es un intervalo o conjunto de intervalos de n
umeros reales (p.e.
durabilidad de un dispositivo, velocidad de un automovil, resistencia a la tension de una nueva
aleacion, etc.).
Adem
as, al final del tema, estudiaremos las variables aleatorias bidimensionales y algunos
aspectos asociados relativos a las distribuciones, medidas y regresion. Su analoga con ellas, nos
recordara lo estudiado en el tema de regresion y correlacion, sin mas que cambiar la frecuencia
por la probabilidad, en la mayora de las formulas.

173

174

5.1.

5.1. Variable aleatoria unidimensional

Variable aleatoria unidimensional

Sea (, A, P ) un espacio probabilstico asociado a un experimento aleatorio. Una variable


aleatoria X es una funci
on definida sobre el espacio muestral (conjunto de resultados de un
experimento aleatorio) que toma valores en un conjunto de n
umero reales, llamado soporte, y
que denotaremos por Sx . Se suelen utilizar las abreviaturas v.a.u. o simplemente v.a. para
referirse a las variables aleatorias unidimensionales.
En terminos matem
aticos precisos, una variable aleatoria unidimensional es una aplicacion
X : R que verifica la siguiente propiedad:
para todo x R el conjunto { / X() x} A.
Ejemplo 5.1 Utilice una variable aleatoria para modelizar el experimento que consiste en lanzar
dos veces un dado y anotar la suma de las puntuaciones obtenidas.
El espacio muestral del experimento que consiste en lanzar dos veces un dado se puede representar as:
= {(11), (12), (13), (14), (15), (16), (21), (22), . . . , (66)}
y nos permite considerar la variable aleatoria X que suma el valor de las puntuaciones obtenidas
en los dos dados:
X:R

tal que

X(ij) = i + j

siendo

(ij)

As, por ejemplo, X(11) = 2, X(36) = 9


o X(66) = 12, de manera que el soporte de esta variable
es el conjunto
Sx = {2, 3, 4, 5, ..., 12}
y, por lo tanto, la variable aleatoria X es discreta.

5.2.

Funci
on de distribuci
on

Sea (, A, P ) un espacio probabilstico asociado a un experimento aleatorio y sea X una


variable aleatoria. Definimos la funci
on de distribucion F : R [0, 1] , asociada a la variable
aleatoria X, de la siguiente manera:
F (x) = P ({ / X() x}) = P (X x)

para todo x R

La funcion de distribuci
on es u
nica para cada variable aleatoria a la que caracteriza, resulta
especialmente u
til para calcular probabilidades ya que:
P (X x) = F (x)
P (X > x) = 1 P (X x) = 1 F (x)
P (x1 < X x2 ) = P (X x2 ) P (X x1 ) = F (x2 ) F (x1 )
y sus principales propiedades son:

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

175

5. Variable aleatoria

1. 0 F (x) 1

para todo x R

2. F () = lm F (x) = 0
x

3. F () = lm F (x) = F () = 1
x

4. F es mon
otona no decreciente, es decir, si x1 < x2 entonces F (x1 ) F (x2 ).
5. F es continua por la derecha, es decir, lm F (x + h) = F (x)
h0+

Veamos ahora que forma tiene esta funcion de distribucion en cada uno de los tipos de
variables (discretas y continuas) que vamos a estudiar.

5.3.

Variable aleatoria discreta

Una variable aleatoria X se dice que es discreta si el soporte Sx es un conjunto discreto, es


decir, cuando la variable X toma un n
umero finito o infinito numerable de valores reales. Por
ejemplo, el n
umero de defectos observados en un control de calidad o el n
umero de elementos que
esperan en una cola son variables aleatorias discretas. Se suelen utilizar la abreviatura v.a.d.
para referirse a las variables aleatorias discretas.
A continuaci
on, haremos corresponder una probabilidad a cada valor de la variable aleatoria,
lo cual constituye la distribuci
on de probabilidad de la variable aleatoria, que nos recuerda a las
distribuciones de frecuencias asociadas a las variables estadsticas.

5.3.1.

Distribuci
on de probabilidad

Sea (, A, P ) un espacio probabilstico asociado a un experimento aleatorio y sea X una


variable aleatoria discreta que toma los valores en el conjunto Sx = {x1 , x2 , x3 , ...}. Definimos
la probabilidad p(xi ) para cada uno de los elementos del soporte, de la siguiente manera:
p(xi ) = P ({ / X() = xi }) = P (X = xi )
La distribuci
on de probabilidad de la variable X esta constituida por los elementos del
soporte Sx junto a sus correspondientes valores de probabilidad. Normalmente, se representa en
forma de tabla, de la siguiente manera:
x

p(x)

x1
x2
..
.

p(x1 )
p(x2 )
..
.

xn
..
.

p(xn )
..
.

Apuntes de M
etodos Estadsticos para la Computaci
on

176

5.3. Variable aleatoria discreta

La representaci
on gr
afica de la distribucion de probabilidad se realiza en un diagrama de
barras. En el eje OX se representan los distintos elementos del soporte, y en el eje OY se
representa la probabilidad correspondiente a cada uno de ellos.
Ejemplo 5.2 Consideramos el experimento consistente en lanzar una moneda tres veces al aire.
Definimos la variable aleatoria X que determina el n
umero de caras (H) que aparecen en cada
serie de tres lanzamientos. Obtener y representar su distribuci
on de probabilidad.
La variable X toma los valores 0, 1, 2 y 3, que constituyen el soporte. Para calcular la probabilidad de cada uno de ellos recurrimos a los sucesos correspondientes:
p(0) = P (X = 0) = P ({T T T }) = 1/8

p(1) = P (X = 1) = P ({T T H, T HT, HT T }) = 3/8

p(2) = P (X = 2) = P ({T HH, HT H, HHT }) = 3/8


p(3) = P (X = 3) = P ({HHH}) = 1/8
Por tanto la distribuci
on de probabilidad de la variable X es:
x

p(x)

0
1
2
3

1/8
3/8
3/8
1/8

y su representaci
on gr
afica mediante diagrama de barras es:

Observese la analoga de la distribuci


on de probabilidad de esta variable aleatoria discreta X,
con las distribuciones de frecuencia estudiadas en el tema de estadstica descriptiva.

A continuaci
on vamos a definir los conceptos de funcion de distribucion, media, varianza y
momentos de una variable aleatoria discreta a partir de su distribucion de probabilidad. Por
analoga, usando el concepto frecuentista de la probabilidad, podramos definir el resto de las
medidas de centralizaci
on, dispersi
on, simetra y apuntamiento tal y como se hizo en el tema de
estadstica descriptiva.

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

177

5. Variable aleatoria

Para las definiciones que siguen a continuacion, consideraremos una variable aleatoria discreta X que toma los valores en el conjunto Sx = {x1 , x2 , . . . } con probabilidades p(x1 ), p(x2 ), . . .
Si el n
umero de valores que toma la variable es infinito numerable es necesario asegurarse de
que las series correspondientes, que aparecen en las formulas, son absolutamente convergentes.

5.3.2.

Funci
on de distribuci
on

Dada una variable aleatoria discreta X, para todo n


umero real x se define su funci
on de
distribuci
on asociada F (x), de la siguiente manera:
F (x) = P (X x) =

p(xi )

xi x

Graficamente, esta funci


on acumulativa adopta una forma de escalera, donde los saltos se
producen en los puntos del soporte, siendo F (x) continua por la derecha, en cada uno de ellos.
Ademas, la altura del salto en cada punto corresponde con la probabilidad de que la variable
tome ese valor.
Ejemplo 5.3 Obtener y representar la funci
on de distribuci
on de la variable aleatoria definida
en el ejemplo 5.2 de la p
agina 176.
La funcion de distribuci
on de la variable aleatoria que determina el n
umero de caras que aparecen
en cada serie de tres lanzamientos de una moneda perfecta es:

y su representaci
on gr
afica es

1/8
4/8
F (x) =

7/8

si
si
si
si
si

x<0
0x<1
1x<2
2x<3
x3

que tiene forma de escalera donde los saltos se producen en los puntos del soporte, y la altura
del salto corresponde con la probabilidad en el punto.


Apuntes de M
etodos Estadsticos para la Computaci
on

178

5.3. Variable aleatoria discreta

5.3.3.

Funci
on generatriz de probabilidad

Cuando el soporte de una variable aleatoria discreta X es el conjunto N = {0, 1, 2, . . . },


podemos definir la funci
on generatriz de probabilidad de la variable aleatoria X como la serie de
potencias

X
G(s) =
s n pn
con
s (1, 1)
n=0

donde pn = p(n) = P (X = n). Adem


as, se suelen utilizar la abreviatura f.g.p. para referirse
a la funcion generatriz de probabilidad.
La funcion generatriz es infinitamente derivable y nos permite obtener una de las propiedades mas importantes conocida como teorema de inversi
on que establece la distribucion de
probabilidad de la variable aleatoria X en terminos de su funcion generatriz:
pn =

G(n (0)
n!

para todo n = 0, 1, 2, . . .

Ejemplo 5.4 Sea X la variable aleatoria discreta que determina el n


umero de caras (H) antes
de obtener la primera cruz (T ) en lanzamientos consecutivos de una misma moneda equilibrada.
Determine la funci
on generatriz de probabilidad, compruebe que se verifica el teorema de inversi
on y responda a la siguiente pregunta: c
omo cambiara esta funci
on si la moneda estuviese
trucada con probabilidad p de salir cara?
El soporte de la variable X es el conjunto de los n
umeros naturales Sx = {0, 1, 2, . . . } y su
distribucion de probabilidad se determina as:
 n+1
 n
1
1
1
(n
(n
=
pn = P (HH . . . HT ) = P (H) P (H) . . . P (H) P (T ) =
2
2
2
siendo pn = p(n) = P (X = n). Por lo tanto, la funcion generatriz de probabilidad de X es:
G(s) =

n=0

sn pn =

n=0

sn

1
2

 n X

1
1  s n 1
=
=
2
2 2
2s
n=0

Observese (*) que para obtener la expresion explcita de la funcion en terminos de funciones
elementales, hemos utilizado que la serie de potencias correspondiente era una serie geometrica
convergente para s (1, 1).
Calculando las derivadas sucesivas de la funcion generatriz de probabilidad G(s), se puede
comprobar que
n!
n!
G(n (s) =

G(n (0) = n+1


(2 s)n+1
2
y, por lo tanto,

n!/2n+1
G(n (0)
pn =
=
=
n!
n!
que pone de manifiesto el teorema de inversion.

 n+1
1
2

Si la moneda estuviese trucada y fuese p la probabilidad de salir cara, entonces


pn = P (HH .(n
. . HT ) = P (H) P (H) .(n
. . P (H) P (T ) = pn (1 p)
Dpto. Matem
atica Aplicada (Universidad de M
alaga)

179

5. Variable aleatoria

y, por lo tanto, la funci


on generatriz de probabilidad sera:
G(s) =

n=0

sn pn =

n=0

sn pn (1 p) =

1p
1 ps

para todo s (1, 1).

5.4.

Variable aleatoria continua

Muchas variables aleatorias que se observan en la vida real no son discretas porque pueden
tomar cualquier valor en un intervalo de n
umeros, o en uniones de ellos. Por ejemplo, el tiempo
de espera en una cola, la durabilidad de un componente electronico, la velocidad de un autom
ovil
o la resistencia a la tensi
on de una nueva aleacion. A las variables de este tipo las definiremos
como variables aleatorias continuas.
Matem
aticamente, una variable aleatoria X se dice que es continua si su funcion de distribucion F (x) correspondiente es continua. Se suelen utilizar la abreviatura v.a.c. para referirse
a las variables aleatorias continuas.
Asociada a cada variable aleatoria continua, existe una funcion, llamada funci
on de densidad
que determina la distribuci
on de probabilidad de la variable aleatoria. Veamos, en primer lugar,
esta funci
on de densidad y, despues, estudiaremos la funcion de distribucion y la relacion entre
ambas funciones.

5.4.1.

Funci
on de densidad

Dada una variable aleatoria continua X, decimos que una funcion real f (x), integrable y no
negativa, es la funci
on de densidad de probabilidad (o simplemente funci
on de densidad) de la
variable aleatoria X si el
area encerrada entre la curva y el eje OX es igual a la unidad y, adem
as,
la probabilidad de que X se encuentre entre dos valores x1 y x2 con x1 x2 es igual al
area
comprendida entre estos dos valores, es decir,
Z
Z x2
f (x) dx = 1
y
P (x1 X x2 ) =
f (x) dx

x1

Y ademas, podemos calcular la probabilidad de que la variable tome valores en cualquier otro
intervalo. Por ejemplo,
Z x1
Z
P (X x1 ) =
f (x) dx
y
P (X > x2 ) =
f (x) dx

x2

El soporte de una variable aleatoria continua es el conjunto de n


umeros reales donde la
funcion de densidad f (x) sea estrictamente positiva. Si este soporte es un intervalo, por ejemplo
Sx = (a, b), entonces las integrales impropias se reducen a integrales definidas. De esta manera
Z

f (x)dx = 1

Apuntes de M
etodos Estadsticos para la Computaci
on

180

5.4. Variable aleatoria continua

y si c es un n
umero comprendido entre a y b (a < c < b) entonces
P (X c) =

f (x) dx

o bien

P (X c) =

f (x) dx

Observese que la probabilidad de que una variable aleatoria continua tome un valor particular
es cero, aunque sea posible. Es decir, la probabilidad medira intervalos de ocurrencia de la
variable, no instancias puntuales. Por lo tanto, no sera relevante que una desigualdad sea o no
estricta. Por ejemplo P (X x) = P (X < x) y P (X x) = P (X > x) o bien
P (x1 < X < x2 ) = P (x1 X < x2 ) = P (x1 < X x2 ) = P (x1 X x2 )

5.4.2.

Funci
on de distribuci
on

Dada una variable aleatoria continua X, a la funcion acumulativa


F (x) = P (X x)
se la denomina funci
on de distribuci
on de X, y su representacion grafica corresponde a una
funcion continua, creciente, definida en el intervalo (, ) y con asntotas horizontales para
los valores de y = 0 e y = 1.
La funcion de distribuci
on se define en terminos de la funcion de densidad, de la siguiente
manera:
Z x
F (x) =
f (t) dt

y por tanto, en los valores de x donde exista la derivada de F (x), se verifica la igualdad
f (x) = F 0 (x)
que relaciona las funciones de distribuci
on y densidad.
Ejemplo 5.5 Consideremos la variable aleatoria X que determina la duraci
on en unidades de
tiempo (u.t.) de un componente electr
onico y cuya funci
on de densidad viene representada en el
siguiente gr
afico:

Determinar y representar su funci


on de distribuci
on, y calcular las probabilidades de que el
componente dure m
as de 1 u.t., exactamente 1 u.t. y m
as de una unidad de tiempo sabiendo que
dura menos de 15 u.t.

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

181

5. Variable aleatoria

A la vista de la representaci
on gr
afica, deducimos que la funcion de densidad es

x/2 si 0 < x < 2
f (x) =
0 en el resto
y, a partir de ella, podemos calcular la funcion de distribucion F (x) = P (X x) de la siguiente
manera
Z x
f (t) dt = 0
Si
x<0
entonces F (x) = P (X x) =

Si 0 x < 2 entonces F (x) = P (X x) =


Si

x2

entonces F (x) = P (X x) =

y, por lo tanto,
F (x) =
cuya grafica es

0
x2 /4
1

f (t) dt =

t
x2
dt =
2
4

t
dt = 1
2

f (t) dt =

si x < 0
si 0 x < 2
si x 2

que representa una funci


on continua pues corresponde a una variable aleatoria continua.
Ahora utilizamos estas dos funciones (densidad y distribucion) para calcular las probabilidades. En primer lugar, calculamos la probabilidad de que el componente dure mas de 1 u.t.
Z
Z 2
x
3
P (X > 1) =
f (x) dx =
dx =
4
1
1 2
o bien

1
3
=
4
4
En segundo lugar, la probabilidad de que el componente dure exactamente 1 u.t. es cero pues la
variable aleatoria es continua. Y, por u
ltimo, la probabilidad de que el componente dure m
as de
1 u.t. sabiendo que dura menos de 15 u.t., es una probabilidad condicionada que se calcula as:
P (X > 1) = 1 P (X 1) = 1 F (1) = 1

P (X > 1 | X < 10 5) =

P (1 < x < 10 5)
F (10 5) F (1)
9/16 1/4
5
=
=
=
P (X < 10 5)
F (10 5)
9/16
9

Observese que las probabilidades se han calculado utilizando la funcion de distribucion.

Apuntes de M
etodos Estadsticos para la Computaci
on

182

5.5. Esperanza matem


atica y otras medidas

5.5.

Esperanza matem
atica y otras medidas

En esta secci
on vamos a introducir el concepto de esperanza matematica que permite definir
los momentos de una variable aleatoria. La analoga con las variables estadsticas nos permitira deducir las principales medidas de centralizacion, dispersion, simetra y apuntamiento.
Para las definiciones que siguen consideraremos la variable aleatoria X con soporte Sx .

5.5.1.

Esperanza matem
atica

Para definir la esperanza matem


atica (o simplemente, esperanza) distinguiremos entre variables aleatorias discretas y continuas.
Si X es una variable aleatoria discreta entonces su esperanza matematica es:
X
E [X] =
xi p(xi )
xi Sx

Si X es una variable aleatoria continua entonces su esperanza matematica es:


Z
x f (x) dx
E [X] =

La esperanza matem
atica est
a definida a partir de una serie (en el caso discreto) o de una
integral impropia (en el caso continuo), de manera que la esperanza matematica no existe, o no
se puede definir, si la serie o integral correspondiente no es convergente. Por lo tanto, algunas
de las definiciones que se presentan a continuacion, donde interviene la esperanza matematica,
estan condicionadas a la existencia de esta esperanza matematica.

5.5.2.

Momentos

Se llama momento de orden k respecto del par


ametro c, y se denota por Mk (c), a la esperanza
k
matematica de la variable (X c) , es decir
h
i
Mk (c) = E (X c)k
Y en funcion de que la variable aleatoria sea discreta o continua, se define respectivamente as:
Z
X
k
Mk (c) =
(x c)k f (x) dx
(xi c) p(xi )
,
Mk (c) =

xi Sx

Como casos particulares, y por su importancia, se definen los dos siguientes tipos de momentos:
Si c = 0 tenemos
los momentos ordinarios que representamos por mk y definidos como

mk = E X k para cada uno de los tipos de variables, discretas y continuas, respectivamente:
Z
X
mk =
xki p(xi )
,
mk =
xk f (x) dx
xi Sx

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

183

5. Variable aleatoria

Si c = x tenemos los
 momentos centrales que representamos por k y definidos como k = E (X x )k para cada uno de los tipos de variables, discretas y continuas,
respectivamente:
Z
X
(x x )k f (x) dx
k =
(xi x )k p(xi )
,
k =

xi Sx

Los momentos son de gran importancia porque forman parte de la definicion de muchas
medidas, por ejemplo, la media, la varianza o los coeficientes de asimetra o aplastamiento.
Veamos, ahora, una funci
on asociada a cada variable aleatoria que la caracteriza porque permite
calcular sus momentos ordinarios.

5.5.3.

Funci
on generatriz de momentos

La funci
on generatriz de probabilidad solo se define para variables aleatorias discretas que
toman valores en N. Por lo tanto, se hace necesario definir una funcion mas general, asociada
a cualquier tipo de variable aleatoria, continua o discreta, y que caracterice la distribuci
on de
probabilidad de esa variable.
Sea X una variable aleatoria. Se define la funci
on generatriz de momentos asociada a la
variable X como la funci
on
M (t) = E(etX )
siempre que la esperanza exista en un entorno del cero (t0 , t0 ). Se suelen utilizar la abreviatura
f.g.m. para referirse a la funci
on generatriz de momentos, y seg
un sea discreta o continua la
variable aleatoria la expresi
on, respectivamente sera:
Z
X
txi
,
M (t) =
etx f (x) dx
M (t) =
e p(xi )

xi Sx

Si X es una variable aleatoria con funcion generatriz de momentos M (t) que es finita para
|t| < t0 con t0 > 0, entonces X posee momentos ordinarios de todos los ordenes y ademas
E(X n ) = M (n (0)
Esta propiedad justifica el nombre de esta funcion generatriz pues determina los momentos
ordinarios a partir de las derivadas sucesivas de la funcion en el cero.
Ejemplo 5.6 Sea X la variable aleatoria discreta, definida en el ejemplo 5.4 de la p
agina 178,
que determina el n
umero de caras antes de obtener la primera cruz en el lanzamiento de una
moneda equilibrada. Determine la funci
on generatriz de momentos y, a partir de ella, calcule los
momentos ordinarios de pimer y segundo orden.
En el ejemplo 5.4 determinamos que la distribucion de probabilidad de la variable X era:
 n+1
1
p(n) =
2

para todo

nN

Apuntes de M
etodos Estadsticos para la Computaci
on

184

5.5. Esperanza matem


atica y otras medidas

y, por lo tanto, su funci


on generatriz de momentos es:
M (t) =

tn

e p(n) =

n=0

n=0

 n
 n+1 X

1 et
1
1
=
=
e
2
2 2
2 et
tn

n=0

Ahora, calculando el valor en 0 de las derivadas sucesivas de esta funcion, obtenemos los
momentos ordinarios. Por ejemplo, la primera derivada
M 0 (t) =

et
(2 et )2

M 0 (0) = 1

determina que E[X] = 1 que, como veremos, corresponde a la media de la variable.

5.5.4.

Medidas de posici
on

A continuaci
on, definimos las principales medidas de posicion.
Media
La esperanza matem
atica de la variable aleatoria X recibe el nombre de media de la variable
y se denota por x
, o bien, x . La estructura de su formula y la interpretacion de su valor es
similar a la media aritmetica definida en estadstica descriptiva pero sustituyendo las frecuencias
relativas (de los datos que se han observado) por la probabilidad de los valores de la variable
(resultados posibles).
El comportamiento de la esperanza respecto de las transformaciones lineales es el siguiente:
Si

Y = a + bX

entonces

E [Y ] = a + bE[X]

Moda
La moda de una variable aleatoria X es el valor del soporte que tiene mayor probabilidad
(variable discreta) o densidad (variable continua).
Cuantiles
El cuantil de orden k de una variable aleatoria X es el punto ck del soporte que verifica las
dos siguientes condiciones:
P (X ck ) k

P (X ck ) 1 k

que pueden resumirse en la siguiente condicion


k F (ck ) k + P (X = ck )
y que, en el caso de una variable continua, equivale a F (ck ) = k.

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

con

0<k<1

185

5. Variable aleatoria

En general, el cuantil de orden k no es u


nico y, ademas, si ck y c0k son dos cuantiles de orden
k de una misma variable aleatoria, con ck < c0k , entonces cualquier valor del intervalo (ck , c0k ) es
tambien, un cuantil de orden k.
A partir de esta definici
on, y por analoga a la definicion de las medidas de estadstica
descriptivas, podemos considerar los distintos cuantiles (cuartiles, deciles y percentiles).
Como caso particular, definimos la mediana de una variable aleatoria X como el punto Me
que verifica las dos siguientes condiciones: P (X Me) 1/2 y P (X Me) 1/2. Observese
que si X es una variable aleatoria continua entonces la mediana verifica que F (Me) = 1/2.
Ejemplo 5.7 Calcule la media, la mediana y la moda de la variable aleatoria discreta definida
en el ejemplo 5.2 de la p
agina 176.
Ejemplo 5.8 Calcule la media y la mediana de la variable aleatoria continua definida en el
ejemplo 5.5 de la p
agina 180, y compruebe que no existe la moda de esta distribuci
on.

5.5.5.

Medidas de dispersi
on

A continuaci
on, definimos las principales medidas de dispersion y veremos que la estructura de sus f
ormulas y la interpretacion de sus valores son similares a las de sus homonimos
en estadstica descriptiva pero sustituyendo las frecuencias relativas (de los datos que se han
observado) por la probabilidad de los valores de la variable (resultados posibles).
Rangos
El rango de una variable aleatoria es la diferencia entre los valores extremos del soporte, si
son finitos, e infinito, en otro caso.
A partir de los cuantiles, tambien podemos definir los rangos intercuartlico, interdeclico e
intercentlico, an
alogamente a como se define en estadstica descriptiva.
Varianza y desviaci
on tpica
La varianza de una variable aleatoria X, que denotaremos por x2 , o bien, por V [X], se define
como el momento central de orden 2, es decir


x2 = V [X] = E (X E[X])2
Seg
un sea discreta o continua la variable aleatoria la expresion, respectivamente sera:
Z
X
(x x
)2 f (x) dx
x2 =
(xi x
)2 p (xi )
,
x2 =
xi Sx

Si desarrollamos el cuadrado y aplicamos las propiedades de la esperanza (serie o integral)


obtenemos la siguiente f
ormula:
 
x2 = V [X] = E X 2 (E [X])2
Apuntes de M
etodos Estadsticos para la Computaci
on

186

5.5. Esperanza matem


atica y otras medidas

que permite calcular la varianza de una manera mas sencilla.


Tambien se define la desviaci
on tpica de una variable aleatoria discreta X como la raz
cuadrada de la varianza. Seg
un sea discreta o continua la variable aleatoria la expresion, respectivamente sera:
sZ
sX

p
p
x = x2 =
(x x
)2 f (x) dx
(xi x
)2 p(xi )
,
x = x2 =

xi Sx

El comportamiento de la varianza respecto de las transformaciones lineales es el siguiente:


Si

Y = a + bX

entonces

V [Y ] = b2 V [X]

Coeficiente de variaci
on
A partir de los conceptos de media (
x) y desviacion tpica (x ) de una variable aleatoria X,
se define el coeficiente de variaci
on de la siguiente manera:
CV (X) =

x
|
x|

siempre que la media de la variable sea distinta de cero.


Este coeficiente nos permite comparar la dispersion de dos variables aleatorias.
Ejemplo 5.9 Calcule el rango intercuartlico y el coeficiente de variaci
on de la variable aleatoria
discreta definida en el ejemplo 5.2 de la p
agina 176.
Ejemplo 5.10 Calcule el rango intercuartlico y el coeficiente de variaci
on de la variable aleatoria continua definida en el ejemplo 5.5 de la p
agina 180.

5.5.6.

Medidas de forma

La simetra y el apuntamiento de una variable aleatoria se estudia de manera similar al de


una variable estadstica y para medir ambas caractersticas se utilizan los mismos coeficientes
adimensionales, con sus mismas interpretaciones en funcion de su valor.

Coeficiente de asimetra
Para medir la simetra de una variable aleatoria X se define el coeficiente de asimetra de
Fisher, que se denota por g1 , de la siguiente manera:
g1 =

3
3

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

187

5. Variable aleatoria

Coeficiente de aplastamiento
Para medir la curtosis de una variable aleatoria X se define el coeficiente de aplastamiento
de Fisher, que se denota por g2 , de la siguiente manera:
4
g2 = 4 3

Ejemplo 5.11 Estudiar la simetra y la curtosis de la variable aleatoria discreta definida en el


ejemplo 5.2 de la p
agina 176.
Ejemplo 5.12 Estudiar la simetra y la curtosis de la variable aleatoria continua definida en
el ejemplo 5.5 de la p
agina 180.

5.6.

Variable aleatoria bidimensional

Vamos a generalizar el concepto de variable aleatoria y de funcion de distribucion para


considerar el estudio conjunto de dos variables aleatorias. Los resultados obtenidos reflejan un
paralelismo con los contenidos del tema de regresion y correlacion.
Sea (, A, P ) un espacio probabilizable y sean X e Y dos variables aleatorias definidas sobre
ese espacio. Una variable aleatoria bidimensional es una aplicacion (X, Y ) : R2 que verifica
la siguiente propiedad:
para todo (x, y) R2 el conjunto { / X() x, Y () y} A.
Ejemplo 5.13 Consideremos el experimento consistente en lanzar una moneda al aire tres veces. Sea X la variable aleatoria que determina el n
umero de caras (H) obtenidas, y sea Y la
variable aleatoria que toma los valores 0, si la primera vez sali
o cara (H), y 1, si la primera vez
sali
o cruz (T ). Determine la variable aleatoria bidimensional (X, Y ).
El espacio muestral del experimento consistente en lanzar tres veces una moneda se puede
representar as:
= {HHH, HHT, HT H, T HH, HT T, T HT, T T H, T T T }
y, para cada uno de estos sucesos, representamos el valor de la variable (X, Y ) en la siguiente
tabla:
HHH HHT HT H T HH HT T T HT T T H T T T

(X, Y )() (3, 0) (2, 0) (2, 0) (2, 1) (1, 0) (1, 1) (1, 1) (0, 1)
que corresponde a una variable aleatoria discreta cuyo soporte es Sxy = {0, 1, 2, 3} {0, 1}. 

5.6.1.

Funci
on de distribuci
on

Sea (, A, P ) un espacio probabilizable y sean (X, Y ) una variable aleatoria bidimensional


definida en ese espacio. Llamaremos funci
on de distribuci
on conjunta de la variable (X, Y ) a la
funcion F : R2 R definida por
F (x, y) = P (X x, Y y)
Apuntes de M
etodos Estadsticos para la Computaci
on

188

5.6. Variable aleatoria bidimensional

Las propiedades de esta funci


on de distribucion conjunta son similares a las de la funcion de
distribucion de una variable aleatoria unidimensional:
1. F (, ) =

lm

(x,y)(,)

F (x, y) = 0, y ademas,

a) F (, y) = lm F (x, y) = 0 para todo y R, y


x

b) F (x, ) = lm F (x, y) = 0 para todo x R.


y

2. F (, ) =

lm

(x,y)(,)

F (x, y) = 1.

3. F (x, y) es mon
otona no decreciente respecto a cada una de sus variables, es decir
a) Si x1 < x2 entonces F (x1 , y) F (x2 , y) para todo y R
b) Si y1 < y2 entonces F (x, y1 ) F (x, y2 ) para todo x R
4. F (x, y) es continua a la derecha respecto a cada una de sus variables, es decir,
a) lm F (x + h, y) = F (x, y) para todo y R
h0+

b) lm F (x, y + k) = F (x, y) para todo x R


k0+

La funcion de distribuci
on permite calcular la probabilidad de cualquier rectangulo de R2 de
la forma (x1 , x2 ] (y1 , y2 ], de la siguiente manera:
P (x1 < X x2 , y1 < Y y2 ) = F (x2 , y2 ) F (x2 , y1 ) F (x1 , y2 ) + F (x1 , y1 )
Ademas, si (X, Y ) es una variable aleatoria bidimensional con funcion de distribucion conjunta F (x, y), siendo F1 (x) y F2 (y) las funciones de distribucion de las variables aleatorias X e
Y , respectivamente, entonces decimos que estas variables son independientes si, y solo si,
F (x, y) = F1 (x) F2 (y)

5.6.2.

para todo

(x, y) R2

Tipos de variables aleatorias bidimensionales

Existen varios tipos de variables aleatorias bidimensionales en funcion de la naturaleza (discreta, continua o mixta) de las variables que la componen vamos a estudiar dos casos: las variables
aleatorias bidimensionales discretas y las continuas.

Variables aleatorias bidimensionales discretas


Una variable aleatoria bidimensional (X, Y ) se dice que es discreta si X e Y son variables
aleatorias discretas.

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

189

5. Variable aleatoria

Supongamos que X toma los valores {x1 , x2 , . . . , xk }, e Y toma los valores {y1 , y2 , . . . , yp }.
Entonces la distribuci
on de probabilidad de la variable (X, Y ) viene determinada por la tabla
de doble entrada
Y
y1 y2 yj yp
X\
x1
p11 p12 . . . p1j . . . p1p p1
x2
p21 p22 . . . p2j . . . p2p p2
..
..
..
..
..
..
..
..
.
.
.
.
.
.
.
.
xi
..
.

pi1
..
.

xk

pk1 pk2
p1 p2

pi2
..
.

...
..
.
...

pij
..
.

...
..
.
...

pkj
pj

pip
..
.

pkp pk
pp 1

siendo
pij = p(xi , yj ) = P (X = xi , Y = yj )

pi
..
.

p
k X
X

con

pij = 1

i=1 j=1

pi =

p
X

pij

pj =

j=1

k
X

pij

i=1

La funci
on de distribuci
on de la variable aleatoria bidimensional (X, Y ) se define as:
X X
F (x, y) = P (X x, Y y) =
P (X = xi , Y = yj )
xi x yj y

El momento de orden (r, s) respecto al punto (a, b), de la variable aleatoria bidimensional
(X, Y ), se definen as:
Mrs (a, b) = E[(X a)r (Y b)s ] =

p
k X
X
i=1 j=1

(xi a)r (yj b)s pij

denotando por mrs los momentos ordinarios (cuando a = 0 y b = 0) y por rs los momentos
centrales (cuando a = x
y b = y). Estos momentos definen, entre otras medidas, las medias y
varianzas de las variables X e Y , as como su covarianza:
x
= m10

y = m01

x2 = 20

y2 = 02

xy = 11

Los conceptos de distribuci


on marginal, distribucion condicionada e independencia de variables son similares a los de las variables estadsticas cambiando frecuencia por probabilidad.
Ejemplo 5.14 Estudiar la variable aleatoria bidimensional (X, Y ) cuya distribuci
on de probabilidad se muestra en la siguiente tabla:
X
Y\

1
0
1

00 06

00 02

00 04

00 08

00 2
00 15 00 05 00 10 00 20 00 5
00 09 00 03 00 06 00 12 00 3
00 3 0 0 1 0 0 2 0 0 4
1

Apuntes de M
etodos Estadsticos para la Computaci
on

190

5.6. Variable aleatoria bidimensional

En primer lugar observamos que la variable bidimensional (X, Y ) es discreta porque son tambien
discretas sus dos componentes, y el soporte es el producto cartesiano de los soportes de cada
una de sus componentes, es decir, el conjunto Sxy = {0, 1, 2, 3} {1, 0, 1}.
La probabilidad de cualquier regi
on de R2 se calcula sumando las probabilidades p(x, y)
correspondientes a todos los puntos (x, y) Sxy que pertenecen a la region. Por ejemplo,
P ((X 1)2 + Y 2 1) = p(0, 0) + p(1, 0) + p(2, 0) + p(1, 1) + p(1, 1) =
= 00 15 + 00 05 + 00 10 + 00 03 + 00 02 =
= 00 35
Las distribuciones marginales, que denotaremos por px (xi ) y por py (yj ), aparecen representadas en el margen de la tabla y son las siguientes:
xi px (xi )
0
00 3
00 1
1
2
00 2
3
00 4

yj py (yj )
1
00 2
00 5
0
1
00 3

y, a partir de ellas, podemos comprobar que las variables son independientes pues
p(xi , yj ) = px (xi ) py (yj )

para todo

(xi , yj ) Sxy

Ademas, podemos calcular cualquier medida de cada una de las variables, por ejemplo, la media
y la varianza de la variable X:
E[X] =
E[X 2 ] =

3
X

x=0
3
X
x=0

x p(x) = 10 7
x2 p(x) = 40 5

V [X] = E[X 2 ] (E[X])2 = 40 5 (10 7)2 = 10 61


Tambien podemos calcular las distribuciones condicionadas. Por ejemplo, la distribucion de
probabilidad de la variable Y condicionada al valor 2 de la variable X, que denotamos por p2 (yj ),
es:
yj p2 (yj )
p(x, y)
1
00 2
p2 (yj ) = p(yj | X = 2) =

0
00 5
px (2)
1
00 3
que coincide con la distribuci
on marginal de la variable Y , pues las variables son independientes.

Variables aleatorias bidimensionales continuas
Una variable aleatoria bidimensional (X, Y ) se dice que es continua si X e Y son variables
aleatorias continuas.

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

191

5. Variable aleatoria

La distribuci
on de probabilidad de la variable (X, Y ) viene determinada por una funci
on de
densidad f (x, y), integrable y no negativa, que verifica:
Z x Z y
f (u, v) dv du
para todo (x, y) R2
F (x, y) =

y, ademas,
f (x, y) =

2 F (x, y)
xy

para todo punto (x, y) R2 donde exista esta derivada de segundo orden.
La funci
on de densidad permite calcular la probabilidad de cualquier rectangulo de R2 de la
forma (x1 , x2 ] (y1 , y2 ], de la siguiente manera:
Z x2 Z y2
P (x1 < X x2 , y1 < Y y2 ) =
f (x, y) dy dx
x1

y1

y, en general, se puede calcular la probabilidad de cualquier region D R2 integrando (integrales


dobles) la funci
on de densidad sobre la region:
ZZ
P (D) =
f (x, y) dx dy
D

El momento de orden (r, s) respecto al punto (a, b), de la variable aleatoria bidimensional
(X, Y ), se definen as:
Z Z
r
s
Mrs (a, b) = E[(X a) (Y b) ] =
(x a)r (y b)s f (x, y) dy dx

denotando por mrs los momentos ordinarios (cuando a = 0 y b = 0) y por rs los momentos
centrales (cuando a = x y b = y ). Estos momentos definen, entre otras medidas, las medias y
varianzas de las variables X e Y , as como su covarianza:
x = m10

y = m01

x2 = 20

y2 = 02

xy = 11

Las distribuciones marginales de la variable aleatoria bidimensional (X, Y ) son


Z x Z
Z Z y
F1 (x) = F (x, ) =
f (u, v) dv du , F2 (y) = F (, y) =
f (u, v) dv du

siendo
f1 (x) =

f (x, y) dy

f2 (y) =

f (x, y) dx

las funciones de densidad de las distribuciones de las variables X e Y , respectivamente.


Las distribuciones condicionadas de la variable aleatoria bidimensional (X, Y ) son
Rx
f (u, y) du
Fy (x) = F (x | y) = P (X x | Y = y) =
f2 (y)
Ry
f (x, v) dv
Fx (y) = F (y | x) = P (Y y | X = x) =
f1 (x)
Apuntes de M
etodos Estadsticos para la Computaci
on

192

5.6. Variable aleatoria bidimensional

siendo
fy (x) = f (x | y) =

f (x, y)
f2 (y)

fx (y) = f (y | x) =

f (x, y)
f1 (x)

donde fy (x) es la funci


on de densidad de la variable X condicionada al valor y de la variable
Y , y fx (y) es la funci
on de densidad de la variable Y condicionada al valor x de la variable X.
Observese que para poder definir estas funciones condicionadas es necesario que sea positivo el
correspondiente valor de la funci
on de densidad marginal que aparece en el denominador.
Y, por u
ltimo, diremos que las variables aleatorias X e Y son independientes si, y solo si,
F (x, y) = F1 (x) F2 (y)

o bien f (x, y) = f1 (x) f2 (y)

para todo

(x, y) R2

Ejemplo 5.15 Estudiar la variable aleatoria bidimensional (X, Y ) con funci


on de densidad

cxy
si 0 y 1 x 1
f (x, y) =
0
en el resto
En primer lugar determinamos el soporte Sxy que resulta ser la region de R2 con forma de
triangulo de vertices (0, 0), (1, 0) y (0, 1). Despues, podemos determinar el valor de la constante
c aplicando que la integral de la funci
on de densidad sobre el soporte es 1.
Z Z
Z 1 Z 1x
Z 1
cx(x 1)2
c
1=
f (x, y) dx dy =
cxy dy dx =
dx =
2
24

0
0
0
y determinamos el valor c = 24 resolviendo la ecuacion correspondiente.
Ahora, podemos calcular las distribuciones marginales:
Z
Z 1x
f1 (x) =
f (x, y) dy =
24xy dy = 12x(x 1)2
f2 (y) =

f (x, y) dx =

y, por lo tanto,
(
12x(x 1)2
f1 (x) =
0

si 0 x 1
en el resto

si 0 x 1

1y

24xy dx = 12y(y 1)2

f2 (x) =

si 0 y 1

12y(y 1)2
0

si 0 y 1
en el resto

y comprobar que las variables no son independientes pues f (x, y) 6= f1 (x)f2 (y).
Con las distribuciones marginales podemos calcular la media y la varianza de cada una de
las variables:
Z 1
Z
2
E[X] =
xf1 (x) dx =
12x2 (x 1)2 dx =
5

0
Z
Z 1
1
E[X 2 ] =
x2 f1 (x) dx =
12x3 (x 1)2 dx =
5

0
 2
1
2
1
V [X] = E[X 2 ] (E[X])2 =
=
5
5
25
y, por simetra, deducimos que E[Y ] = 2/5 y que V [Y ] = 1/25.

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

193

5. Variable aleatoria

Y tambien podemos calcular las distribuciones condicionadas. Por ejemplo, la distribuci


on
de probabilidad de la variable Y condicionada al valor 1/2 de la variable X es
f1/2 (y) = f (y | X = 1/2) =
y, por lo tanto,

f (1/2, y)
24 (1/2) y
=
= 8y
f1 (1/2)
3/2

8y
f1/2 (y) =

si 0 y

para todo

0y

1
2

1
2

en el resto

Con todas estas funciones de densidad calculadas podramos obtener la probabilidad de


cualquier conjunto y las medidas de cualquiera de las variables aplicando las formulas correspondientes.

Regresi
on y correlaci
on
Los conceptos de regresi
on y correlacion de variables aleatorias son similares a los de las
variables estadsticas cambiando frecuencia por probabilidad. El objetivo es el mismo: encontrar
y medir una relaci
on entre las variables X e Y , que nos permita predecir una de ellas en funci
on
de la otra. Para ello, determinaremos la lnea de regresion, que en el caso lineal, consiste en
encontrar los valores de a y b en el modelo Y = a + bX que minimice E[(Y a bX)2 ]. Y el
resultado es
xy
xy
b= 2
,
a = y bx
y
r=
x
x y
siendo r un n
umero real en el intervalo [1, 1], que se denomina coeficiente de correlacion lineal
y que determina la bondad del ajuste.
Ejemplo 5.16 Obtener la recta de regresi
on de Y /X para las variables X e Y estudiadas en el
ejemplo 5.13 de la p
agina 187 y determinar la bondad del ajuste.
La distribuci
on de probabilidad de la variable (X, Y ) se representa en la siguiente tabla:
Y\

0
1

0
1
2
3
0 1/8 2/8 1/8 1/2
1/8 2/8 1/8 0 1/2
1/8 3/8 3/8 1/8 1

y, a partir de ella, determinamos la curva general de regresion:


x y p(x, y)
0 1
1/8
1 2/3
3/8
2 1/3
3/8
3 0
1/8
que nos permite calcular, de forma mas sencilla, la recta de regresion, pues los puntos de esta
curva estan alineados y la u
nica recta que pasa por ellos es la recta buscada:
1
y =1 x
3
Apuntes de M
etodos Estadsticos para la Computaci
on

194

5.6. Variable aleatoria bidimensional

Si queremos estudiar la bondad del ajuste tenemos que calcular el coeficiente de correlacion
lineal, utilizando los datos de la distribucion de probabilidad de la variable (X, Y ), presentados
en la primera tabla:
x
= 10 5 ,

y = 00 5 ,

x2 = 00 75 ,

y2 = 00 25 ,

xy = 00 25

y el coeficiente de correlaci
on lineal de Pearson es
r=

xy
1/4
1
p
=p
= = 00 577
x y
3
3/4 1/4

que se interpreta de forma similar a su homonimo en estadstica descriptiva.

Ejemplo 5.17 Obtener la recta de regresi


on de Y /X para las variables X e Y estudiadas en el
ejemplo 5.15 de la p
agina 192 y determinar la bondad del ajuste.
En el ejemplo 5.15 ya habamos calculado la media y la varianza de cada una de las variables
que resultaban ser:
2
1
x
= y =
y
x2 = y2 =
5
25
Si calculamos la covarianza
Z Z
Z 1 Z 1x
2
E[XY ] =
x y f (x, y) dx dy =
24x2 y 2 dy dx = =
15

0
0
2 2
2
2
=
15 5 5
75
ya tenemos todas las medidas para determinar al recta de regresion de Y /X

xy
2/75
2

b
=
=
=

2 2
x2
1/25
3
y = a + bx

y= x

3 3
2
2 2 2

a = y b
x= + =
5 3 5
3
xy = E[XY ] E[X] E[Y ] =

y la bondad del ajuste queda determinada por el coeficiente de correlacion lineal de Pearson:
r=

xy
2/75
2
=
=
x y
1/5 1/5
3

que se interpreta de forma similar a su homonimo en estadstica descriptiva.

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

195

5. Variable aleatoria

5.7.

Relaci
on de problemas

1. Sea X el n
umero de a
nos que deben transcurrir antes de que un tipo particular de maquina
necesite reemplazo. Sup
ongase que la distribucion de probabilidad de X es P (1) = 00 3,
0
0
P (2) = 0 4, P (3) = 0 2 y P (4) = 00 1. Calcule y represente la funcion de distribucion.
2. Dado el experimento consistente en lanzar un par de dados, consideramos las siguientes
variables aleatorias:
X = m
aximo de la puntuacion obtenida entre los dos dados.
Y = diferencia (en valor absoluto) de los puntos obtenidos en los dados.
Para cada una de las variables que hemos definido, se pide:
a) Calcular y representar la distribucion de probabilidad.
b) Calcular y representar la funcion de distribucion.
c) Calcular la esperanza, la varianza y desviacion tpica.
d ) Calcular: P (X x
), P (X > x
), P (2 < X 4).

e) Calcular: P (Y 2), P (Y > 2), P (Y = 2), P (Y > 7).


f ) Determinar la mediana, la moda y los cuartiles.

3. Se lanza cuatro veces una moneda trucada que tiene 2/3 de probabilidad de salir cara (H)
y 1/3 de probabilidad de salir cruz (T ). Consideramos las siguientes variables aleatorias:
X = mayor n
umero de caras consecutivas obtenidas en los cuatro lanzamientos.
Y = n
umero total de caras obtenidas en los cuatros lanzamientos.
a) Para cada una de las variables que hemos definido
1) Calcule y represente la distribucion de probabilidad.
2) Calcule y represente la funcion de distribucion.
3) Calcule la esperanza, la varianza y la desviacion tpica.
b) Utilice alguna de las variables X o Y que hemos definido, para calcular las siguientes
probabilidades:
1) Probabilidad de que salgan a lo sumo dos caras consecutivas.
2) Probabilidad de que salgan, al menos, dos caras (no necesariamente consecutivas).
4. Consideremos la variable aleatoria X con funcion de distribucion

0
si x < 1

0
0 3 si 1 x < 0
F (x) =
00 7 si 0 x < 1

1
si x 1
a) Dibuje la funci
on de distribucion.

b) Calcule la distribuci
on de probabilidad.
c) Calcule las probabilidades P (X > 0), P (X 2) y P (X = 1 | X 0).
Apuntes de M
etodos Estadsticos para la Computaci
on

196

5.7. Relaci
on de problemas

5. Distribuci
on degenerada. Sea X una variable aleatoria que solo toma el valor x0 . Determine
su distribuci
on de probabilidad, su funcion de distribucion, su media, su varianza y su
funcion generatriz de momentos.
6. Distribuci
on de Bernoulli. Consideramos la variable aleatoria X que solo toma los valores
0 y 1, y que la probabilidad asociada al punto x = 1 es un valor p [0, 1].
a) Calcule la media, la varianza y las funciones generatrices de probabilidad y de momentos. Particularice los resultados para p = 1/2.
b) Determine experimentos y variables que tengan esta distribucion de probabilidad.
c) Compruebe que si p = 0, o bien, si p = 1, entonces la distribucion de probabilidad de
nuestra variable es degenerada.
7. Distribuci
on uniforme discreta. Consideremos la variable aleatoria discreta U que toma
los valores {1, 2, . . . , n}, todos ellos con la misma probabilidad. Calcule la distribucion de
probabilidad, su media y su varianza.
n
X
n(n + 1)(2n + 1)
Nota: para calcular la varianza se necesita saber que
k2 =
6
k=1

8. Distribuci
on geometrica I de par
ametro p. Sea X la variable aleatoria que determina el
n
umero de fallos antes del primer exito, siendo p la probabilidad de exito y q = 1 p
la probabilidad de fracaso. Pensemos, por ejemplo, en lanzamientos consecutivos de una
moneda, siendo exito, por ejemplo, el suceso F. Se pide:
a) Determinar la distribuci
on de probabilidad de la variable aleatoria X.
b) Demostrar que x
= q/p y que x2 = q/p2 .
c) Determinar la funci
on generatriz de probabilidad y comprobar que se verifica el teorema de inversi
on.
d ) Determinar la funci
on generatriz de momentos y utilizarla para comprobar los resultados obtenidos para la media y la varianza de la variable.
e) Particularizar los resultados para p = 1/2.
f ) Que sucede si p = 0, o bien, si p = 1?
9. Distribuci
on geometrica II de par
ametro p. Sea X una variable aleatoria discreta con
funcion generatriz de probabilidad
G(s) =

ps
1 sq

para alg
un p [0, 1] con q = 1 p. Se pide:
a) Determinar la distribuci
on de probabilidad de la variable aleatoria X.
b) Demostrar que x
= 1/p y que x2 = q/p2 .
c) Comprobar que la variable X representa el n
umero de pruebas necesarias para obtener
el primer exito, siendo p la probabilidad de exito y q = 1p la probabilidad de fracaso.
d ) Determinar la funci
on generatriz de momentos y utilizarla para comprobar los resultados obtenidos para la media y la varianza de la variable.
e) Particularizar los resultados para p = 1/2.

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

197

5. Variable aleatoria

f ) Que sucede si p = 0, o bien, si p = 1?


10. Distribuci
on de Poisson. Sea X una v.a.d que toma los valores 0, 1, 2, . . . con probabilidad
P (X = x) = e

x
x!

para alg
un valor real > 0.
a) Demuestre que E[x] = V [X] = .
b) Determine la funci
on generatriz de probabilidad y compruebe que se verifica el teorema de inversi
on.
c) Determine la funci
on generatriz de momentos y utilcela para comprobar los resultados obtenidos para la media y la varianza de la variable.
d ) Particularice los resultados para = 2.
11. Sea X una variable aleatoria continua con funcion de densidad

x/8 si 0 x 4
f (x) =
0
en el resto
Se pide:
a) Representar la funci
on de densidad de X.
b) Calcular y representar la funcion de distribucion de X.
c) Calcular la esperanza, la varianza y desviacion tpica de X.
d ) Calcular la mediana, la moda y el rango intercuartlico.
e) Calcular las probabilidades P (1 X 3), P (X 1), P (X 3), P (X > 0) y P (X
5), y las probabilidades condicionadas P (X > 1 | X < 3) y P (X Q1 | X M e).
12. Distribuci
on Uniforme Continua. Obtenga k para que f (x) = k, sea una funcion de densidad en el intervalo [0, 1]. Halle su funcion de distribucion, su media y su varianza. Obtenga
los mismos resultados para el caso en el que la funcion este definida en el intervalo [a, b].
13. La demanda diaria de gasolina sin plomo (en litros) en cierta estacion de servicio es una
variable aleatoria X. Sup
ongase que X tiene la densidad

k si 4000 < x < 9000
f (x) =
0 en el resto
Se pide:
a) Calcular el valor de k.
b) Representar la funci
on de densidad de X.
c) Calcular y representar la funcion de distribucion de X.
d ) Calcular la esperanza, la varianza y desviacion tpica de X.
e) Calcular la probabilidad de vender mas de 5000 litros.

Apuntes de M
etodos Estadsticos para la Computaci
on

198

5.7. Relaci
on de problemas

14. Una variable aleatoria X tiene por funcion de densidad:



k x2 si 0 x 1
f (x) =
0
en el resto
Determine el valor de k y encuentre el n
umero c tal que F (c) = 720 9 %.
15. Una variable aleatoria X tiene por funcion de densidad:

c ex si x > 0
f (x) =
0
en el resto
Calcule el valor de c y determine la funcion de distribucion, la media, la mediana, la
varianza y la funci
on generatriz de momentos.
16. Una variable aleatoria X tiene por funcion de

0
k xn
F (x) =

distribucion:
si
si
si

x<0
0x1
x>1

Determine la funci
on de densidad, la media, la mediana y la varianza, para cualquier valor
entero de n que sea mayor que 1.

17. La funcion de densidad de una variable aleatoria X es f (x) = kx si x (0, 1) y f (x) = 0


en el resto. Halle:
a) La funci
on de distribuci
on.
b) P (X < 2/3).
c) P (1/3 < X < 1/2).
d ) El valor a tal que P (X < a) = 00 25 e interpretar el resultado.
e) Su media y varianza.
18. Sea X el espesor (en milmetros) de las arandelas que produce una maquina. Supongase
que X tiene una densidad f (x) = kx si x (10 9, 20 1) y f (x) = 0 en el resto. Halle:
a) La funci
on de distribuci
on.
b) La probabilidad de que una arandela tenga espesor 10 95.
c) P (10 95 < X < 20 05).
d ) El valor a tal que P (X < a) = 00 25 e interpretar el resultado.
e) Su media y varianza.
19. Una maquina fabrica ejes, cuya medida del radio (X) se distribuyen seg
un la funcion de
densidad f (x) = k (x 90 9) (x 100 1) si x (90 9, 100 1) y cero en caso contrario (x en
milmetros).
a) Determine el valor de k, y calcule la media y la varianza.
b) Si se desechan todos los ejes cuyos radios se desvan en mas de 00 03 mm. de la media,
calcule la proporci
on de ejes fabricados que se rechazaran.

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

199

5. Variable aleatoria

c) Determine la nueva funcion de densidad f (h), si los ejes se midiesen en centmetros,


es decir, si h = x/10.
20. Sea X una variable aleatoria continua con funcion de densidad

1/4 si 0 x < 1

1/2 si 1 x < 2
f (x) =
a
si 2 x 4

0
en el resto
a) Determine el valor de a.

b) Determine y representa la funcion de distribucion.


c) Calcule la media, la mediana y la moda.
d ) Calcule la varianza
e) Estudie la simetra y la curtosis.
21. Sea X una variable aleatoria continua con funcion de densidad

0
si x < 1

a + x si 1 x < 0
f (x) =
a x si 0 x < 1

0
si x 1
a) Determine el valor de a.

b) Determine y representa la funcion de distribucion.


c) Calcule la media, la mediana y la moda.
d ) Calcule la varianza
e) Estudie la simetra y la curtosis.
22. Sea X una variable aleatoria con funcion de

0
x2
F (x) =

distribucion
si
si
si

x0
0x<1
x1

Se pide:

a) Dibujar la funci
on de distribucion.
b) Calcular y dibujar la funcion de densidad.
c) Calcular las probabilidades P (X < 00 25) y P (X < 00 25 | X < 00 5).
23. El tiempo de reparaci
on (en horas) de un tipo de maquina, tiene la funcion de distribuci
on:

0
si x 0

x/2
si 0 x < 1

1/2 si 1 x < 2
F (x) =

x/4
si 2 x < 4

1
si x 4
Se pide:

Apuntes de M
etodos Estadsticos para la Computaci
on

200

5.7. Relaci
on de problemas

a) Dibujar la funci
on de distribucion.
b) Calcular, dibujar e interpretar la funcion de densidad.
c) Calcular la probabilidad de que si el tiempo de reparacion es superior a una hora, lo
sea de 30 5 horas (P (X 30 5|X 1)).
24. Variable aleatoria mixta (v.a.m). La mayora de los problemas se modelizan utilizando
distribuciones discretas o continuas. Sin embargo, en ocasiones es necesario considerar
una mezcla de las dos distribuciones. Una variable aleatoria X se dice que es mixta si
su distribuci
on de probabilidad est
a determinada por la probabilidad en un conjunto de
puntos D = {x1 , x2 , . . . }, a lo sumo numerable, y por una funcion no negativa g(x) (a
modo de funci
on de densidad) que determina la probabilidad de los intervalos de n
umeros
reales que no contengan puntos de D, de manera que
Z
X
g(x)dx = 1
P (X = xi ) +

xi D

R
Observese que g(x) no es una funcion de densidad pues g(x)dx < 1. La funcion de
distribuci
on se define de la manera habitual, y la media y la varianza se definen as:
Z
X
E(X) = x =
xi P (X = xi ) +
xg(x)dx , V (X) = E((X x )2 )
xi D

Sea X una variable aleatoria mixta cuya distribucion de probabilidad esta definida por
 0
0 05x + 00 2 si x [2, 4]
P (0) = 00 1
,
P (1) = 00 2
,
g(x) =
0
en el resto
Se pide:
a) Determinar las probabilidades: P (X < 0), P (X 00 5) y P (3 X 7).
b) Calcular y representar la funci
on de distribucion.
c) Calcular la media, y la varianza.
d ) Calcular la mediana y el rango intercuartlico.
e) Estudiar la simetra y la curtosis de la distribucion de la variable.
25. Consideremos las tres funciones de distribucion:

0
si
x
<
1
0

(x 1)/2 si 1 x < 2
(x 1)/3
1/2
si 2 x < 3
1/3
F1 (x) =
, F2 (x) =

(x 1)/3
(x 2)/2 si 3 x < 4

1
si x 4
1

0
si x < 1

1/6
si
1x<2

1/2 si 2 x < 3
y
F3 (x) =

5/6 si 3 x < 4

1
si x 4
Para cada una de estas distribuciones, se pide:

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

si
si
si
si
si

x<1
1x<2
2x<3
3x<4
x4

201

5. Variable aleatoria

a) Representar la funci
on y determinar el tipo de variable aleatoria correspondiente
(discreta, continua o mixta).
b) Calcular las siguientes probabilidades:
P (X = 1), P (X < 3), P (X 3), P (2 < X 3), P (X 4) P (X < 3 | X 2).
c) Calcular la media, la mediana, la varianza y el rango intecuartlico.
d ) Determinar la simetra de las distribuciones.
26. Propiedades de las funciones generatrices: Sea X una variable aleatoria discreta tal que
Sx N, y sean G(s) y M (t) sus funciones generatrices de probabilidad y momentos,
respectivamente. Demuestre que se verifican las siguientes propiedades
a) G(1) = 1
b) M (0) = 1
c) M (t) = G(et )
27. Distribuci
on exponencial de par
ametro . Sea X una v.a.c con funcion de densidad
f (x) =

ex si x > 0
0
si x 0

para alg
un valor > 0.
a) Represente la funci
on de densidad y verifique sus propiedades.
b) Calcule y representa la funcion de distribucion.
c) Demuestre que E(x) = 1/ y que V (X) = 1/2 .
d ) Determine la funci
on generatriz de momentos y utilcela para comprobar los resultados obtenidos en el apartado anterior.
e) Determine la asimetra de la distribucion.
f ) Particularice los resultados para = 2.
28. Consideremos la variable aleatoria bidimensional (X, Y ) con distribucion de probabilidad
Y
X\

1
2
3

1
2
3
4
0
k
0 01 0
00 3 0 00 1 00 2
0 00 2 0
0

a) Determine el valor de k.
b) Calcule las probabilidades: P (1 < X 3, Y = 2) y P (X 2 | Y < 2).
c) Calcule F (2, 2).
d ) Son X e Y variables independientes?
e) Que variable est
a m
as dispersa, la X o la Y ?
f ) Compruebe que Y /X=3 es una variable aleatoria degenerada.

Apuntes de M
etodos Estadsticos para la Computaci
on

202

5.7. Relaci
on de problemas

29. Consideremos la variable aleatoria bidimensional (X, Y ) con distribucion de probabilidad


Y\

0
1
2
3

0
1
4 9
0
0
0 k
0
0 1/4 0
0 1/4 0 0
1/4 0
0 0

a) Determine el valor de k.
b) Que variable est
a m
as dispersa, la X o la Y ?
c) Son X e Y variables independientes?

d ) Ajuste el modelo de regresi


on Y = a + b X.
30. Consideremos la variable aleatoria bidimensional (X, Y ) con distribucion de probabilidad

c(x + y) si (x, y) {0, 1, 2, 3} {0, 1, 2}
p(x, y) =
0
en el resto
a) Determine el valor de c.
b) Ajuste el modelo lineal de regresion Y = a + bX.
c) Calcule y represente la funci
on de distribucion de la variable X.
31. Distribuci
on uniforme bidimensional discreta. Consideramos la variable (U, V ) que toma
todos los valores en el conjunto {1, 2, 3, 4, 5} {1, 2, 3, 4} con la misma probabilidad.
a) Determine la distribuci
on de probabilidad conjunta.
b) Compruebe que las distribuciones marginales son tambien de tipo uniforme.
c) Calcule las rectas de regresi
on Y /X y X/Y y estudie su correlacion lineal.
d ) Estudie la independencia de las distribuciones marginales.
32. Calcule las rectas de regresi
on Y /X y determine la bondad de los ajustes para los pares
de variables X e Y de los ejercicios 2 y 3 de esta relacion de problemas.
33. Consideremos la variable aleatoria continua (X, Y ) con funcion de densidad
 2
cx y si x2 y 1
f (x, y) =
0
en el resto
a) Dibuje la regi
on de R2 que representa el soporte de la variable.
b) Determine el valor de c.
c) Calcule las probabilidades P (X 0), P (Y 1/4), P (Y 2 < X) y P (X 2 Y < X).

d ) Calcule la probabilidad correspondiente al cuadrado de lado 1 que tiene su centro en


el origen de coordenadas.
e) Calcule la probabilidad correspondiente al crculo de radio 1, centrado en el origen.
f ) Determine las distribuciones marginales de las variables X e Y .
g) Son X e Y variables independientes?
h) Calcule las rectas de regresi
on X/Y e Y /X y determine la bondad de los ajustes.

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

203

5. Variable aleatoria

34. Consideremos la variable aleatoria continua (X, Y ) con funcion de densidad


 2
cy
si 0 x 2 y 0 y 1
f (x, y) =
0
en el resto
a) Dibuje la regi
on de R2 que representa el soporte de la variable.
b) Determine el valor de c.
c) Determine la funci
on de distribucion.




1
1
3 1
3
d ) Calcule las probabilidades P (X 0), P Y
yP
.
<X< , <Y <
2
2
2 4
4
e) Calcule las probabilidades condicionadas P (Y X | X > 1) y P (Y X | Y 1/2).

f ) Calcule la probabilidad correspondiente al rectangulo que tiene su centro en el origen


de coordenadas y cuya base y altura miden respectivamente dos unidades y una
unidad.

g) Compruebe que la variable aleatoria X se distribuye de manera uniforme.


35. Consideremos la variable aleatoria continua (X, Y ) con funcion de densidad

c(x2 + y) si 0 y 1 x2
f (x, y) =
0
en el resto
a) Dibuje la regi
on de R2 que representa el soporte de la variable.
b) Determine el valor de c.
c) Calcule las probabilidades P (X 0) y P (Y >= |3X/2|).

d ) Calcule la probabilidad correspondiente al cuadrado de lado 1 que tiene su centro en


el origen de coordenadas.
e) Determine las distribuciones marginales de las variables X e Y .
f ) Son X e Y variables independientes?
g) Calcule la recta de regresion Y /X y determine la bondad del ajuste.
36. Consideremos la variable aleatoria continua (X, Y ) con funcion de distribucion

0
si
x<0
o
y<0

kxy(x + y) si 0 x < 2 y 0 y < 2


2kx(x + 2) si 0 x < 2 y
y2
F (x, y) =

2ky(2
+
y)
si
x

2
y
0

y<2

1
si
x2
y
y2
a) Determine el valor de k.

b) Determine la funci
on de densidad y el soporte de la variable (X, Y ).
c) Calcule las probabilidades P (X 1, Y 1) y P (0 X 1, 0 Y 1).

d ) Calcule la probabilidad condicionada P (0 X 1 | 0 Y 1).

e) Calcule la probabilidad correspondiente al cuadrado de lado 2 que tiene su centro en


el origen de coordenadas.
f ) Calcule la probabilidad correspondiente al crculo de radio 1, centrado en el origen.

Apuntes de M
etodos Estadsticos para la Computaci
on

204

5.7. Relaci
on de problemas

g) Determine las distribuciones marginales (funcion de densidad y de distribucion) y


calcule la media y la varianza de cada una de las variables.
h) Son X e Y variables independientes?
i ) Determine la distribuci
on de Y condicionada al valor x = 1 de la variable X.
j ) Determine la distribuci
on de X condicionada al valor y = 1 de la variable Y .
k ) Calcule la recta de regresi
on Y /X y determine la bondad del ajuste.
37. Distribuci
on uniforme bidimensional continua. Sea (X, Y ) la variable aleatoria continua
con funcion de densidad constante en todo el soporte Sxy = [0, 1] [0, 1]. Se pide:
a) Determinar el valor constante de la funcion de densidad.
b) Determinar la funci
on de distribucion.
c) Determinar las distribuciones marginales de X e Y y calcular sus medias y varianzas.
d ) Son X e Y variables independientes?
e) Calcular las probabilidades P (X 00 5), P (Y 00 5) y P (X 00 5, Y 00 5).
f ) Calcular las probabilidades P (Y < X 2 ), P (X Y ) y P (X Y X 2 ).

g) Calcular la probabilidad condicionada P (X 00 5 | Y 00 5).

h) Calcular la probabilidad correspondiente al cuadrado de lado 1 que tiene su centro


en el origen de coordenadas.
i ) Calcular la probabilidad correspondiente al crculo de radio 1, centrado en el origen.
j ) Repetir los cuatro primeros apartado de este ejercicio suponiendo que el soporte
original de la distribuci
on uniforme hubiese sido el conjunto Sxy = [a, b] [c, d]
38. Consideremos la variable aleatoria bidimensional (X, Y ) cuya funcion de densidad es

kxexy si 0 x 1 e y > 0
f (x, y) =
0
en el resto
a) Determine el valor de la constante k.
b) Determinar la funci
on de distribucion.
c) Determinar las distribuciones marginales de X e Y y calcular sus medias y varianzas.
d ) Son X e Y variables independientes?
e) Calcular las probabilidades P (X 00 5), P (Y 1) y P (X 00 5, Y 1).

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

Apuntes de
ESTADISTICA

Distribuciones de probabilidad

Sixto Sanchez Merino


Dpto. de Matematica Aplicada
Universidad de Malaga

Mi agradecimiento a los profesores Carlos Cerezo Casermeiro y


Carlos Guerrero Garca, por sus correcciones y sugerencias en la
elaboraci
on de estos apuntes.

Apuntes de Estadstica
2011, Sixto Sanchez Merino.
Este trabajo est
a editado con licencia Creative Commons del tipo:
Reconocimiento-No comercial-Compartir bajo la misma licencia 3.0 Espa
na.
Usted es libre de:
copiar, distribuir y comunicar p
ublicamente la obra.
hacer obras derivadas.
Bajo las condiciones siguientes:
Reconocimiento. Debe reconocer los creditos de la obra de la manera especificada
por el autor o el licenciador (pero no de una manera que sugiera que tiene su apoyo
o apoyan el uso que hace de su obra).
No comercial. No puede utilizar esta obra para fines comerciales.
Compartir bajo la misma licencia. Si altera o transforma esta obra, o genera
una obra derivada, s
olo puede distribuir la obra generada bajo una licencia identica
a esta.
Al reutilizar o distribuir la obra, tiene que dejar bien claro los terminos de la licencia de
esta obra.
Alguna de estas condiciones puede no aplicarse si se obtiene el permiso del titular de los
derechos de autor.
Nada en esta licencia menoscaba o restringe los derechos morales del autor.

Captulo 6

Distribuciones de probabilidad
En el captulo anterior hemos visto el concepto de variable aleatoria distinguiendo los tipos
discreto y continuo, en variables unidimensionales y bidimensionales. En este captulo vamos a
presentar las distribuciones de probabilidad de algunas variables aleatorias particulares que son
de especial importancia por representar los modelos teoricos de muchos fenomenos aleatorios.

6.1.

Distribuciones uniformes

Las distribuciones uniformes se caracterizan por repartir la probabilidad, de manera uniforme, en todo el soporte. Por lo tanto sus distribuciones de probabilidad se representan mediante
funciones constantes. Es decir, si la variable es discreta, la distribucion uniforme asigna la misma
probabilidad a todos los puntos del soporte; y si la variable es continua, la funcion de densidad
es constante.

6.1.1.

Distribuci
on uniforme discreta

Una variable aleatoria discreta X que toma los valores x1 , x2 , x3 , ..., xn con probabilidades
P [X = xk ] =

1
n

con

k = 1, 2, . . . , n

recibe el nombre de variable uniforme discreta, su distribucion de probabilidad distribuci


on
uniforme discreta y se denota por X ; U (x1 , x2 , ..., xn ).
Por ejemplo, los resultados que se obtienen al lanzar un dado o elegir al azar entre varias
posibilidades, se modelizan con una distribucion uniforme. En ellos, se trata de representar el
caso en el que no tenemos informacion sobre la importancia de un resultado u otro, de ah que
se les asigne la misma probabilidad a todos los valores de la variable.
En el caso particular de que la variable tome como valores los primeros n
umeros naturales:
P [X = k] =

1
n

con

207

k = 1, 2, . . . , n

208

6.1. Distribuciones uniformes

entonces su media, varianza y desviaci


on tpica son:
n+1
x =
2

n2 1
x2 =
12

x =

n2 1
12

Un caso muy particular de distribuci


on uniforme lo constituye la distribucion de probabilidad
degenerada que s
olo toma un u
nico valor con probabilidad 1. En este caso, la media es el propio
valor, y la varianza y la desviaci
on tpica son 0.

6.1.2.

Distribuci
on uniforme continua

Se dice que la variable aleatoria cantinua X sigue una distribuci


on uniforme en el intervalo
[a, b] y se denota por X ; U [a, b] cuando su funcion de densidad es

1
si x [a, b]
ba
f (x) =

0
si x
/ [a, b]

y su media, varianza y desviaci


on tpica son
x =

a+b
2

x2 =

(b a)2
12

ba
x =
12

Uno de los ejemplos m


as comunes de esta distribucion es la eleccion de un n
umero al azar
entre 0 y 1 que constituye una variable con distribucion U [0, 1]. En muchos lenguajes de programacion y programas de c
alculo matematico se implementan funciones que permiten generar
n
umeros aleatorios.

6.1.3.

Distribuci
on uniforme bidimensional

Las distribuciones uniformes bidimensionales puede ser tambien discreta o continua y su


definicion es an
aloga a la distribuci
on unidimensional correspondiente.
Distribuci
on uniforme discreta bidimensional
Una variable aleatoria discreta (X, Y ) con soporte Sxy = {x1 , x2 , . . . , xk } {y1 , y2 , . . . , yp }
se distribuye de manera uniforme si su distribucion de probabilidad es
p(xi , yj ) = P [X = xi , Y = yj ] =

1
kp

para todo

(xi , yj ) Sxy

Distribuci
on uniforme continua bidimensional
Una variable aleatoria continua (X, Y ) con funcion de densidad

si x [a, b] [c, d]
(b a)(d c)
f (x, y) =

0
si x
/ [a, b] [c, d]
Dpto. Matem
atica Aplicada (Universidad de M
alaga)

209

6. Distribuciones de probabilidad

se dice que se distribuye uniformemente en su soporte sxy = [a, b] [c, d] y se puede comprobar que las distribuciones marginales son tambien uniformes, y que las variables X e Y son
independientes, es decir, que f (x, y) = f1 (x) f2 (y), siendo

1
1
si x [a, b]
si x [c, d]
ba
dc
f1 (x) =
y f2 (y) =

0
si x
/ [a, b]
0
si x
/ [c, d]

6.2.

Distribuci
on Binomial

Muchos experimentos est


an asociados a fenomenos aleatorios con solo dos posibles resultados.
En esta secci
on veremos que la distribucion de Bernouilli modeliza estos experimentos, mientras
que repetici
on de cualquiera de ellos se modeliza con la distribucion binomial. Por ejemplo,
lanzar una moneda al aire es un experimento aleatorio que solo tiene dos posibles resultados y
utilizaremos la distribuci
on de Bernouilli para modelizarlo. Sin embargo, si lanzamos al aire una
moneda 10 veces, entonces la distribucion binomial modeliza el n
umero de veces que sale cara o
cruz.
Adem
as, tambien veremos tres distribuciones mas que estan relacionadas con la distribuci
on
binomial: la distribuci
on multinomial que la generaliza y las distribuciones Hipergeometrica y
binomial negativa.

6.2.1.

Distribuci
on de Bernouilli

Un experimento que s
olo admite 2 resultados posibles excluyentes:
- Suceso E (representa el exito) con probabilidad P (E) = p.
- Suceso F (representa el fracaso) con probabilidad P (F ) = 1 p = q.
recibe el nombre de prueba de Bernouilli.
Consideremos la variable aleatoria discreta X asociada al experimento que asocia el valor 1
al suceso E con probabilidad p y el valor 0 al suceso F con probabilidad q. Esta variable recibe
el nombre de variable de Bernouilli y se denota por X ; Ber(p).
La distribuci
on de probabilidad es:
p(1) = P (X = 1) = p

p(0) = P (X = 0) = 1 p = q

con

p+q =1

y su media, varianza y desviaci


on tpica son:
x = p

x2 = p q

x =

pq

Por ejemplo, estudiar los resultados de lanzar una moneda perfecta o trucada, el sexo de
un colectivo, la validez de una pieza fabricada, etc., son experimentos que se modelizan con la
distribuci
on de Bernouilli. En todos ellos, solo hay dos resultados posibles e incompatibles, y no
necesariamente de igual probabilidad.

Apuntes de M
etodos Estadsticos para la Computaci
on

210

6.2. Distribuci
on Binomial

6.2.2.

Distribuci
on Binomial

Supongamos que se realizan n pruebas de Bernouilli sucesivas e independientes. Entonces,


la variable aleatoria discreta
X = n
umero de veces que ocurre el suceso E (exito) en las n pruebas
se denomina variable binomial de par
ametros n y p y se denota por X ; B(n, p) donde p es la
probabilidad de exito en cada prueba de Bernouilli. La variable binomial X se puede considerar
como la suma de n variables independientes de Bernouilli, es decir
X = X1 + X2 + ... + Xn

con

Xi ; Ber(p)

para todo i = 1, 2, ..., n

La variable aleatoria definida toma los valores {0, 1, 2, ..., n} con probabilidad

n = 1, 2, 3, ...

 

n
k = 0, 1, 2, ..., n
P (X = k) =
pk q nk con
0<p<1

q =1p

y su media, varianza y desviaci


on tpica son:
x = n p

x2 = n p q

x =

npq

Figura 6.1: Distribuciones binomiales

Ejemplo 6.1 De una caja de 25 f


osforos de los cuales 5 tienen la cabeza blanca, se eligen 4
f
osforos al azar con reposici
on. Que probabilidad hay de que, exactamente, uno de ellos tenga
la cabeza blanca?
El n
umero de f
osforos con la cabeza blanca, entre los cuatro elegidos, sigue una distribucion
binomial de par
ametros n = 4 y p = 5/25. Por lo tanto, la probabilidad de que, exactamente,
uno de ellos tenga la cabeza blanca es:
   1  3
20
4
5
= 0, 4096
P (X = 1) =
1
25
25


Dpto. Matem
atica Aplicada (Universidad de M
alaga)

211

6. Distribuciones de probabilidad

Observaciones:
- Si n = 1 entonces B(1, p) Ber(p)
- La distribuci
on de probabilidad es simetrica si p = q. Si p < q presenta asimetra a la
derecha; si p > q, asimetra a la izquierda (ver figura 6.1).
- Aproximaciones: Si n es grande (n > 30) la distribucion binomial se aproxima por una
distribuci
on de Poisson (si p o q son peque
nos) o por una distribucion normal (en otro
caso) con los siguientes par
ametros:
a) Si n > 30 y np < 5 entonces B(n, p) P (np)
b) Si n > 30 y nq < 5 entonces B(n, q) P (nq)

c) Si n > 30, np 5 y nq 5 entonces B(n, p) N (np, npq)


En las secciones 6.3.1 y 6.4.1 referidas a la distribucion de Poisson y a la distribucion Normal respectivamente, se detallan estas aproximaciones. Ademas, veremos que en el u
ltimo
caso, cuando utilicemos la distribucion normal para aproximar a la binomial, sera necesario
hacer una correcci
on de continuidad.
- Valores tabulados: Los valores de P (X = k) se encuentran tabulados para algunos valores
de p entre 0 y 0,5. Para buscarlos se considera:
 
n
P (X = k) =
pk q nk = b(n, k, p)
k
Si el valor de p es mayor que 0,5 entonces hay que tener en cuenta la siguiente propiedad
 


n
n
k
nk
b(n, k, p) =
p q
=
q nk pk = b(n, n k, q)
k
nk
es decir, para encontrar en la tabla P (X = k) con p > 0, 5 se busca en la tabla correspondiente a q = 1 p la probabilidad P (X = n k).

Interpolaci
on: Si el valor de p es menor que 0,5 pero no esta tabulado se interpola entre
los valores inferior y superior mas proximos a p.

6.2.3.

Distribuci
on Multinomial

La distribuci
on Multinomial o Polinomial es una generalizacion de la distribucion binomial
cuando en cada prueba se consideran k sucesos excluyentes A1 , A2 , ..., Ak con probabilidades
p1 , p2 , ..., pk respectivamente, siendo p1 + p2 + ... + pk = 1.
Supongamos que se realizan sucesivamente n pruebas independientes de este tipo y consideramos las siguientes variables aleatorias discretas:
Xi = n
umero de veces que ocurre el suceso Ai en las n pruebas con i = 1, 2, ..., k.
A la variable k-dimensional X = (X1 , X2 , ..., Xk ) se le denomina variable polinomial o multinomial. Su funci
on de probabilidad es:
n!
pn1 1 pn2 2 ...pnk k
P [X1 = n1 ; X2 = n2 ; ...; Xk = nk ] =
n1 !n2 !...nk !

con

k
X

ni = n

i=1

Apuntes de M
etodos Estadsticos para la Computaci
on

212

6.2. Distribuci
on Binomial

Ejemplo 6.2 Una agencia de publicidad ha determinado que, en una encuesta televisada, la
probabilidad de que una persona vote por tres candidatos A, B y C es, respectivamente, 01, 04
y 05. Suponiendo que se realiza la encuesta a diez personas, se pide: (1) Probabilidad de que el
candidato B no obtenga ning
un voto, y el A y el C el mismo n
umero de votos, (2) Probabilidad
de que el A obtenga los diez votos, (3) Probabilidad de que A obtenga al menos 5 votos, y (4)
Probabilidad de que B obtenga m
as votos que C.
Solucion: ...

6.2.4.

Distribuci
on Hipergeom
etrica

Consideremos una poblaci


on con N elementos de dos clases distintas de los cuales D elementos son de la clase E y N D elementos son de la clase complementaria F .
Al tomar un elemento de esta poblaci
on, la probabilidad de que proceda de una u otra clase
es
P (E) =
P (F ) =

D
N
N D
N

= pN

= q =1p N D = qN

Consideremos el experimento consistente en tomar, sin reemplazamiento, n elementos consecutivamente de esta poblaci
on. A la variable
X = n
umero de elementos de la clase E en una muestra de tama
no n
se la denomina variable hipergeometrica. Esta variable toma los valores 0, 1, 2, ..., n con probabilidad

 N D
 qN 
D
pN
N = 1, 2, 3, ...

n = 1, 2, ..., N
P [X = k] = k N nk = k N nk
con

n
n
k = 0, 1, 2, ..., n

Esta distribuci
on de probabilidad se denomina distribuci
on hipergeometrica de parametros
N , D y n y se denota con la expresi
on X ; HGeo(N, D, n). Su media, varianza y desviacion
tpica son
r
N n
N n
2
x = n p
;
x = n p q
;
x = n p q
N 1
N 1

Ejemplo 6.3 Considerese un fabricante de autom


oviles que compra los motores a una compa
na
donde se fabrican bajo estrictas condiciones. El fabricante recibe un lote de 40 motores. Su plan
para aceptar el lote consiste en seleccionar ocho, de manera aleatoria, y someterlos a prueba. Si
encuentra que ninguno de los motores presenta serios defectos, el fabricante acepta el lote; de
otra forma lo rechaza. Si el lote contiene dos motores con serios defectos, cu
al es la probabilidad
de que sea aceptado?
La distribucion del n
umero de motores sin defectos serios en el lote de 8 de los 40 motores es
hipergeometrica de par
ametros N = 40, D = 2 y n = 8. Por lo tanto, la probabilidad de que no
encuentre ning
un motor con defectos (k = 0) es P (0) = P (X = 0) = 00 6359.


Dpto. Matem
atica Aplicada (Universidad de M
alaga)

6. Distribuciones de probabilidad

213

La diferencia entre las distribuciones hipergeometrica y binomial es que, en la distribuci


on
binomial, las probabilidades permanecen constantes a lo largo de todas las pruebas (extracciones
con reemplazamiento), mientras que en la distribucion hipergeometrica, las probabilidades varan
de una a otra prueba (extracciones sin reemplazamiento). Sin embargo, si N es grande respecto
a n, las probabilidades varan muy poco de una prueba a la siguiente, por lo que en estos
casos (n/N < 00 1) se puede decir que la variable hipergeometrica sigue aproximadamente una
distribuci
on binomial
 qN 
 
pN
nk N n k nk
k
P [X = k] =

p q

N
k
n
Ejemplo 6.4 Un fabricante asegura que s
olo el 1 % de su producci
on total se encuentra defectuosa. Sup
onganse que se ordenan 1000 artculos y se seleccionan 25 al azar para inspeccionarlos. Si
el fabricante se encuentra en lo correcto, cu
al es la probabilidad de observar dos o m
as artculos
defectuosos en la muestra?

El experimento del ejemplo se modeliza con una distribucion hipergeometrica de parametros


N = 1000, D = p N = 10 y n = 25 que se aproxima por una distribucion binomial de
parametros n = 25 y p = 00 01. Por lo tanto, la probabilidad de observar dos o mas artculos
defectuosos es 00 0258.


6.2.5.

Distribuci
on Binomial negativa

Consideremos un experimento que consiste en realizar sucesivas pruebas de Bernouilli. La


variable
X = n
umero de fracasos antes de obtener el n-esimo exito
se denomina binomial negativa. La distribucion de probabilidad asociada es



k = 0, 1, 2, 3, ...
n+k1
n = 1, 2, ...
P [X = k] =
pn q k con

k
0<p<1

y se denomina distribuci
on binomial negativa de parametro n y p, se denota por X ; Bn(n, p),
su media, varianza y desviaci
on tpica son

nq
nq
nq
x =
;
x2 = 2
;
x =
p
p
p
y sus funciones generatrices de probabilidad y de momentos son
n

n

p
p
G(s) =
y
M (t) =
1 sq
1 qet
Ejemplo 6.5 Para obtener el permiso de conducir se realiza un test con veinte preguntas. Se
sabe que una determinada persona tiene una probabilidad de 0,8 de contestar bien a cada pregunta. Para aprobar el test es necesario contestar bien a diez preguntas. Cu
al es la probabilidad
de que apruebe al contestar la decimo segunda pregunta?
El experimento del ejemplo se modeliza con una distribucion binomial negativa de parametros
n = 20 y p = 00 8, y la probabilidad que nos piden es 00 24.


Apuntes de M
etodos Estadsticos para la Computaci
on

214

6.3. Distribuciones asociadas a fen


omenos aleatorios de espera

La distribuci
on binomial negativa se relaciona con la distribucion binomial de la siguiente
manera:


P (X k) = P (Y n)
Si X ; Bn(n, p) entonces
siendo Y ; B(n + k 1, p)
P (X = k) = P (Y = n 1) p
que permite calcular las probabilidades de la distribucion binomial negativa a partir de las
probabilidades de la distribuci
on binomial.
Ejemplo 6.6 Calcular la probabilidad de obtener cinco cruces antes de la tercera cara.
Si la variable X representa el n
umero de cruces antes de la tercer cara, entonces
   3  5
7
1
1
X ; Bn(3, 1/2)
y
P (X = 5) =
00 082
5
2
2
Pero si queremos utilizar la distribuci
on binomial, entonces
   2  5
7
1
1
1
1
00 082
P (X = 5) = P (Y = 2) =
2
2
2
2
2
sabiendo que Y ; B(7, 1/2).

Por u
ltimo, debemos indicar que para poder utilizar la distribucion binomial negativa en
aquellos ejemplos de extracciones de una urna, estas extracciones han de ser con reemplazamiento.

6.3.

Distribuciones asociadas a fen


omenos aleatorios de espera

Cuando la demanda de un servicio excede la capacidad del servidor de atender a las demandas, se produce una cola. Pensemos, por ejemplo en la cola de clientes que se forma en las
cajas de un supermercado. A continuaci
on presentamos tres distribuciones que esta ntimamente
relacionadas con los fen
omenos de espera que se estudian en la teora de colas: la distribucion
de Poisson, la exponencial y la geometrica.
La distribuci
on de Poisson surge cuando estudiamos el n
umero de demandas (clientes) que
acceden a un sistema de colas por unidad de tiempo y la distribucion exponencial representa
el tiempo que transcurre entre la llegada de dos demandas consecutivas. Ambas distribuciones
estan asociadas a sistemas de colas en tiempo continuo. Sin embargo, la distribucion geometrica
esta asociada a sistemas de colas en tiempo discreto donde los eventos solo pueden ocurrir en
los extremos de intervalos de longitud fija.

6.3.1.

Distribuci
on de Poisson

Una variable aleatoria discreta X se dice que sigue una distribuci


on de probabilidad de Poisson de parametro si toma todos los valores enteros 0, 1, 2, ... con probabilidades

k
k = 0, 1, 2, ...
P (X = k) =
e
con
>0
k!
Dpto. Matem
atica Aplicada (Universidad de M
alaga)

215

6. Distribuciones de probabilidad

y se denota por X ; P (). Su media, varianza y desviacion tpica son:

x =
,
x2 =
,
x =
y sus funciones generatrices de probabilidad y de momentos son
G(s) = e(s1)

M (t) = e(e

t 1)

Figura 6.2: Distribuciones de Poisson


La distribuci
on de Poisson representa el n
umero de ocurrencias de un fenomeno aleatorio
durante un periodo de tiempo fijo, cuando se verifican estas tres propiedades: (1) el n
umero de
ocurrencias s
olo depende de la amplitud del intervalo de tiempo y no del instante desde donde
se mide (proceso estacionario), (2) el n
umero de ocurrencias en un intervalo es independiente
del n
umero de ocurrencias en cualquier otro intervalo de tiempo anterior o posterior (propiedad
markoviana), y (3) podemos dividir el intervalo de tiempo en subintervalos donde la probabilidad
de una ocurrencia en cada uno de ellos es proporcional (con constante ) a su longitud.
En este caso, cuando se verifican las tres condiciones, el parametro de la distribuci
on
de Poisson es el n
umero esperado de ocurrencias por unidades tiempo, y el n
umero medio de
ocurrencias en un intervalo de amplitud t es tt.
Muchos de los ejemplos que modeliza esta distribucion estan asociados a fenomenos de espera
(teora de colas) como, por ejemplo, el n
umero de llamadas telefonicas a la hora que recibe una
central telef
onica, el n
umero de piezas defectuosas en una gran muestra tomada de un lote
en el que la proporci
on de piezas defectuosas es peque
na, el n
umero de clientes que llegan a
una ventanilla de pagos de un banco por periodos de diez minutos, el n
umero de emisiones de
partculas radioactivas durante un periodo dado, el n
umero de accidentes durante un periodo
de tiempo, etc.
La distribuci
on de Poisson se presenta en casos de probabilidad peque
na. Si un suceso E
tiene una probabilidad p (peque
na) de ocurrir al realizar una prueba elemental, la variable
X = n
umero de veces que ocurre el suceso E durante un gran n
umero de pruebas
sigue una distribuci
on de Poisson de parametro = n p. Por ello, esta distribucion se utiliza
como aproximaci
on de la distribuci
on binomial cuando n es grande y p o q son peque
nos. En

Apuntes de M
etodos Estadsticos para la Computaci
on

216

6.3. Distribuciones asociadas a fen


omenos aleatorios de espera

general, cuando n > 30 y np < 5 la distribucion binomial de parametros n y p se aproxima por


una distribucion de Poisson de par
ametro = np, o bien, si n > 30 y nq < 5 la distribucion
binomial de par
ametros n y q se aproxima por una distribucion de Poisson de parametro = nq.
Ejemplo 6.7 Aproximaci
on de una distribuci
on binomial por una distribuci
on de Poisson.
Solucion: ...

6.3.2.

Distribuci
on Geom
etrica o de Pascal

Consideremos un experimento que consiste en realizar sucesivas pruebas de Bernouilli, todas


ellas independientes y con probabilidad p de exito. En este caso, la variable
X = n
umero de pruebas necesaria para obtener el primer exito
se denomina variable geometrica. La distribucion de probabilidad asociada es

k = 1, 2, 3, ...
k1
P [X = k] = p q
con
0<p<1 ; q =1p
y se denomina distribuci
on geometrica o de Pascal de parametro p y se denota por X ; Geo(p).
Su media, varianza y desviaci
on tpica son

q
1
q
x =
;
x2 = 2
;
x =
p
p
p
y sus funciones generatrices de probabilidad y de momentos son
G(s) =

ps
1 sq

si s <

1
q

M (t) =

pet
1 qet

si

et <

1
q

El n
umero de lanzamientos de una moneda, que son necesarios para obtener la primera cara, o
el n
umero de extracciones (con reemplazamiento) de una urna, que son necesarias para encontrar
la bola blanca entre varias bolas negras, son ejemplos que se modelizan con la distribucion
geometrica.
Ejemplo 6.8 Para obtener el permiso de conducir se realiza un test con veinte preguntas. Se
sabe que una determinada persona tiene una probabilidad de 00 8 de contestar bien a cada pregunta. Calcule la probabilidad de que la primera pregunta que contesta bien sea la tercera que
hace.
El experimento del ejemplo de modeliza con una distribucion geometrica de parametro p = 00 8
y la probabilidad que nos piden es 00 032.

Tambien se denomina geometrica a la variable
X = n
umero de fracasos antes de obtener el primer exito

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

217

6. Distribuciones de probabilidad

y, en este caso, su distribuci


on de probabilidad asociada es

k = 0, 1, 2, 3, ...
k
P [X = k] = p q
con
0<p<1 ; q =1p
su media, varianza y desviaci
on tpica son
x =

q
p

x2 =

q
p2

x =

q
p

y sus funciones generatrices de probabilidad y de momentos son


G(s) =

6.3.3.

p
1 sq

si

s<

1
q

M (t) =

p
1 qet

si

et <

1
q

Distribuci
on Exponencial

Se dice que la variable aleatoria continua X sigue una distribuci


on exponencial de parametro
> 0 y se denota por X ; Exp() si su funcion de densidad es de la forma:

ex si x > 0
X ; Exp() si f (x) =
0
en el resto
y su media, varianza, desviaci
on tpica y funcion generatriz de momentos son


1
1
1
t 1
x =
;
x2 = 2
;
x =
;
M (t) = 1

Figura 6.3: Distribuciones exponenciales


La variable aleatoria exponencial representa el tiempo de espera entre dos sucesos, cuando el
momento en que ocurre el primero no influye en la distribucion de tiempos de espera; es decir,
Si X ; Exp() entonces P (X > a + x | X a) = P (X > x) para todo a > 0 y x > 0.
Esta propiedad se denomina falta o perdida de memoria pues la probabilidad del tiempo de
espera no depende del momento en el que empiece a considerarse.

Apuntes de M
etodos Estadsticos para la Computaci
on

218

6.4. Distribuciones normales

Existe una relaci


on entre las variables Geometrica y Poisson con la distribucion Exponencial
relacionada con los fen
omenos de espera (teora de colas). Por un lado, si la variable X ; P ()
representa el n
umero de ocurrencias por unidad de tiempo, entonces Y ; Exp() representa
el tiempo transcurrido entre ocurrencias consecutivas. Por otro lado, la distribucion geometrica
se puede asociar a fen
omenos aleatorios de espera en los que el tiempo solo puede darse en
intervalos de longitud fija pues si X ; Exp() entonces la distribucion que asocia a cada n N
la probabilidad P (X (n, n + 1]) es un geometrica de parametro p = 1 e

6.4.

Distribuciones normales

En esta secci
on vamos a presentar la distribucion de probabilidad mas importante: La distribucion normal. Hay dos razones fundamentales que acreditan la importancia de esta distribucion:
1. Por un lado, modeliza la distribuci
on de probabilidad de muchas variables aleatorias que
se presentan en los estudios cientficos (ingeniera, medicina, economa, ...).
2. Por otro lado, aproxima a la distribucion de la media de muestras aleatorias de una misma
distribuci
on (teorema central del lmite) que es un resultado basico para la inferencia
estadstica.
En esta secci
on vamos a presentar las distribuciones normales, unidimensional y bidimensional, y el teorema central del lmite.

6.4.1.

Distribuci
on Normal o de Laplace-Gauss

Se dice que la variable aleatoria continua X sigue una distribuci


on normal de media y
desviacion tpica y se denota por X ; N (, ) cuando su funcion de densidad es

1 x 2
1
< <
f (x) = e 2 ( )
con
>0
2
y su media, varianza y desviaci
on tpica son
x =

x2 = 2

x =

Caractersticas de la distribuci
on:
- Representaci
on gr
afica: La funci
on de densidad f (x) presenta un maximo en x = , dos
puntos de inflexi
on en x = y x = + y tiene al eje OX como asntota. Ademas, es
simetrica respecto de la recta x = y por tanto, la media, la mediana y la moda coinciden
en este punto (ver figura 6.4).
- Aditividad: La suma de dos variables aleatorias normales independientes es otra variable
aleatoria normal, es decir


q
2
2
Si X1 ; N (1 , 1 ) y X2 ; N (2 , 2 ) entonces X1 +
X2 ; N 1 +
2 , 1 + 2
Dpto. Matem
atica Aplicada (Universidad de M
alaga)

219

6. Distribuciones de probabilidad

Figura 6.4: Distribuciones normales

Mas general,
sitomamos muestras de tama
no n de una poblacion N (, ) entonces


x
; N ,
n
Variable normal tipificada
Si la variable X es N (, ) entonces la nueva variable
Z=

sigue tambien una distribuci


on normal de media z = 0 y desviacion tpica z = 1, es decir,
Z ; N (0, 1). Esta variable Z se denomina variable normal tipificada y su funcion de densidad
es
1
1 z2
f (z) = e 2
con
<z <
2
La distribuci
on de la variable Z se encuentra tabulada aunque solo aparecen valores de Z
no negativos, o
areas = P (Z z ) 0, 5. En otro caso se utiliza la simetra
(
P (Z Z ) = P (Z Z1 ) = 1
Z = Z1
y por tanto
P (Z Z ) = 1 P (Z Z ) = 1
La gran utilidad de la variable normal tipificada Z es que nos permite calcular areas (probabilidades) de cualquier variable con distribucion normal, es decir, si X ; N (, ) entonces




X
b
a
b
a
P (a X b) = P

=P
Z

Aproximaci
on

La distribuci
on normal de media np y desviacion tpica npq se utiliza como aproximaci
on
de la distribuci
on binomial de par
ametros n y p cuando n es grande y np 5 y nq 5.
Apuntes de M
etodos Estadsticos para la Computaci
on

220

6.4. Distribuciones normales

Para utilizar correctamente la aproximacion de una variable aleatoria discreta X con distribucion binomial por una variable aleatoria continua Y con distribucion normal es necesario
hacer una correcci
on de continuidad de tal manera que:
P (X = a)
P (a < X < b)
P (a X b)
P (a < X b)
P (a X < b)

6.4.2.

=
=
=
=
=

P (a 00 5 Y
P (a + 00 5 Y
P (a 00 5 Y
P (a + 00 5 Y
P (a 00 5 Y

a + 00 5)
b 00 5)
b + 00 5)
b + 00 5)
b 00 5)

Distribuci
on normal bidimensional

Se dice que la variable aleatoria (X, Y ) sigue una distribuci


on normal bidimensional de
medias x y y , desviaciones tpicas x y y , y covarianza x y (correlacion ), si su funcion
de densidad es
1

1
2
p
f (x, y) =
e 2(1 )
2
2x y 1



xx
x

2



 
2 
yy
y
x
2 x
+ y

con < x < , < y < , x > 0, x > 0 y 1 < < 1.


Las distribuciones marginales de las variables X e Y son distribuciones normales de media
x y y , y de desviaci
on x y y , respectivamente.
Si X e Y no est
an correlacionadas ( = 0) entonces la distribucion conjunta se puede factorizar como producto de las distribuciones marginales y, por lo tanto, las variables son independientes. Y viceversa, es decir, si las variables aleatorias X e Y son independientes y sus distribuciones
son normales, entonces la distribuci
on conjunta es una distribucion normal bidimensional. Esta
relacion entre la independencia y la correlacion, que se verifica para las distribuciones normales, no es cierta en general, es decir, que dos variables aleatorias cualesquiera pueden estar no
correlacionadas ( = 0) sin que sean independientes.
Por u
ltimo, y como consecuencia de los resultados anteriores, podemos deducir que si Z1 y
Z2 son variables aleatorias independientes con distribucion normal tipificada, entonces la funcion
de densidad conjunta es
1 1 (z12 +z22 )
f (z1 , z2 ) =
e 2
2
que corresponde a una distribuci
on normal bidimensional.

6.4.3.

Teorema central del lmite

El teorema central del lmite no es un resultado concreto. Es el nombre generico por el que se
conocen una serie de resultados que establecen la convergencia de la distribucion de probabilidad
de una suma creciente de variables aleatorias hacia la distribucion normal. Existen diferentes
versiones del teorema, en funci
on de las condiciones utilizadas para asegurar la convergencia. Una
de las mas simples establece que es suficiente que las variables que se suman sean independientes,
identicamente distribuidas, con valor esperado y varianza finitas.
Sea {Xn } una sucesi
on de variables aleatorias independientes e identicamente distribuidas,
todas ellas con media y desviaci
on tpica , ambas finitas. Sea Sn = X1 + + Xn la sucesion
Dpto. Matem
atica Aplicada (Universidad de M
alaga)

221

6. Distribuciones de probabilidad

de sumas parciales (con media n y varianza n 2 ). Entonces la distribucion de probabilidad de


su variable tipificada converge a la distribucion normal de media 0 y desviacion 1, es decir
Zn =

Sn n

N (0, 1)

Tambien podemos expresar este resultado en terminos de la media aritmetica de las variables,
de la siguiente manera. Sea X1 , X2 , . . . , Xn un conjunto de variables aleatorias independientes e
identicamente distribuidas, todas ellas con media y desviacion tpica . Si n es suficientemente
grande (n > 30), entonces la distribucion de probabilidad de la media aritmetica de las variables
es aproximadamente una distribucion normal de media x = y desviacion tpica x2 =
(X)

/ n, es decir,


X1 + + Xn

X=
N ,
n
n
Observese que {X1 , X2 , . . . , Xn } puede representar una muestra aleatoria de la distribuci
on
de probabilidad de una determinada variable de una poblacion y el resultado nos garantiza
que la media muestral se distribuye seg
un una distribucion normal con la misma media que la
variable poblacional estudiada. Y este resultado es independiente de la distribucion poblacional
de partida. Adem
as, la desviaci
on de la media muestral, que se conoce como error tpico o
estandar, disminuye conforme aumenta el tama
no de la muestra.

6.5.

Distribuciones derivadas de la normal

En esta secci
on vamos a presentar tres distribuciones de probabilidad de tipo continuo que
seran esenciales en el desarrollo de la inferencia estadstica: la distribucion 2 de Pearson, la
distribuci
on t de Student y la distribucion F de Fisher-Snedecor. Como veremos, estas tres
distribuciones surgen a partir de la distribucion normal.

6.5.1.

Distribuci
on 2 de Pearson

Si X1 , X2 , ..., Xn son n variables aleatorias N (0, 1) independientes entre s, entonces la variable positiva
2 = X12 + X22 + ... + Xn2
recibe el nombre de 2 de Pearson con n grados de libertad, se denota por 2n y su funci
on de
densidad es
1
f (x) = n/2
ex/2 x(n/2)1 con x > 0
2 (n/2)
R
siendo la funci
on gamma definida as: (x) = 0 et tx1 dt para todo x > 0. Se puede

comprobar que (1) = 1, (1/2) = y que para todo k > 0 se verifica que (k + 1) = k (k).
La media, la varianza y la desviacion tpica de la distribucion 2n es

x = n
;
x2 = 2n
;
x = 2n

Apuntes de M
etodos Estadsticos para la Computaci
on

222

6.5. Distribuciones derivadas de la normal

Figura 6.5: Distribuciones 2k

Caractersticas de la distribuci
on:
- La variable s
olo toma valores positivos por tratarse de la suma de los cuadrados de n
variables (ver figura 6.5).
- Aditividad: La suma de dos variables aleatorias independientes 2 con n1 y n2 grados de
libertad respectivamente es una nueva variable aleatoria 2 con n1 + n2 grados de libertad,
es decir,
2n1 + 2n2 = 2n1 +n2
- Aproximaci
on: Las distribuciones 2 de Pearson son asimetricas a la derecha y se aproximan asint
oticamente a la distribuci
on normal (ver figura 6.5). Para n > 30 la variable
p
2 2n

N ( 2n 1, 1)

- Si tomamos muestras de tama


no n con media x
y cuasivarianza s2 de una poblacion
N (, ), la variable
2n1 = (n 1)

s2
2

es una 2 con n 1 grados de libertad.


- Valores tabulados: Para el uso de las tablas consideramos un punto 2;n (punto crtico)
que representa el valor de la abscisa que tiene a la derecha una area igual a (nivel de
significaci
on) en una 2 de Pearson con n grados de libertad. Es decir,
P (2n 2;n ) =
Para areas a la izquierda se tiene:
P (2n 2;n ) = 1 P (2n 2;n ) = 1
Dpto. Matem
atica Aplicada (Universidad de M
alaga)

223

6. Distribuciones de probabilidad

6.5.2.

Distribuci
on t de Student

Si X1 , X2 , . . . , Xn y X son n + 1 variables que se distribuyen seg


un una N (0, ) entonces la
variable
X
Z
tn = v
=p
u X
2n /n
u1 n
2
t
Xi
n
i=1

se denomina t de Student con n grados de libertad, y su funcion de densidad es

f (x) =

1


1 n
,
2 2

x2
1+
n

 n + 1
2

con

n = 1, 2, ...
< x <

siendo la funci
on beta que se define a partir de la funcion gamma de la siguiente manera:
(x, y) = (x) (y)/(x + y).
n
si n > 2.
La media de la distribuci
on t de Student es 0 si n > 1 y su varianza es
n2

Figura 6.6: Distribuciones tk de Student

Caractersticas de la distribuci
on:
- La variable toma todos los valores de la recta real y es simetrica respecto al eje OY (ver
figura 6.6).
- La distribuci
on t de Student se aproxima asintoticamente (n ) a la distribucion normal
tipificada (ver figura 6.6).
- Si tomamos muestras de tama
no n con media x
y cuasivarianza s2 de una poblaci
on
N (, ), la variable
x

tn1 =
n
s
es una t de Student con n 1 grados de libertad.
Apuntes de M
etodos Estadsticos para la Computaci
on

224

6.5. Distribuciones derivadas de la normal

- Valores tabulados: Para el uso de las tablas consideramos un punto t;n (punto crtico)
que representa el valor de la abscisa que tiene a la derecha una area igual a (nivel de
significaci
on) en una t de Student con n grados de libertad. Es decir,
P (tn t;n ) =
En la tabla s
olo se encuentran valores t 0 (o areas 0, 5) por lo que es necesario
utilizar las relaciones:
t;n = t1;n

6.5.3.

P (tn t;n ) = 1

Distribuci
on F de Fisher-Snedecor

Sean X1 y X2 dos variables 2 de Pearson con n1 y n2 grados de libertad respectivamente,


independientes entre s. Entonces a la variable
Fn1 ,n2 =

2 /n1
X1 /n1
= 2n1
X2 /n2
n2 /n2

se le denomina F de Fisher-Snedecor con n1 y n2 grados de libertad, y su funcion de densidad


es
x(n1 /2)1
((n1 + n2 )/2) n1 /2 n2 /2
n1 n2
f (x) =
con x > 0
(n1 /2)(n2 /2)
(n1 x + n2 )(n1 +n2 )/2
1,2
1
F_2,2
F_5,5
F_10,10
F_25,20
F_20,25

0,8
0,6
0,4
0,2
0
0

Figura 6.7: Distribuciones Fn1 ,n2 de Snedecor

Caractersticas de la distribuci
on:
- La variable s
olo toma valores positivos y su distribucion es asimetrica a la derecha (ver
figura 6.7).
- Valores tabulados: Para el uso de las tablas consideramos un punto F;n1 ;n2 (punto crtico)
que representa el valor de la abscisa que tiene a la derecha una area igual a (nivel de
significaci
on) en una F de Fisher-Snedecor con n1 y n2 grados de libertad. Es decir,
P (Fn1 ;n2 F;n1 ;n2 ) =
Dpto. Matem
atica Aplicada (Universidad de M
alaga)

225

6. Distribuciones de probabilidad

Solo disponemos de tablas para los siguientes valores de : 00 1, 00 05, 00 025, 00 01 y 00 005.
Para otros valores de entre 00 005 y 00 1 sera necesario interpolar. Sin embargo, cuando
necesitemos valores de pr
oximos a uno, utilizaremos la relacion:
F;n1 ;n2 =

6.6.

1
F1;n2 ;n1

Simulaci
on y M
etodo de Montecarlo

En esta secci
on presentamos el Metodo de Montecarlo que agrupa una serie de procedimientos basados en la simulaci
on de distribuciones de probabilidad. Este metodo se aplica a una
gran variedad de problemas tanto aleatorios como deterministas, que resultan complicados de
abordar de manera analtica o donde la experimentacion directa con la realidad puede presentar
inconvenientes (coste elevado, tiempo, pruebas destructivas o imposibles, etc.). En estos casos,
se realizan experimentos en un ordenador, utilizando muestras aleatorias, para modelizar el
problema y obtener soluciones aproximadas.
El nombre de Metodo de Montecarlo hace referencia al casino que se ubica en el principado
de Monaco, al tomar una ruleta como un generador simple de n
umeros aleatorios. Aunque
su origen es anterior, su desarrollo se produce a mediados del siglo XX coincidiendo con el
desarrollo de los ordenadores. Una de las primera aplicaciones fue la resolucion de integrales
que no se pueden resolver por metodos analticos, usando n
umeros aleatorios. Posteriormente
se utilizo para cualquier esquema que emplease n
umeros aleatorios, usando variables aleatorias
con distribuciones de probabilidad conocidas.
Veamos un sencillo ejemplo que pone de manifiesto el metodo y sus posibles aplicaciones.
Ejemplo 6.9 Consideremos el crculo centrado en el origen y de radio unidad. Sea S el sector
circular correspondiente al
area del crculo dibujada en el primer cuadrante. Determine un valor
aproximado del
area del sector circular.
En primer lugar, consideramos el cuadrado de vertices (0, 0), (1, 0), (1, 1) y (0, 1) donde se
inscribe el sector circular S. Ahora vamos a simular una distribucion uniforme sobre el cuadrado.
Para ellos generamos dos n
umeros aleatorios en el intervalo [0,1] que nos determinan un punto
del cuadrado. Este punto podr
a pertenecer o no al sector circular. Repetimos el experimento N
veces, generando N puntos en el cuadrado, y resulta que n de ellos (n < N ) tambien pertenecan
al sector circular. Si aplicamos la regla de Laplace podemos determinar que la relacion entre
el area del sector circular y el
area del cuadrado es, aproximadamente, n/N . Como el area del
cuadrado es 1, entonces n/N es una aproximacion del area del sector circular y, por lo tanto,
4n/N aproxima a .

Observese que el procedimiento empleado en el ejemplo es facilmente generalizable para el
calculo aproximado de la integral definida de cualquier funcion acotada.
Los resultados obtenidos con este procedimiento
son aproximados, sin embargo el error abso
luto de la estimaci
on decrece en la relacion 1/ N , siendo N el tama
no de la muestra simulada,
en virtud del teorema central del lmite.
El Metodo de Montecarlo se basa en la simulacion de distribuciones. En el ejemplo, hemos
simulado una distribuci
on uniforme bidimensional generando n
umeros aleatorios en su soporte

Apuntes de M
etodos Estadsticos para la Computaci
on

226

6.6. Simulaci
on y M
etodo de Montecarlo

[0, 1][0, 1] y, para ello, gener


abamos pares de n
umeros aleatorios en el intervalo [0, 1] (el producto de las distribuciones uniformes de dos variables aleatorias independientes es una distribucion
uniforme bidimensional cuyo soporte es el producto cartesiano de los soportes de las variables
independientes).
En la mayora de los lenguajes de programacion y de los programas especficos de calculo
matematico, est
an implementadas funciones (rand, random, aleat, ...) para la generacion de
n
umeros aleatorios en determinados intervalos. Existen multitud de algoritmos generadores de
estos n
umeros aleatorios, y de metodos generales y especficos para la simulacion de cualquier
distribucion de probabilidad.
A modo de ejemplo, presentamos un sencillo procedimiento, conocido como metodo de inversi
on, para la simulaci
on de algunas distribuciones, en concreto, aquellas para cuya funcion
de distribucion, sea sencillo calcular la inversa. Sea X una variable aleatoria continua con funcion de distribuci
on Fx estrictamente creciente, y sea U una variable aleatoria con distribucion
uniforme en el intervalo (0,1). Entonces, la variable aleatoria Fx1 (U ) tiene a Fx como funcion
de distribucion.
Ejemplo 6.10 Utilice el metodo de inversi
on para determinar un procedimiento que permita
generar muestras aleatorias de tama
no n de una distribuci
on exponencial de par
ametro 2.
Si X ; Exp(2) entonces F (x) = 1 e2x con x > 0. Si igualamos la expresion de la funcion a
la variable U (uniforme) y despejamos la variable x obtenemos la expresion de la inversa de la
funcion F :
1
F (x) = 1 e2x = u x = F 1 (u) = log(1 u)
2
Por lo tanto, el procedimiento consiste en generar n n
umeros aleatorios ui (0, 1) con
i = 1, . . . , n (valores de n variables aleatorias independientes con distribucion U [0, 1]), de manera
que los valores xi = log(1 ui )/2 constituyen la muestra aleatoria buscada.


Dpto. Matem
atica Aplicada (Universidad de M
alaga)

227

6. Distribuciones de probabilidad

6.7.

Relaci
on de problemas

1. Distribuci
on uniforme discreta. Consideramos la variable X ; U (1, 2, ..., n), se pide:
a) Probar que es una distribucion de probabilidad (la suma de probabilidades es 1) y
representarla.
b) Calcular y representar la funcion de distribucion.
c) Deducir la esperanza, varianza y desviacion tpica.
d ) Calcular la mediana y la moda.
2. Distribuci
on de Bernouilli. Se pide:
a) Probar que es una distribucion de probabilidad (la suma de probabilidades es 1) y
representarla.
b) Calcular y representar la funcion de distribucion.
c) Deducir la esperanza, varianza y desviacion tpica.
d ) Calcular la mediana y la moda.
3. El 20 % de los hogares de una ciudad estan asegurados contra incendios. Una compa
na
de seguros est
a realizando una campa
na de publicidad informando a los hogares de sus
ofertas. Si cada tarde contacta al azar con 5 hogares, se pide:
a) Que distribuci
on de probabilidad modeliza el n
umero de hogares, de esos 5, que a
un
no est
an asegurados?
b) Determinar el n
umero de hogares que se espera que no esten asegurados.
c) Probabilidad de que s
olo esten asegurados dos hogares.
d ) Probabilidad de que esten asegurados al menos tres hogares.
e) Probabilidad de que ninguno este asegurado.
f ) Probabilidad de que alguno este asegurado.
4. La probabilidad de ganar a un determinado juego es 00 1. Si jugamos diez partidas
a) Que distribuci
on de probabilidad representa el n
umero de partidas ganadas?
b) Cuantas partidas esperamos ganar?
c) Que probabilidad hay de perder todas las partidas?
d ) Que probabilidad hay de ganar (exactamente) una partida?
e) Que probabilidad hay de ganar alguna una partida?
f ) Que probabilidad hay de ganar (exactamente) dos partidas?
g) Que probabilidad hay de ganar, al menos, dos partidas?
h) Que probabilidad hay de ganar mas de la mitad de las partidas?
5. Buscar en las tablas las siguientes probabilidades correspondientes a variables aleatorias
discretas que siguen distribuciones de Poisson con distintos parametros.
a)
c)
e)
g)

Si
Si
Si
Si

X
X
X
X

; P (20 6) calcular P (X = 4)
; P (9) calcular P (X = 16)
; P (20 6) calcular P (X 2)
; P (7) calcular P (X > 16)

b)
d)
f)
h)

Si
Si
Si
Si

X
X
X
X

; P (10 1)
; P (20 3)
; P (10 1)
; P (10 5)

calcular
calcular
calcular
calcular

P (X
P (X
P (X
P (X

= 13)
= 5)
13)
< 12)

Apuntes de M
etodos Estadsticos para la Computaci
on

228

6.7. Relaci
on de problemas

6. En una gasolinera la llegada de vehculos sigue una distribucion de Poisson de parametro


10 6. Calcule las probabilidades de los siguientes sucesos:
a) Que lleguen dos vehculos.
b) Que llegue alg
un vehculo.
c) Que lleguen m
as de tres vehculos.
d ) Que el n
umero de vehculos que lleguen este comprendido entre 2 y 5 (ambos inclusive).
7. La probabilidad de ganar a un determinado juego es 00 1. Si jugamos 40 veces
a) Cuantas partidas esperamos ganar?
b) Que probabilidad hay de ganar exactamente 16 partidas?
c) Que probabilidad hay de ganar, al menos, 16 partidas?
d ) Que probabilidad hay de perder todas las partidas?
e) Que probabilidad hay de ganar alguna partida?
Compare los resultados de este ejercicio con los obtenidos en el ejercicio 4 y extraiga
conclusiones.
8. Si X ; B(150; 00 02), calcule las siguientes probabilidades
a) P (X = 2)
c) P (X 4)

b) P (X < 3)
d) P (X 3 | X 4)

9. Distribuci
on uniforme continua. Supongamos que X ; U [a, b].
a) Represente la funci
on
f (x) =

1
ba
0

si x [a, b]
si x
/ [a, b]

y pruebe que es una funci


on de densidad.
b) Calcule y represente la funci
on de distribucion.
c) Deduzca las f
ormulas de la esperanza, la varianza y la desviacion tpica.
d ) Calcule la mediana y la moda.
e) Aplique los resultados obtenidos a la variable A ; U [0, 1], que representa la eleccion
al azar de un n
umero aleatorio entre 0 y 1.
10. Un profesor propone un cuestionario de cien preguntas tipo test a un curso con 200 alumnos. Suponiendo que las puntuaciones X obtenidas por los alumnos siguen una distribucion
normal de media 60 puntos y varianza 100. Calcule las siguientes probabilidades:
a) P (X 70)

b) P (X 80)

c) P (X 30)

d) P (X 46)

e) P (39 X 80)

f) P (80 X 820 5)

g) P (30 X 40)

h) P (|X 60| 20)

i) P (|X 60| 20)

11. Consideremos el mismo enunciado del ejercicio anterior. Se pide:

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

229

6. Distribuciones de probabilidad

a) N
umero de alumnos que obtuvieron 70 o mas puntos.
b) Hallar el rango intercuartlico, interdeclico e intercentlico. Interpretar resultados.
c) Nota mnima correspondiente al 300 5 % de los alumnos con mejor nota.
d ) Nota mnima correspondiente al 830 65 % de los alumnos con mejor nota.
e) Nota m
axima correspondiente al 20 17 % de los alumnos con peor nota.
f ) Si eliminamos al 25 % de los alumnos con peores notas y al 10 % de los alumnos con
mejores notas, entre que notas estan el resto de los alumnos?
12. Si X ; N (, ), pruebe e interprete las siguientes igualdades:
a) P ( X + ) = 00 6826

b) P ( 2 X + 2) = 00 9544
c) P ( 3 X + 3) = 00 9973

13. Si X ; N (, ), calcule para que la probabilidad P ( X + ) sea igual


a 00 9, 00 95
o 00 99.
14. Una marca de autom
oviles decide otorgar un premio a los distribuidores que vendan m
as de
250 autom
oviles en un a
no. El n
umero de automoviles vendidos al a
no por los distribuidores
A y B est
a normalmente distribuido de la forma siguiente:
Distribuidor
A
B

Media
190
165

Desviacion
28
45

Se pide:
a) A priori, sin hacer c
alculos, que distribuidor parece tener mas posibilidad de obtener
un premio?
b) Determine a que distribuidor beneficia mas la decision de la empresa, calculando el
porcentaje de a
nos que obtendra premio cada uno de los dos distribuidores.
c) Que cantidad mnima de automoviles debera determinar la marca, si quiere que
ambos distribuidores tengan la misma probabilidad de llevarse el premio?
d ) Si se asocian los dos distribuidores A y B, que porcentaje de los a
nos obtendr
an
premio por vender m
as de 500 automoviles?
15. Si X ; B(1500; 00 02), calcule las siguientes probabilidades
a) P (X = 20)
c) P (X 40)

b) P (X < 30)
d) P (X 30 | X 40)

Compare los resultados de este ejercicio con los obtenidos en el ejercicio 8 y extraiga
conclusiones.
16. Variable aleatoria con distribucion 2 de Pearson.
a) Calcule los puntos crticos:
200 90;5

200 01;26

200 025;8

200 08;10

200 015;41

Apuntes de M
etodos Estadsticos para la Computaci
on

230

6.7. Relaci
on de problemas

b) Calcule las probabilidades:


P (28 30 49)

P (28 150 507)

P (220 29)

P (70 255 217 300 191)

P (210 4)

P (261 50)

17. Variable aleatoria con distribuci


on t de Student.
a) Calcule los puntos crticos:
t00 20;20

t00 99;10

t00 25;10

t00 05;90

t00 15;35

b) Calcule las probabilidades:


P (t10 10 372)

P (t8 20 896)

P (t8 10 2)

P (00 5 t6 00 6)

P (t20 10 325)

P (|t24 | 2)

18. Variable aleatoria con distribuci


on F de Fisher-Snedecor.
a) Calcule los puntos crticos:
F00 10;10;12

F00 05;5;24

F00 01;50;30

F00 90;28;30

F00 02;7;20

F00 92;24;20

b) Calcule las probabilidades:


P (F6;12 20 331)

P (F2;8 40 459)

P (F10;20 3)

P (F5;4 5)

P (F25;50 10 2)

P (2 F10;20 20 25)

19. Calcule los cuartiles de las siguientes distribuciones:


a) B(10, 1/2)

b) B(40, 1/10)

c) B(40, 1/20)

d) B(100, 00 85)

e) P (1)

f) P (20 5)

g) N (0, 1)

h) N (10 25, 00 05)

20. Calcule el rango interdeclico de las siguientes distribuciones:


a) 27

b) 285

c) t10

d) F30,6

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

6. Distribuciones de probabilidad

6.8.

231

Relaci
on de problemas II Temas 4, 5 y 6

1. El juego A se gana si al lanzar 100 veces dos dados se obtiene al menos tres veces un doble
seis. Otro juego B se gana si al lanzar 100 veces un dado se obtiene al menos 15 veces el
seis.
a) Determine que juego es mas favorable.
b) Si el 40 % de los jugadores optan por el juego A, mientras que el resto juegan al B,
cu
al es el porcentaje de ganadores?
c) En las mismas condiciones del apartado anterior, en que proporcion se encuentran
los que han jugado al juego A, entre los ganadores?
2. La distribuci
on de las puntuaciones de los 200 candidatos a una seccion de aprendizaje
en un test es una normal de media 320 3 y desviacion 80 5. Se decide que el 15 % de los
candidatos ser
an orientados a otra seccion por tener un nivel demasiado alto y el 25 % a
otra por tener el nivel demasiado bajo.
a) Entre que lmites habr
a que tener la nota para ser admitido en esta seccion?
b) De los candidatos admitidos a esta seccion, cuantos superan la puntuacion 35?
3. En el control de calidad de una fabrica, se ha determinado que el porcentaje de cigarrillos
defectuosos es del 1 %. Si una maquina los envasa en paquetes de 20 unidades, se pide:
a) Calcular la probabilidad de que un paquete tenga a lo sumo 1 cigarrillo defectuoso.
b) Si los paquetes se envasan en cartones de 10 paquetes, calcular la probabilidad de que
existan al menos 2 paquetes con mas de un cigarrillo defectuoso.
c) Si los cartones se envasan en cajas de 100 cartones, calcular la probabilidad de que
exista alguna caja con al menos 2 paquetes con mas de un cigarrillo defectuoso.
4. Al analizar el efecto de un repelente para insectos, se encontro que los frutos no tratados,
eran atacados en un 10 %, mientras que solo lo eran en un 1 % si haban recibido el
tratamiento. Los frutos se envasan en cajas de 200 unidades.
a) Encuentre la probabilidad de que en una caja que contiene frutos tratados, se encuentren m
as de 20 atacados.
b) Halle la probabilidad de que en una caja cuyos frutos no fueron tratados, se encuentren
m
as de 20 atacados.
c) A un almacen llega un 30 % de cajas con frutos tratados. Cual es la probabilidad de
que una caja con 22 frutos atacados, no haya sido tratada?
d ) Cu
al es la probabilidad de que una caja con mas de 20 frutos atacados, haya recibido
el tratamiento?
e) Halle la probabilidad de que de 5 frutos extrados al azar de una caja, encontremos
exactamente 2 atacados.
f ) Encuentre la probabilidad de obtener 2 atacados al extraer 5 frutos de una caja con
exactamente 22 atacados.

Apuntes de M
etodos Estadsticos para la Computaci
on

232

6.8. Relaci
on de problemas II Temas 4, 5 y 6

5. Una variable aleatoria X, se distribuye seg


un una normal de media 5 y varianza 4. Halle
las probabilidades de los siguientes sucesos:
a) P (X < 1)

b) P (2 < X < 7)

c) P (X > 50 6)

y determine el valor de a para que se verifique P (X > a) = 00 05


6. Cual es la probabilidad de que de 18 000 lanzamientos de un dado, el n
umero de ases
este comprendido entre 2 900 y 3 100? Comparar los resultados entendiendo si el n
umero
de ases est
a comprendido entre 2900 y 3100 estrictamente o no estrictamente.
7. La probabilidad de que una m
aquina falle determinado da, es de 00 0375 si se trata de un
0
da soleado y de 0 05 si es lluvioso. El servicio tecnico debe atender las averas de las 150
maquinas instaladas. Si el 20 % de los das resultan ser lluviosos, determine las siguientes
probabilidades:
a) Probabilidad de que una m
aquina concreta se avere en un da.
b) Probabilidad de recibir un da mas de 7 avisos.
c) Probabilidad de no recibir ninguna llamada de avera.
8. Una fabrica produce un 5 % de piezas defectuosas. Un control de calidad previo al envasado,
es capaz de detectar el 80 % de las piezas defectuosas, que son retiradas, pero tambien retira
equivocadamente el 1 % de las piezas correctas.
a) Calcular la proporci
on de piezas defectuosas envasadas.
b) Si se colocan en paquetes de 40 piezas. Que probabilidad existe de obtener 2 o mas
piezas defectuosas por paquete?
9. La proporci
on de tabletas de aspirinas que resultan defectuosas (estan partidas, tienen
diferente peso, ...) es del 3 %.
a) Si las aspirinas se envasan en tubos de 10 tabletas. Cual es la probabilidad de que
un tubo contenga a lo sumo una tableta defectuosa?
b) Si los tubos se colocan en cajas de 300 unidades (tubos). Cual es la probabilidad de
que una caja contenga exactamente 45 tubos con mas de una tableta defectuosa?
c) Calcule la probabilidad del apartado anterior si los tubos contienen 50 tabletas.
10. Una central telef
onica distingue entre dos tipos de usuarios (particulares y empresas). La
probabilidad de que la lnea este ocupada entre la 9 y las 14 horas para particulares es del
2 % mientras que para las empresas este porcentaje de ocupacion es del 15 %
a) Se desea contactar con 150 particulares, hallar la probabilidad de que 10 o mas tengan
la lnea ocupada.
b) Se desea contactar con 150 empresas, hallar la probabilidad de que 15 o mas tengan
la lnea ocupada.
c) Si las empresas constituyen el 25 % de los usuarios. Cual sera la probabilidad de
encontrar ocupada la lnea si marcamos un n
umero al azar?
d ) Si llamamos al azar a un telefono y resulta ocupado, Cual sera la probabilidad de
que pertenezca a una empresa? y a un particular? Observa como ha cambiado esta
informaci
on las probabilidades asignadas a priori tanto a los particulares como a las
empresas.

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

6. Distribuciones de probabilidad

233

11. El tiempo que tarda una m


aquina en perforar un material de tipo 1 se distribuye seg
un
una normal de media 2 y desviacion 00 5, un material de tipo 2 seg
un una normal de media
3 y desviaci
on 00 1 y un material de tipo 3 seg
un una normal de media 4 y desviaci
on 2.
Una empresa recibe una partida de placas de los tres tipos de material donde el 20 % de
las placas son de tipo 1 y el 70 % del resto son de tipo 2.
a) Calcular la probabilidad de que la maquina tarde mas de tres segundos en perforar
una placa elegida al azar.
b) Si se ha tardado m
as de 3 segundos en perforar una placa elegida al azar, con
que material es m
as probable que este fabricada?
c) En el control de calidad se rechaza una placa si se ha tardado mas de 3 segundos en
perforarla. Definimos la variable aleatoria X que cuenta el n
umero de placas rechazadas. Si analizamos un lote de 100, calcular la probabilidad de rechazar mas de 40
sabiendo que el n
umero de placas rechazadas es mayor de 20 y menor o igual que 60,
es decir, calcular P [X > 40 | 20 < X 60]
12. Una f
abrica produce listones de madera para cerillas, para lo que se necesita que se corten
a 3 cm. La cortadora (cortadora/envasadora) que tienen desde hace 5 a
nos, proporciona
listones cuya longitud se distribuye de forma normal de media 3 y varianza 00 25.
La direcci
on adquiri
o hace un mes un nuevo modelo de cortadora que proporciona listones
cuya longitud se distribuye de forma normal de media 3 y varianza 00 23.
Un list
on es considerado defectuoso si su longitud es menor que 20 365 cm. y tendremos
que revisar toda la producci
on diaria si al examinar una caja de cerillas de 100 unidades
(todas procedentes de la misma cortadora) encontramos al menos 13 defectuosas.
Si la nueva cortadora produce un 20 % mas de listones que la antigua:
a) Por termino medio, cu
antos das al a
no habra que revisar la produccion diaria?
b) Si la producci
on de ayer tuvo que ser revisada, cuanto vale la probabilidad de que la
caja analizada contenga cerillas de la cortadora antigua? y de que maquina es m
as
probable que provenga la caja analizada?
13. Se pretenden estudiar las especificaciones de fabrica de un sistema automatico de vigilancia
para exteriores que aseguran que es capaz de detectar al 90 % de los intrusos que se
acerquen en das soleados, pero el aparato resulta muy sensible a la humedad y solo es
capaz de detectar al 50 % de los intrusos si el da es lluvioso. Se pretenden verificar las
especificaciones de f
abrica del sistema.
a) Si acercamos 36 individuos al local en un da soleado, que probabilidad hay de que
el sistema no detecte a 10 o mas individuos?
b) Calcular la misma probabilidad si el da fuese lluvioso.
Instalamos el sistema en un local situado en la Costa del Sol donde la proporcion de das
soleados es 9 veces mayor que la de das lluviosos.
c) Calcular la probabilidad de que el sistema no sea capaz de detectar a 10 o mas intrusos
en un da cualquiera.
d ) Si el sistema no ha detectado a 10 o mas intrusos, es mas probable que el da haya
sido soleado o lluvioso?

Apuntes de M
etodos Estadsticos para la Computaci
on

234

6.8. Relaci
on de problemas II Temas 4, 5 y 6

14. El tiempo t (en minutos) que se retrasa un avion de Iberia que cubre la lnea MalagaMadrid es una variable aleatoria continua con densidad de probabilidad
(
k (25 t2 )
si
5<t<5
f (t) =
0
en cualquier otro instante.
[Nota: Un valor negativo de t significa que el avion adelanto su llegada.]
Calcular el valor de k.
Que retraso se espera que tenga el avion?
Que probabilidad hay de que llegue con mas de tres minutos de retraso?
Si en la ventanilla de informacion nos confirman que el avion trae retraso, que probabilidad hay de que llegue m
as de 3 minutos tarde?
e) Si en los dos apartados anteriores se pregunta lo mismo, por que se obtienen resultados distintos?

a)
b)
c)
d)

Supongamos que la compa


na Aviaco tambien realiza vuelos en la misma lnea MalagaMadrid pero transporta la mitad de viajeros que Iberia (consideraremos que no hay mas
compa
nas que cubran esa lnea) y su tiempo de retraso sigue una distribucion t de Student
con 3 grados de libertad.
d ) Sin saber a que compa
na (Iberia o Aviaco) pertenece el proximo avion que llega a
Malaga procedente de Madrid, que probabilidad hay de que llegue con mas de 3
minutos de adelanto sobre el horario previsto?
e) Si el avi
on lleg
o con m
as de tres minutos de adelanto, a que compa
na es mas probable
que perteneciera?
15. El tiempo t (en segundos) que tarda una maquina en perforar un material de tipo I es una
variable aleatoria continua que se distribuye seg
un la siguiente funcion de densidad:
(
2
k (t 4t)
si 0 t 4
f (t) =
0
en cualquier otro instante.
Se pide:
a) Calcular el valor de k.
b) Que probabilidad hay de que tarde menos de 3 segundos en perforar una placa de
material tipo I?
c) Como vara la misma probabilidad del apartado anterior, si sabemos de antemano
que tardar
a m
as de un segundo?
d ) Calcular el tiempo medio que tarda en perforar placas de tipo I.
Supongamos que el tiempo que tarda esta misma maquina en perforar un material de tipo
II es una variable aleatoria con distribucion normal de media 2 y desviacion 00 5. Ademas,
de todas las placas que perfora la maquina en un mismo da, el 20 % son de material tipo
I y el 80 % son de material tipo II.
e) Elegimos al azar una placa. Calcular la probabilidad de que la maquina tarde mas de
tres segundos en perforarla.
f ) Si la m
aquina tard
o m
as de tres segundos en perforar esta placa, que probabilidad
hay de ser una material tipo I?

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

235

6. Distribuciones de probabilidad

6.9.

Anexo I: Justificaci
on de algunos resultados

En esta secci
on vamos a presentar la justificacion de algunos de los resultados que hemos visto
en este tema. Incluiremos aquellas demostraciones que utilizan resultados basicos de matematicas
o aquellas que se apoyan en los conocimientos aprendidos en otras asignaturas de matematicas
de la titulaci
on.

6.9.1.

Distribuci
on Binomal

La suma de las probabilidades es 1 ...... (por el binomio de Newton)

6.9.2.

Propiedades de la funci
on Gamma

La funci
on gamma Euler se define de la siguiente manera:
Z
(x) =
tx1 et dt
0

Esta funci
on es continua, est
a definida (integral convergente) para todo x > 0 y, entre sus
propiedades, destacan las siguientes:
1. (1) = 1
2. (x + 1) = x (x)

3. (1/2) =
Adem
as, a partir de las dos primeras propiedades se puede deducir que si n N entonces
(n + 1) = n! por lo que, de alguna manera, esta funcion generaliza a la funcion factorial.
Veamos la demostraci
on de estas tres propiedades. En primer lugar vamos a demostrar que
(1) = 1 de la siguiente manera:
Z
h
i
(1) =
et dt = et
= 0 (1) = 1
0

Para demostrar la segunda propiedad (x+ 1) = x(x) utilizamos el metodo de integraci


on
por partes tomando u = tx y dv = et dt, y por lo tanto du = x tx1 y v = et ), obteniedo
Z
Z
h
i Z
x t
x t
x1 t
(x + 1) =
t e dt = t e
+
xt
e dt = 0 + x
tx1 et dt = x (x)
0

Y para demostrar la tercera propiedad (1/2) = sera necesario demostrar el siguiente


resultado previo:
Z

x2
e 2 dx = 2

Apuntes de M
etodos Estadsticos para la Computaci
on

236

6.9. Anexo I: Justificaci


on de algunos resultados

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

Apuntes de
ESTADISTICA

Inferencia estadstica

Sixto Sanchez Merino


Dpto. de Matematica Aplicada
Universidad de Malaga

Mi agradecimiento al profesor Carlos Cerezo Casermeiro y Carlos


Guerrero Garca, por sus correcciones y sugerencias en la elaboraci
on de estos apuntes.

Apuntes de Estadstica
2011, Sixto Sanchez Merino.
Este trabajo est
a editado con licencia Creative Commons del tipo:
Reconocimiento-No comercial-Compartir bajo la misma licencia 3.0 Espa
na.
Usted es libre de:
copiar, distribuir y comunicar p
ublicamente la obra.
hacer obras derivadas.
Bajo las condiciones siguientes:
Reconocimiento. Debe reconocer los creditos de la obra de la manera especificada
por el autor o el licenciador (pero no de una manera que sugiera que tiene su apoyo
o apoyan el uso que hace de su obra).
No comercial. No puede utilizar esta obra para fines comerciales.
Compartir bajo la misma licencia. Si altera o transforma esta obra, o genera
una obra derivada, s
olo puede distribuir la obra generada bajo una licencia identica
a esta.
Al reutilizar o distribuir la obra, tiene que dejar bien claro los terminos de la licencia de
esta obra.
Alguna de estas condiciones puede no aplicarse si se obtiene el permiso del titular de los
derechos de autor.
Nada en esta licencia menoscaba o restringe los derechos morales del autor.

Captulo 7

Inferencia estadstica
Cuando queremos obtener informacion sobre una poblacion y disponemos de los datos de
todos los individuos (censo), entonces podemos utilizar la estadstica descriptiva que tiene como
objeto el estudio de un conjunto de elementos con alguna caracterstica com
un a todos ellos.
Sin embargo, cuando no podemos tener acceso a los datos de todos los individuos, utilizaremos la inferencia estadstica que tiene por objeto extraer conclusiones de la totalidad de la
poblacion, a partir de los datos de una muestra de ella.
Los dos problemas fundamentales que estudia la inferencia estadstica son el problema de
la estimaci
on y el problema del contraste de hipotesis. Cuando se conoce la distribucion que
sigue la variable aleatoria objeto de estudio y solo tenemos que estimar los parametros que la
determinan, estamos ante un problema de inferencia estadstica parametrica; por el contrario,
cuando no se conoce la distribuci
on que sigue la variable aleatoria objeto de estudio, estamos
ante un problema de inferencia estadstica no parametrica.
En todos los problemas que estudia la inferencia estadstica juega un papel fundamental la
teora de muestras que estudia las tecnicas y procedimientos que debemos emplear para que
las muestras sean representativas de la poblacion que pretendemos estudiar, de forma que los
errores en la determinaci
on de los parametros de la poblacion objeto de estudio sean mnimos.

7.1.

Inferencia estadstica

La Inferencia Estadstica es la parte de la estadstica matematica que se encarga del estudio


de los metodos para la obtenci
on del modelo de probabilidad (forma funcional y parametros
que determinan la funci
on de distribucion) que sigue una variable aleatoria de una determinada
poblacion, a traves de una muestra (parte de la poblacion) obtenida de la misma.
En la inferencia estadstica se distinguen basicamente dos tipos de objetivos:
1. Inferencia param
etrica: Deducir caractersticas (parametros) de la poblacion a partir
de los datos de una muestra.
2. Contraste de Hip
otesis: Analizar la concordancia o no de los resultados muestrales con
determinadas hip
otesis sobre la poblacion.

239

240

7.1. Inferencia estadstica

Poblacion

Censo (Estadstica

Muestra

(Inferencia

estadstica)

descriptiva)
Estimacion
parametrica
Contraste
de hipotesis

(1) Estimacion puntual


(2) Estimacion por intervalos
(3) Contraste parametrico
(4) Contraste no parametrico

En este tema estudiaremos algunos problemas tanto de inferencia parametrica (1, 2 y 3) como
de inferencia no parametrica (4). En inferencia estadstica parametrica nos vamos a limitar a
problemas donde la variable aleatoria objeto de estudio sigue una distribucion binomial, Poisson
o normal, y nuestro objetivo ser
a tratar de estimar los parametros que la determinan, es decir, el
parametro p de la binomial, el par
ametro de la Poisson, y los parametros y de la normal.
En los problemas de estimaci
on no parametrica nos limitaremos al estudio de la bondad de un
ajuste, la homogeneidad de varias muestras y la independencia de caracteres, como aplicaciones
de la 2 .

7.1.1.

Teora de muestras

En la practica, suele ocurrir con frecuencia que no es posible estudiar todos los elementos de
la poblacion, por distintas razones:
- Si el n
umero de elementos de la poblacion es muy elevado, el estudio llevara tanto tiempo
que sera impracticable o econ
omicamente inviable.
- El estudio puede implicar la destruccion del elemento objeto de estudio. Por ejemplo,
estudiar la vida media de una partida de bombillas, o la tension de rotura de cables.
- Los elementos pueden existir conceptualmente, pero no en la realidad. Por ejemplo, la
proporcion de piezas defectuosas que producira una maquina.
En estas ocasiones, lo que se hace es seleccionar una muestra de la poblacion, de manera
que, de la observaci
on del comportamiento individual de cada uno de los elementos, se puedan
obtener unas leyes generales de comportamiento de tipo promedio o de tipo predominante para
todos los elementos de la poblaci
on.
La teora de muestras estudia los procedimientos para tomar muestras de manera apropiada,
es decir, las muestras tienen que ser representativas de la poblacion. Y para conseguirlo, se deben
cumplir dos principios b
asicos:
1. Independencia en la selecci
on de los individuos que forman la muestra
2. Que todos los individuos tengan la misma probabilidad de ser incluidos en la muestra
Para conseguir estos objetivos se emplean distintas tecnicas de muestreo. De los distintos
metodos que existen para la obtenci
on de muestras, destacamos tres de los mas utilizados:

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

241

7. Inferencia estadstica

Muestreo aleatorio simple. Se eligen al azar los elementos para garantizar que todos los
individuos de la poblaci
on tienen la misma oportunidad de ser incluidos en dicha muestra.
Puede ser de dos tipos: con o sin reposicion.
Muestreo estratificado. Los elementos de la poblacion se dividen en clases o estratos. La
muestra se toma asignando un n
umero o cuota de miembros a cada estrato (proporcional
a su tama
no relativo o su variabilidad) y escogiendo los elementos por muestreo aleatorio
simple dentro del estrato.
Muestreo sistem
atico. Los elementos de la poblacion estan ordenados en listas. Se divide
la poblaci
on en tantas partes como el tama
no muestral y se elige al azar un n
umero de
orden. La muestra se obtiene tomando el elemento que ocupa ese n
umero de orden en cada
parte de la poblaci
on.
En adelante, en los problemas de inferencia estadstica consideraremos que las muestras son
suficientemente representativas para inferir o estimar las caractersticas poblacionales.
Si consideramos una muestra de tama
no n representativa de la poblacion, puesto que los n
elementos que integran la muestra son elegidos aleatoriamente, es evidente que sus medidas o
caractersticas son, a su vez, variables aleatorias, ya que dependen de los valores aleatorios de
los valores muestrales tomados al azar.
Por tanto, una muestra es un vector aleatorio (X1 , X2 , , Xn ) E n , que tendra asociada
una probabilidad de ser elegido.
Llamaremos estadstico a una funcion F : E n R, es decir, una formula de las variables
que transforma los valores tomados de la muestra en un n
umero real. Ademas, a la distribuci
on
de F se le llama distribuci
on del estadstico en el muestreo. Por ejemplo, la funcion
= X1 + X2 + + Xn
X
n
es un estadstico que permitir
a obtener la media de los valores muestrales, cuando dispongamos
de los datos de la muestra.

7.2.

Estimaci
on param
etrica

Cuando se realiza una afirmacion acerca de los parametros de la poblacion en estudio,


basandose en la informaci
on contenida en la muestra se dice que realizamos una estimaci
on
puntual pero si se
nalamos un intervalo de valores dentro del cual se tiene confianza de que
este el valor del par
ametro decimos que estamos realizando una estimacion por intervalos.

7.2.1.

Estimaci
on puntual

El proceso de estimaci
on puntual utiliza un estadstico, que llamaremos estimador puntual,
para obtener alg
un par
ametro de la poblacion. Como estadstico que es, el estimador puntual
es una variable aleatoria que tiene una distribucion en el muestreo que depende, en general, del
parametro en cuesti
on.
Se utilizan dos criterios esenciales para medir la bondad del estimador:

Apuntes de M
etodos Estadsticos para la Computaci
on

242

7.2. Estimaci
on param
etrica

a) Que sea centrado o insesgado, es decir, que su media coincida con el parametro a estimar.
b) Que sea de mnima varianza o que tenga la menor varianza entre todos los estimadores
del parametro.
Si verifica las dos condiciones diremos que el estimador es eficiente. A continuacion, relacionamos los estadsticos eficientes m
as usuales, as como su distribucion de probabilidad que nos
permitira obtener los intervalos de confianza. Para todos ellos, consideraremos que la muestra
de tama
no n es {x1 , x2 , . . . , xn }.
La proporci
on muestral en una distribuci
on binomial
La proporci
on muestral del suceso E
p =

frecuencia absoluta del suceso E


n

estima la proporci
on p de la poblaci
on que presenta una determinada caracterstica E (exito)
frente a los que no la presentan F (fracaso). Las propiedades mas importantes son:
1. El estimador es insesgado, es decir, la distribucion en el muestreo de p tiene de media p.
2. El estimador es de varianza mnima igual a

pq
con q = 1 p.
n

3. Para valores grandes del tama


no de la muestra (en la practica n > 30), la proporcion
muestral p se distribuye seg
un una distribucion normal:
 r 
pq
p p
Si
n > 30
entonces
p ; N p,
p
; N (0, 1)
n
pq/n
La media muestral en una distribuci
on de Poisson
La media muestral

X
= 1

xi
n
i=1

es un estimador puntual del par


ametro de una poblacion cuya caracterstica estudiada sigue
una distribucion de Poisson de par
ametro (= media de la poblacion). Las propiedades mas
importantes son:
tiene de media .
1. El estimador es insesgado, es decir, la distribucion en el muestreo de
2. El estimador es de varianza mnima.
se distribuye seg
3. Si el tama
no de la muestra es suficientemente grande, el estimador
un
una distribuci
on normal:
r !
; N ,

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

243

7. Inferencia estadstica

La Cuasivarianza muestral en una distribuci


on normal
La cuasivarianza o varianza muestral
n
n
X
X
1
n
n
s =
=

(xi x
)2 =
(xi x
)2 fi =
n1
n1
n1
2

i=1

i=1

n
X
i=1

x2i fi

es un estimador de la varianza 2 de una poblacion cuya caracterstica en estudio sigue una


distribuci
on normal N (, ). Las propiedades mas importantes son:
1. El estimador es insesgado, es decir, E(s2 ) = 2 .
2. El estimador es de varianza mnima.
3. La variable

(n 1)s2
; 2n1
2

La media muestral en una distribuci


on normal
La media muestral

=x
=

n
1 X

xi
n
i=1

es un estimador de la media de una poblacion cuya caracterstica en estudio sigue una


distribuci
on normal N (, ). Las propiedades mas importantes son:
1. El estimador es insesgado, es decir, E(
x) = .
2. El estimador es de varianza mnima.
3. Para valores grandes del tama
no de la muestra (en la practica n > 30), la media muestral
x
se distribuye seg
un una distribucion normal que depende del tama
no Np de la poblaci
on:
s
!
Np n

Si
n > 30
entonces
x
; N ,
Np 1
n
4. Si la poblaci
on es infinita o el muestreo es con reposicion, la segunda raz vale 1, es decir,



x
; N ,
n
lo que permite considerar las siguientes tipificaciones del estimador de la media:


x

pues
x
; N ,
Si es conocido entonces
z = ; N (0, 1)
/ n
n
Si es desconocido y n > 30 entonces


x

z=
; N (0, 1)
pues
x
; N ,
s/ n
n
Si es desconocido y n 30 entonces

z=

; tn1
s/ n

Apuntes de M
etodos Estadsticos para la Computaci
on

244

7.2.2.

7.2. Estimaci
on param
etrica

Estimaci
on por intervalos

En la practica, no s
olo interesa dar una estimacion puntual de un parametro sino un
intervalo de valores dentro del cual se tiene confianza de que este el estimador del parametro.
Por tanto, lo que buscamos es un estimador denominado estimador por intervalo compuesto
de una pareja de estadsticos Li (lmite inferior) y Ls (lmite superior) tales que
P (Li Ls ) = 1

con

0<<1

donde 1 se llama nivel de confianza y se denomina nivel de significaci


on. Es decir,
llamamos intervalo de confianza para el parametro con nivel de confianza 1 , a una
expresion del tipo Li Ls donde los lmites Li y Ls dependen de la muestra y se calculan
de manera tal que si construimos muchos intervalos, cada vez con distintos valores muestrales,
el 100(1) % de ellos contendr
an el verdadero valor del parametro.
Sin embargo, cuando tenemos el intervalo de confianza de una muestra concreta, o este
intervalo pertenece al 100(1) % de los que contienen al parametro y, por lo tanto, el parametro
esta en el intervalo con probabilidad 1; o bien, este intervalo pertenece al 100 % de los que no
contienen al par
ametro y, por lo tanto, el parametro esta en el intervalo con probabilidad 0.
Pero como dificilmente se llegar
a a saber con exactitud si el intervalo concreto es de uno u otro
tipo, entonces el nivel de confianza 100(1) % nos determinara una medida de la bondad del
intervalo.

a/2

a/2

Li

Ls

Figura 7.1: Intervalo de confianza

La amplitud del intervalo est


a ntimamente relacionada con los niveles de confianza y significacion. Si la amplitud del intervalo es peque
na entonces la afirmacion de que el parametro
pertenece al intervalo tiene gran significacion ( es grande) pero ofrece poca confianza (1 es
peque
na). Pero si la amplitud del intervalo es grande entonces la afirmacion de que el parametro
pertenece al intervalo tiene menor significacion ( es peque
no) aunque ofrece mucha confianza
(1 es grande). Por ejemplo, la afirmacion la altura media de una poblacion esta entre 169
y 171 metros con = 00 25 es m
as significativa que la afirmacion la altura media de una
poblacion esta entre 160 y 180 metros con = 00 01, aunque esta u
ltima afirmacion ofrece
mas confianza 1 = 00 99 que la primera 1 = 00 75.
Las tablas del anexo presentan los principales intervalos de confianza para los parametros
y de la distribuci
on normal N (, ), el parametro p de la distribucion binomial B(n, p), y
el parametro de la distribuci
on de Poisson P (). Si no se especifica o se deduce lo contrario,

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

245

7. Inferencia estadstica

supondremos que la distribuciones consideradas son de tipo normal, y que el nivel de confianza
es del 95 %.
Ejemplo 7.1 Obtener dos intervalos de confianza, uno al 99 % y otro al 95 %, para el consumo
medio de combustible de un determinado tipo de coche, sabiendo que los consumos observados
en 5 ensayos fueron 50 2, 40 3, 50 1, 40 7 y 40 9.
En primer lugar, suponemos (puesto que ni se dice, ni se deduce lo contrario) que el consumo
medio de gasolina de ese determinado tipo de vehculo sigue una distribucion normal N (, )
con y desconocidos.
En este caso, como el tama
no de la muestra es peque
no (n 30) y es desconocido entonces
z=

; tn1
s/ n

lo que nos permite determinar los extremos del intervalo de confianza para que resulta ser


s
+
I= x
t/2,n1
n
A partir de la muestra, se obtiene que n = 5, x
= 40 84 y s = 00 358 y si el nivel de significaci
on
0
es = 0 01 (Nivel de confianza del 99 %) entonces t/2,n1 = 40 604. Con estos datos ya podemos
obtener el intervalo de confianza al 99 %, que resulta ser


00 358
0
0
4 84 +
= [40 103, 50 577]
4 604
5
Si el nivel de significaci
on es = 00 05 (Nivel de confianza del 95 %) entonces t/2,n1 = 20 776 y
con este dato ya podemos obtener el intervalo de confianza al 95 %, que resulta ser


00 358
0
0
+
4 84 2 776
= [40 396, 50 284]
5
Observese que al disminuir el nivel de confianza, tambien disminuye la amplitud del intervalo
pues se pierde confianza de que el parametro este en el intervalo, aunque se gana significaci
on
pues la regi
on precisa m
as el rango de posibles valores del parametro. Como se puede observar en
la formula, otra forma de reducir la amplitud del intervalo es aumentar el tama
no de la muestra.


7.3.

Contraste de Hip
otesis

Otro objetivo fundamental de la Teora de Muestras, es confirmar o rechazar hipotesis sobre


un parametro poblacional, mediante el empleo de muestras. Es decir, contrastar una hip
otesis
estadsticamente es juzgar si cierta propiedad supuesta para cierta poblacion es compatible con
lo observado en una muestra de ella.
Supongamos que el par
ametro de la poblacion, que es objeto de estudio, es . El procedimiento que se sigue para contratar un valor de es el siguiente. En primer lugar, se estable a
priori, antes de tomar la muestra, la hipotesis que queremos contrastar, es decir, la suposici
on

Apuntes de M
etodos Estadsticos para la Computaci
on

246

7.3. Contraste de Hip


otesis

que queremos ver si se cumple o no. Esta hipotesis es una igualdad referida al parametro , se
denomina hip
otesis nula, se denota por H0 y sera rechazada o no a la vista de los datos de la
muestra.
En segundo lugar, se establece, tambien previamente, la llamada hip
otesis alternativa que se
denota por Ha y que ser
a admitida cuando H0 sea rechazada. La hipotesis alternativa puede ser
de dos tipos: de tipo desigualdad mayor que (>) o menor que (<), y de tipo negacion (6=).
Como veremos, cada uno de estos tipos de hipotesis dan lugar a un tipo de contraste (unilateral
y bilateral, respectivamente)
En tercer lugar, se define un estadstico relacionado con la hipotesis que queremos contrastar. Por ello, se denomina estadstico de contraste. La distribucion de probabilidad de este
estadstico es la que nos permitir
a establecer el criterio de aceptacion o rechazo de la hipotesis.
A continuaci
on, suponiendo que H0 es verdadera, se calculan dos regiones complementarias:
la regi
on de aceptaci
on y la regi
on crtica (R) o regi
on de rechazo de la hipotesis nula. Para
establecer estas regiones se fija un valor de probabilidad (suficientemente peque
no) que denominaremos nivel de significaci
on y que representa la probabilidad de que el estadstico de
contraste tome un valor en la regi
on crtica.
Por u
ltimo, a partir de los valores de la muestra, calculamos el valor 0 que toma el estadstico
para esos valores y tomamos la decisi
on final con el siguiente criterio:
Si 0 R entonces rechazamos H0 y aceptamos Ha .
Si 0
/ R entonces no podemos rechazar H0 .
Observese que, en el segundo supuesto, no rechazamos la hipotesis nula. Sin embargo, eso no
quiere decir que podamos afirmar que sea H0 sea cierta, aunque tampoco podemos descartarlo
y, por lo tanto, admitimos que H0 es cierta, por una cuestion de simplicidad.
La decision de rechazar o no la hip
otesis nula esta basada en los datos de la muestra y, por
lo tanto, podemos cometer dos tipos de errores:
1. Error de tipo I: Rechazar H0 cuando es cierta. La probabilidad de cometer este error es lo
que hemos denominado nivel de significacion ().
= P (rechazar H0 | H0 es cierta) = P (aceptar Ha | H0 es cierta)
2. Error de tipo II: No rechazar H0 cuando es falsa. La probabilidad de cometer este error se
denota con la letra .
= P (no rechazar H0 | H0 es falsa)
Estos errores est
an ntimamente relacionados pues cuando decrece entonces crece, y no es
posible encontrar contrastes que permitan simultaneamente hacer ambos errores tan peque
nos
como queramos. Por lo tanto, ser
a necesario destacar una de las hipotesis de manera que no
sera rechazada salvo que su falsedad se haga muy evidente. En los contrastes, la hipotesis considerada es H0 que s
olo ser
a rechazada cuando la evidencia de su falsedad supere el 100(1 ) %,
que denominamos, nivel de confianza.

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

247

7. Inferencia estadstica

Al tomar un valor de peque


no tendremos que se aproxima a uno. Lo ideal a la hora de
definir un contraste es encontrar un compromiso satisfactorio entre y , aunque siempre, a
favor de H0 . Denominamos potencia del contraste a la cantidad 1 , es decir:
1 = P (rechazar H0 | H0 es falsa)
En la siguiente tabla se recogen las distintas situaciones que se pueden dar en funcion de la
decision que tomemos y con las probabilidades correspondientes:

H0 es
cierta
H0 es
falsa

no rechazar H0
Acierto
1
Error tipo II

rechazar H0
Error tipo I

Acierto
1

En muchos casos resulta indiferente que hipotesis se considera la nula y cual la alternativa.
Sin embargo, cuando la decisi
on que tomemos tenga graves consecuencias, entonces tomaremos
como hip
otesis nula la m
as desfavorable, es decir, aquella cuyas consecuencias por rechazarla
cuando es cierta son m
as graves que las de aceptarla cuando sea falsa.
Por ejemplo, pensemos que tenemos que decidir si un acusado es inocente o culpable, si un
paciente mejora o empeora ante un tratamiento, o si un vehculo de pasajeros tendra o no un
accidente. En estos ejemplos debemos tomar como hipotesis nula que el acusado es inocente,
que el enfermo empeora o que el vehculo tendra un accidente, pues en todas ellas, es mas grave
rechazarla cuando es cierta que admitirla siendo falsa.
En estos casos, hay que elegir la hipotesis nula a menos que la evidencia a favor de la
hipotesis alternativa sea muy significativa. Es decir, solo se aceptara la hipotesis alternativa
para pr
oximo a cero, aunque para ellos sea necesario que sea proximo a uno, ya que las
consecuencias del error tipo I (condenar a un inocente, creer equivocadamente que el enfermo
mejora ante el tratamiento, o pensar erroneamente que el vehculo no tendra un accidente), son
mas graves que las del error de tipo II (liberar a un culpable, creer equivocadamente que el
enfermo empeora, o pensar err
oneamente que el vehculo tendra un accidente).
Y ahora, veamos un ejemplo que pone de manifiesto tanto los conceptos y reflexiones que
hemos planteado, como el procedimiento que se sigue en el contraste de hipotesis de un problema
estadstico.
Ejemplo 7.2 Consideremos un proceso de fabricaci
on que en condiciones correctas produce
componentes cuya resistencia electrica se distribuye normalmente con media 20 Ohm y desviaci
on tpica 00 5 Ohm. A veces, y de forma imprevisible, el proceso se desajusta, produciendo un
aumento o disminuci
on de la resistencia media de los componentes, pero sin variar la desviaci
on tpica. Para contrastar si el proceso funciona correctamente se toma una muestra de cinco
unidades midiendo su resistencia, resultando 180 4, 190 2, 200 3, 190 5 y 200 1. Podramos concluir
con estos datos que el proceso est
a desajustado?
El problema nos dice que la distribucion de probabilidad de la resistencia electrica de un componente es de tipo normal y el parametro objeto de estudio es la media . Por lo tanto, en
primer lugar, elegimos las siguientes hipotesis nula y alternativa que nos permitiran responder

Apuntes de M
etodos Estadsticos para la Computaci
on

248

a la pregunta

7.3. Contraste de Hip


otesis

H0 : = 20
Ha : 6= 20

En segundo lugar, elegimos el estadstico de contraste x


asociado a nuestro parametro y cuya
distribucion de probabilidad es:



x
; N ,
o bien
z = ; N (0, 1)
n
/ n

En tercer lugar, fijamos el nivel de significacion = 00 05 (valor por defecto) y suponiendo que
H0 es verdadera ( = 20), se calculan la region de aceptacion (con probabilidad 1 ) y la
region crtica o de rechazo (con probabilidad ) a partir de la distribucion de probabilidad del
estadstico, de la siguiente manera:
1 = P (regi
on de aceptacion) = P (z/2

x
20
z/2 )
00 5/ n

y, por lo tanto, la regi


on de aceptaci
on para nuestro estadstico de contraste z es el intervalo
[10 96, 10 96]. De manera que la regi
on crtica o de rechazo es su complementario, es decir,
0
0
(, 1 96) (1 96, ) que se obtendra as:



x

20
= P (regi
on crtica) = P 0 > z/2
0 5/ n
Por u
ltimo, a partir de los valores de la muestra, calculamos el valor del estadstico y tomamos la
decision final. Como n = 5 y x
= 190 5 entonces el estadstico de contraste z = 20 236 pertenece a
la region crtica y, por lo tanto, rechazamos la hipotesis nula y aceptamos la hipotesis alternativa
( 6= 20), es decir, tendremos que suponer que el proceso se ha desajustado.


Observese que, en este ejemplo, la region de rechazo estaba constituida por la union de dos
intervalos. Por esta raz
on, este tipo de contrastes se denominan bilaterales y se producen cuando
la hipotesis alternativa es la negaci
on de la hipotesis alternativa, es decir, cuando la hipotesis
nula es de tipo = y la alternativa de de tipo 6=. Veamos ahora un ejemplo de contraste
unilateral
Ejemplo 7.3 Con los datos del ejemplo 7.2, podemos concluir que el proceso se ha desajustado
por exceso?
En este caso, las hip
otesis nula y alternativa que nos permitiran responder a la pregunta son

H0 : = 20
Ha : > 20
Elegimos el estadstico de contraste x
asociado a nuestro parametro y cuya distribucion de
probabilidad es:


x

x
; N ,
o bien
z = ; N (0, 1)
n
/ n
Si fijamos el nivel de significaci
on = 00 05 y suponemos que H0 es verdadera ( = 20) entonces
se puede calcular la regi
on crtica o de rechazo (con probabilidad ) a partir de la distribucion
de probabilidad del estadstico, de la siguiente manera:


x
20
> z
= P (regi
on crtica) = P
00 5/ n

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

249

7. Inferencia estadstica

y, por lo tanto, la regi


on de rechazo es (10 645, ). Como n = 5 y x
= 190 5 entonces el estadstico
0
de contraste z = 2 236 no pertenece a la region crtica y, por lo tanto, no podemos rechazar la
hipotesis nula. Eso no significa que debamos aceptarla, aunque en estos casos, es bastante com
un
rechazar la hip
otesis alternativa, de manera que afirmaramos que la media no ha aumentado,
es decir, que 20.

Las tablas del anexo presentan los principales contrastes de hipotesis para los parametros
y de la distribuci
on normal, y el parametro p de la distribucion binomial. Para cada uno
de ellos, se presentan las regiones crticas o de rechazo, de los distintos contrastes unilaterales
y bilaterales. Si no se especifica o se deduce lo contrario, supondremos que la distribuciones
consideradas son de tipo normal, y que el nivel de confianza es del 95 %.

7.4.

Inferencia no param
etrica

Por lo general, para estudiar un caracter en una poblacion, se examina solamente una muestra tomada de la poblaci
on. Cualquiera que sea la poblacion teorica que se considere, siempre
existiran desviaciones entre la distribucion teorica y la distribucion emprica u observada. El
problema consiste, por tanto, en saber en que medida estas desviaciones son debidas a:
1. El azar. Estas diferencias tienden a desaparecer si el n
umero de observaciones (tama
no de
la muestra) es suficientemente grande.
2. Tomar una distribuci
on te
orica inadecuada.
En este u
ltimo caso, la distribucion 2 de Pearson se puede aplicar para ver si un conjunto
de datos observados coincide o no con un conjunto de datos esperados.
A continuaci
on se enumeran las principales aplicaciones de la 2 . En cada una de ella se
trata de contrastar si una cierta hip
otesis H0 es coherente con los datos obtenidos en la muestra.
1. Bondad de ajuste: Se trata de determinar si la hipotesis sobre el tipo de distribucion te
orica
(binomial, poisson, normal, etc.) que rige un experimento es consistente con los datos que
aparecen en la muestra.
2. Contraste de homogeneidad de varias muestras: Se trata de contrastar si varias muestras
con un mismo car
acter han sido o no tomadas de una misma poblacion.
3. Contraste de dependencia o independencia de caracteres: Se trata de comparar si dos o
mas distribuciones empricas son comparables a una misma distribucion teorica. Y esto se
utiliza para ver si dos caracteres son o no independientes.
En todos los casos se realiza el test de la 2 que consiste en lo siguiente: Supongamos que al
tomar una muestra los posibles sucesos x1 , x2 , . . . , xk se presentan con frecuencias o1 , o2 , . . . , ok ,
llamadas frecuencias observadas, y que seg
un las leyes de la probabilidad, se esperaba que apareciesen con frecuencias e1 , e2 , . . . , ek , llamadas frecuencias esperadas o teoricas. Una medida
de la discrepancia entre las frecuencias esperadas y las observadas viene proporcionada por el
estadstico
2 definido por

2 =

(o1 e1 )2 (o2 e2 )2
(ok ek )2
+
+ +
e1
e2
ek
Apuntes de M
etodos Estadsticos para la Computaci
on

250

7.4. Inferencia no param


etrica

de manera que si
2 = 0 entonces las frecuencias observadas y teoricas coinciden completamente,
2
mientras que si
> 0, estas frecuencias no coinciden exactamente. A mayor valor de
2 mayor
discrepancia entre las frecuencias esperadas y las observadas.
Para contrastar si las frecuencias observadas difieren significativamente de las esperadas
utilizaremos que la distribuci
on del estadstico
2 se aproxima muy bien si k 5 y ei 5 por
la distribucion 2v . El n
umero de grados de libertad viene dado por v = k 1 m, siendo m el
n
umero de parametros de la poblaci
on que ha sido necesario estimar, a partir de estadsticos de
la muestra, para poder calcular las frecuencias teoricas.

7.4.1.

Bondad de ajuste. Tabla de contingencia

Consideremos en una poblaci


on el car
acter X que admite las modalidades x1 , . . . , xk excluyentes (o una variable continua y dividimos el recorrido en k clases). Se toma una muestra de
tama
no n de la poblaci
on, siendo oi el n
umero de elementos que presentan la modalidad xi (frecuencia observada de xi ). Si denotamos por pi la probabilidad que teoricamente asignamos a la
modalidad xi , entonces las frecuencias esperadas para cada xi seran ei = n pi con i = 1, . . . , k.
Con estos datos podemos construir la siguiente tabla
X
x1 x2 . . .
Frec. Observada o1 o2 . . .
Frec. Esperada e1 e2 . . .

xi . . .
oi . . .
ei . . .

xk
ok
ek

que recibe el nombre de tabla de contingencia 1 K y cuyos elementos verifican:


k
X

oi = n

i=1

k
X

pi = 1

i=1

k
X

ei = n

i=1

Ahora consideramos la hip


otesis H0 que consiste en suponer que la distribucion teorica
escogida representa bien a la distribuci
on emprica y que, por tanto, las desviaciones entre las
frecuencias observadas y las te
oricas son debidas al azar. Veamos en que condiciones podemos
aceptar o rechazar la hip
otesis H0 . Para ello, definimos el estadstico
k

2 =

(o1 e1 )2 (o2 e2 )2
(ok ek )2 X (oi ei )2
+
+ +
=
e1
e2
ek
ei
i=1

que sigue aproximadamente una distribucion


de Pearson con k 1 grados de libertad si no
existe diferencia significativa entre las frecuencias observadas y las teoricas. As pues, a un nivel
de significacion , tenemos que:

Si
2 < 2;k1 se acepta la hipotesis a nivel .
Si
2 2;k1 se rechaza la hipotesis a nivel .
Para calcular el estadstico
2 podemos utilizar la siguiente igualdad:
k
X
(oi ei )2
i=1

ei

k
X
o2
i

i=1

ei

En el test de la 2 hay que hacer las siguientes consideraciones:

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

251

7. Inferencia estadstica

1. Si la distribuci
on que queremos ajustar es continua, determinaremos, siempre que sea
posible, k clases excluyentes, con k 5, que determinaran las modalidades de la variable.
2. Si hay alguna modalidad que tenga alguna frecuencia esperada menor que cinco se agrupan
dos o m
as modalidades contiguas en una sola hasta lograr que la nueva frecuencia sea mayor
o igual que cinco.
3. Si para obtener las frecuencias esperadas, necesitamos calcular m parametros de la distribuci
on te
orica entonces los grados de libertad de la distribucion 2 son k m 1.
4. Si el estadstico
2 es demasiado proximo a cero, debe mirarse con suspicacia el experimento, pues es raro que las frecuencias observadas coincidan demasiado bien con las
frecuencias esperadas. Para estudiar estas situaciones podemos examinar si el valor de
2
es menor que 200 95;v
o 200 99;v , en cuyo caso decidimos que el acuerdo es demasiado bueno
al nivel de significaci
on 00 05
o 00 01 respectivamente.
Ejemplo 7.4 La siguiente tabla contiene las notas (sobre 100) que han obtenido los alumnos
en Estadstica en los u
ltimos 5 a
nos clasificadas en rangos de 10 puntos:
Rango Nota
Frecuencia

0-10
2

10-20
30

20-30
80

30-40
145

40-50
250

50-60
245

60-70
140

70-80
75

80-90
28

90-100
5

Se puede afirmar al 95 % que las distribuci


on de las notas es de tipo normal?
El problema nos plantea si la distribucion de los datos corresponde a una distribucion normal N (, ). En primer lugar, utilizaremos la muestra para determinar los parametros de la
distribuci
on normal, mediante estimacion puntual.

=x
= 490 84

= s = 160 088

En segundo lugar, como el propio enunciado ya establece las modalidades, construimos la tabla
de contingencia 1 10
xi
oi
ei

0-10
2
664

10-20
30
2518

20-30
80
7694

30-40
145
16164

40-50
250
23357

50-60
245
23218

60-70
140
15877

70-80
75
7467

80-90
28
2414

90-100
5
628

a partir de los valores de probabilidad pi obtenidos de la distribucion normal N (490 84, 160 088),
para cada uno de los intervalos de notas (modalidades), los cuales permiten calcular los valores esperados ei = 1000pi . Por ejemplo, el valor esperado 250 18 para la modalidad 10-20 se ha obtenido
multiplicando 1000 por 00 02518, siendo 00 02518 = P (10 X 20) con X ; N (490 84, 160 088).
Ahora, se calcula el estadstico de contraste

2 =

k
X
(oi ei )2
i=1

ei

k
X
o2
i

i=1

ei

n = 100 956

y se compara con el valor de la


con 7 grados de libertad (v = k m 1 = 10 modalidades 2 parametros estimados - 1) para el valor por defecto = 00 05:

2 = 100 956 < 140 067 = 27,00 05


y, por lo tanto, se acepta que la distribucion de las notas es de tipo normal.

Apuntes de M
etodos Estadsticos para la Computaci
on

252

7.4. Inferencia no param


etrica

7.4.2.

Contraste de homogeneidad de varias muestras

Una muestra es homogenea cuando todas las observaciones se rigen por la misma distribucion
de probabilidades. En otro caso se dice que la muestra es heterogenea.
Las causas m
as importantes por las cuales una muestra no es homogenea son:
La poblaci
on es heterogenea respecto a la variable estudiada. Por ejemplo el nivel de renta
en una poblaci
on difiere seg
un se trate de una zona urbana o rural.
La poblaci
on es homogenea respecto a la variable del estudio, pero en el proceso de muestreo se producen errores o cambios en el sistema de medida, a consecuencia de lo cual
ciertos datos de la muestra son heterogeneos.
El objetivo es determinar si varias muestras de un mismo caracter X han sido o no tomadas
de una misma poblaci
on. Para ello usaremos el test de la 2 de Pearson de la siguiente manera:
Supongamos que se tienen k muestras con n1 , n2 , . . . , nk elementos cada una. Las cuales
tienen, respectivamente, o1 , o2 , . . . , ok elementos con una determinada caracterstica A.
Hacemos la hip
otesis H0 , que consiste en suponer que todas las muestras proceden de la
misma poblacion. Bajo esta hip
otesis, la proporcion p de elementos con la caracterstica A es
p=

o1 + o2 + + ok
n1 + n2 + + nk

y el n
umero de elementos esperados en la muestra que poseen la caracterstica A es:
e i = ni p

para todo i = 1, 2, . . . , k.

El problema ahora es determinar si la diferencia entre las frecuencias observadas y las esperadas se debe al azar o si se debe a que las muestras no se pueden considerar como procedentes
de una misma poblaci
on. Para ello, definimos el estadstico:
2k1

k
X
1
(oi ei )2
=

p(1 p)
ni
i=1

que, si H0 es cierta, sigue aproximadamente una 2 con k 1 grados de libertad. El n


umero
de grados de libertad es k 1 ya que tenemos 2k variables (frecuencias esperadas) y hay que
restar k + 1 par
ametros que hemos obtenido de la muestra (el parametro p y los k parametros
ni ni p).
Luego, al nivel de significaci
on podemos establecer:

Si 2k1 < 2;k1 Se acepta H0
Si 2k1 2;k1 Se rechaza H0
De manera an
aloga podemos contrastar si la frecuencia de un elemento de la poblacion se
mantiene constante a lo largo de las extracciones o, lo que es lo mismo, las muestras provienen
de una poblacion determinada. As, en una poblacion binomial se puede contrastar la hipotesis

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

253

7. Inferencia estadstica

de que la proporci
on de elementos con una caracterstica A es constante e igual a p. Entonces
el estadstico:

2 =

k
X
1
(oi ni p)2

p(1 p)
ni
i=1

sigue aproximadamente una distribucion 2 con k grados de libertad si la hipotesis es verdadera.


Luego si 2k < 2;k se acepta la hip
otesis y en otro caso se rechaza a un nivel de significaci
on .
En una poblaci
on de Poisson se puede contrastar la hipotesis de que el n
umero medio de
elementos con la caracterstica A en cada muestra es constante, es decir:

= o =

Pk

i=1 oi

= constante

entonces, el estadstico

2 =

k
X
(oi o)2
i=1

i=1

i=1

1 X 2 X

oi
oi
o

sigue aproximadamente una distribucion 2 con k 1 grados de libertad si la hipotesis es


verdadera.

7.4.3.

Contraste de dependencia o independencia de caracteres.


Tablas de contingencia K M

Hasta ahora hemos utilizado el test de la 2 para saber si una serie de datos se ajustaban o
no a una distribuci
on te
orica. Podemos igualmente comparar dos o mas distribuciones empricas
entre s si cada una de ellas es comparable a una misma distribucion teorica.
Supongamos que queremos comparar dos caracteres X e Y en una misma poblacion, que
admiten las modalidades siguientes: X = {x1 , x2 , . . . , xk } e Y = {y1 , y2 , . . . , ym }. Para ello, tomamos una muestra de tama
no n, siendo oij el n
umero de elementos que presentan la modalidad
xi de X e yj de Y (frecuencia observada).
Si consideramos la hip
otesis H0 que consiste en suponer que no existen diferencias significativas entre las dos distribuciones empricas de X e Y , entonces con cada frecuencia observada
oij tenemos una frecuencia te
orica o esperada eij que podemos calcular mediante la expresi
on
eij = pij n =

oxi oyj
n

para todo i = 1, 2, . . . , k y j = 1, 2, . . . , m

siendo pij las probabilidades de que un elemento tomado de la muestra presente las modalidades
xi de X e yj de Y , es decir
pij =

oxi oyj

n
n

Apuntes de M
etodos Estadsticos para la Computaci
on

254

7.4. Inferencia no param


etrica

Con estos datos podemos construir la siguiente tabla


X \Y
x1
..
.

y1 . . .
o11 . . .
..
.

yj . . .
o1j . . .
..
.

ym
o1m
..
.

Frecuencia oxi
o x1
..
.

xi
..
.

oi1 . . .
..
.

oij . . .
..
.

oim
..
.

o xj
..
.

xk
Frecuencias oyj

ok1 . . .
oy1 . . .

okj . . .
oy j . . .

okm
oym

o xk
n

que recibe el nombre de tabla de contingencia K M y cuyos elementos verifican:


k X
m
X
i=1 j=1

oij = n

k
X

o xi =

i=1

k
X

o yj = n

j=1

k X
m
X

pij = 1

i=1 j=1

k X
m
X

eij = n

i=1 j=1

Analogamente a los casos anteriores, definimos el estadstico:

2 =

k m
k X
m
X
(oij eij )2 X X o2ij
=
n
eij
eij
i=1 j=1

i=1 j=1

que sigue aproximadamente una distribucion 2(k1)(m1) si es cierta H0 , con eij > 5, para todo
1 i k,1 j m; en otro caso es preciso agrupar filas o columnas contiguas. As pues, a
nivel de significaci
on podemos contratar la hipotesis H0 :
(
Si 2(k1)(m1) < 2;(k1)(m1) se acepta H0
Si 2(k1)(m1) 2;(k1)(m1) se rechaza H0
Este contraste no parametrico se utiliza muy frecuentemente para ver si existe o no relacion
entre los caracteres X e Y , es decir, si son o no independientes. Entonces recibe el nombre de
contraste de independencia de caracteres:
(
Si 2(k1)(m1) < 2;(k1)(m1) XyY son independientes al nivel
Si 2(k1)(m1) 2;(k1)(m1) XeY no son independientes al nivel
Coeficiente de contingencia
Una media del grado de relaci
on o dependencia entre dos caracteres X e Y en una tabla de
contingencia viene dada por el coeficiente de contingencia C que se define por
s

2
C=

2 + n
A mayor valor de C m
as alto es el grado de dependencia entre las dos variables X e Y .

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

255

7. Inferencia estadstica

7.5.

Relaci
on de problemas

1. Un nuevo modelo de autom


ovil realiza 10 pruebas de consumo con 9 litros de gasolina,
0
obteniendose: 137 4, 136, 132, 141, 129, 1300 8, 140, 1290 7, 133 y 136 kilometros recorridos
en cada prueba.
a) Utilizar los resultados de las pruebas anteriores para estimar la media y la varianza
del consumo de gasolina (suponer que los datos estan normalmente distribuidos).
b) Estimar un intervalo de confianza para la media de kilometros recorridos con 9 litros
de combustible.
2. Una muestra de 10 medidas de las constantes recuperadoras de muelles para amortiguadores da una media de 15 Nw/mm con desviacion tpica de 00 2. Encontrar intervalos de
confianza al 5 % de la media y de la varianza.
3. El contenido medio en grasa para dos tipos de queso A y B es x
A =332 % y sA =34 % con
n = 27 y x
B =354 % y sB =3 % con n = 42. Se pide:
a) Construir un intervalo de confianza al 95 %, para el porcentaje de grasa de los tipos
A y B.
b) Construir un intervalo de confianza para la diferencia en el contenido en grasa de
ambos tipos.
c) Se observan diferencias significativas?
4. Lanzamos una moneda 200 veces.
a) Halle un intervalo donde se encontrara el n
umero de caras obtenidas con una probabilidad del 99 %, supuesta la moneda equilibrada.
b) Si se obtienen 110 veces caras, debera suponerse al 99 % que esta trucada?
c) Si se obtiene una proporcion de caras del 45 %, cual debe ser el n
umero mnimo de
tiradas para rechazar la hipotesis de estar equilibrada?
5. En un sondeo a 500 votantes del barrio A y 300 del barrio B, un candidato resulto preferido
por el 43 % de los de A y el 42 % de los de B. Al nivel = 5 %.
a) Obtener intervalos de confianza para los resultados esperados en A y en B.
b) Puede admitirse que el candidato obtendra mejores resultados en A que en B?
6. Una compa
na aseguradora comprueba que la probabilidad, para determinado grupo de
riesgo, de tener un accidente mortal en un periodo del a
no es de 00 003. Cada accidente
provoca un pago fijo de 100 000 euros. Si la compa
na tiene 10 000 asegurados.
a) Estimar la prima anual que, a un nivel del 1 %, asegure que no se provocaran perdidas
en la empresa.
b) Responder a la pregunta anterior si tuviese 100 000 asegurados.
7. Para comprobar si un f
armaco es u
til en el tratamiento de una enfermedad, de la que datos
anteriores nos dan un plazo de recuperacion de 34 das con una desviacion de 7, tomamos
una muestra de 50 pacientes, suministrandosele a 25 de ellos (grupo A) un placebo y a los
otros 25 (grupo B) el tratamiento.

Apuntes de M
etodos Estadsticos para la Computaci
on

256

7.5. Relaci
on de problemas

El grupo A tuvo un periodo medio de recuperacion de 25 das con desviacion de 5, mientras


el grupo B obtuvo una media de 24 das y desviacion 5. Contrastar:
a) Que el tratamiento es eficaz sobre los metodos anteriores.
b) Que su eficacia es psicol
ogica, pues no difiere de los individuos no tratados, que creen
que si lo son (grupo A).
8. Un equipo medico sostiene que su tratamiento ha conseguido sanar al 90 % de los pacientes
de una enfermedad en 3 das. Realizado un experimento con 400 pacientes sanaron 342 en
dicho plazo.
a) Utilizar el resultado del experimento para estimar la proporcion de pacientes que
reaccionan favorablemente al tratamiento.
b) Contrastar si la hip
otesis que sostiene el equipo medico es correcta.
9. Para contrastar el nivel de Matem
aticas de los alumnos de dos centros de ense
nanza se
selecciona un grupo de alumnos de cada centro y se les somete a una prueba de nivel. Las
calificaciones obtenidas por los grupos de 40 y 30 alumnos de los centros de ense
nanza A y B
dan una media de 50 4 y 50 7 respectivamente; mientras que las desviaciones tpicas resultan
ser respectivamente de 10 3 y 00 9. Contrastar al nivel del 90 % que no existen diferencias en
el nivel de conocimientos de Matem
aticas entre ambos centros de ense
nanza.
10. Para analizar el efecto de un tratamiento contra la procesionaria del pino, se divide el
terreno en 100 parcelas de las que aleatoriamente se tratan 40, obteniendose en las tratadas
20 arboles atacados de 230 observados, mientras en las no tratadas se observaron 7 atacados
de 300 observados. Se puede deducir que el tratamiento es eficaz al 10 %? Y al 5 %?
11. Para estimar el n
umero de casta
nos de un bosque con 500 km2 , se seleccionan aleatoria2
mente 10 parcelas de 1 km cada una, contando exhaustivamente los casta
nos existentes.
Obteniendose 25, 27, 32, 28, 23, 20, 28, 19, 17 y 20 en cada una de las parcelas.
a) Hallar un intervalo de confianza al 5 % para el n
umero medio de casta
nos por km2 y
para el bosque completo.
b) Hallar si puede aceptarse que existen mas de 15.000 casta
nos en el bosque (con nivel
de significaci
on = 0,01).
c) Si en vez de 10 parcelas de 1 km2 , se hubiesen considerado 100 parcelas de 00 1 km2 ,
obteniendose una media de 1/10 de la anterior y una desviacion tpica de 1/10 de
la anterior. Se obtiene un intervalo de confianza del n
umero de casta
nos del bosque
mas preciso?
12. En una muestra de 50 neum
aticos de cierta clase se obtuvo una vida media de 32 000 km.
y una desviaci
on est
andar (s) de 4 000 km.
a) Puede afirmar el fabricante que la vida media de esos neumaticos es mayor que
30 000 km.? Establezca y pruebe la hipotesis correspondiente en un nivel del 5 %,
suponiendo normalidad.
b) Hasta que n
umero de kil
ometros podramos afirmar que llega la vida media de los
neum
aticos con el mismo nivel de confianza?

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

7. Inferencia estadstica

257

13. Si mediciones simult


aneas de una tension electrica por medio de dos tipos diferentes de
voltmetros proporcionan las diferencias (en volts) 00 8, 00 2, 00 3, 00 1, 00 0, 00 5, 00 7 y 00 2,
puede afirmarse al 4 % que no existen diferencias significativas, en la calibracion de los
dos tipos de instrumentos?
14. Sup
ongase que, en un equipo electrico alimentado con bateras, es mas economico reemplazar todas estas a intervalos fijos que reemplazar cada batera por separado cuando se
agota, ello ocurre cuando la desviacion estandar de la vida de las mismas sea mayor que
cierto lmite, esto es, mayor que 5 horas. Plantee y aplique una prueba apropiada, utilizando una muestra de 28 valores de vida con desviacion estandar s = 30 5 horas y suponiendo
normalidad. Tome = 6 %.
15. Suponga que las marcas I y II de focos electricos tienen el mismo precio y son de la misma
calidad, excepto, tal vez, por su vida u
til. Un cliente compro 100 focos de cada marca
y comprob
o que los focos de la marca I tenan una vida media de 1 120 horas con una
desviaci
on est
andar de 75 horas; y para los focos de la marca II los valores correspondientes
fueron 1 064 y 82 horas, respectivamente. Es significativa la diferencia en media, de la
vida u
til de los focos de ambas marcas?
16. Determinaci
on del tama
no muestral. En los ejercicios anteriores, hemos supuesto conocido
el tama
no de la muestra. El problema de determinar el tama
no muestral es crucial ya que
un tama
no de la muestra excesivamente elevado puede resultar costoso en tiempo y dinero,
sin embargo, si la muestra es demasiado peque
na podemos no encontrar el grado deseado
de fiabilidad (la amplitud del intervalo es inversamente proporcional a la raiz cuadrada
del tama
no de la muestra). Se trata de despejar la variable n en los estadsticos de los
extremos del intervalo de confianza correspondiente
a) Consideremos el intervalo de confianza para la media de una distribucion normal de
varianza conocida. Determinar el tama
no de la muestra que debemos considerar de
forma que la diferencia entre la media poblacional y la media muestral sea, en valor
absoluto, menor que un cierto error () a un determinado nivel de confianza (1-).
b) Una muestra aleatoria de 196 datos extrados de una poblacion normal de varianza
igual a 100, presenta una media muestral de 160.
1) Determinar al 95 % un intervalo de confianza para la media poblacional y se
nalar
la diferencia m
axima entre la media muestral y la desconocida media poblacional.
2) Si se quiere tener una confianza del 95 % de que la estimacion de la media se
encuentra a una distancia de 10 2 de la verdadera media poblacional, debemos
tomar m
as observaciones adicionales? Cuantas?
17. Nivel crtico. En los ejercicios anteriores, hemos realizado los calculos para un determinado
nivel de confianza. A partir de los datos de una muestra (tama
no, media, varianza, proporcion, etc.) podemos estar interesados en determinar el nivel de confianza crtico a partir
del cual se acepta o rechaza una determinada hipotesis sin mas que aumentar o disminuir
este nivel de confianza. Se trata pues de despejar el valor de en el contraste de hip
otesis
correspondiente.
El c
alculo del nivel crtico resulta u
til para poder manipular el resultado de un determinado
contraste, puesto que una vez calculado, se puede facilmente establecer el nivel de confianza
para que los resultados de la muestra respalden una determinada hipotesis.

Apuntes de M
etodos Estadsticos para la Computaci
on

258

7.5. Relaci
on de problemas

Ejemplo: Un determinado partido poltico realiza un sondeo preelectoral y obtiene un 55 %


de exitos en intenci
on de voto. Con estos resultados, cual es el mnimo nivel de confianza
que le permite asegurar que podr
a obtener mayora absoluta, si la consulta se realizo sobre
240 votantes?
18. El 70 % de las bellotas que produce un arbol son comidas por los animales y el resto
germina en un 60 %
a) Hallar un intervalo de confianza con = 00 02 para el n
umero de bellotas germinadas,
procedentes de un
arbol determinado que produjo 20 000 bellotas.
b) Un ingeniero agr
onomo afirma que en determinado tipo de suelo la proporcion de las
que germinan es del 75 %. Para ello se dejan caer 100 bellotas impidiendo el acceso
de animales, de las cuales germinan 67.
1) Contrastar al nivel = 00 01, que en ese tipo de suelo se produce un aumento del
porcentaje de germinaci
on.
2) Contrastar que la hip
otesis del ingeniero es cierta.
19. Analizada la operaci
on de montaje de una maquina de un equipo, se observa que puede
ser realizada en dos secuencias diferentes A y B. Para evitar la posible influencia del
entrenamiento de los operarios, se seleccionaron aleatoriamente 18, que desconocan el
proceso de montaje, asign
andoles aleatoriamente al aprendizaje del montaje de una u otra
secuencia, tras un mes de aprendizaje, se realizaron mediciones obteniendose los siguientes
tiempos de montaje:
Procedimiento A:
Procedimiento B:

32
35

37
31

35
29

28
25

41
34

44
40

35
27

31
32

34
31

a) Obtener intervalos al nivel de confianza del 99 % para la media del tiempo de montaje
por uno y otro metodo.
b) Contrastar al nivel = 00 10 la igualdad de varianzas de ambos metodos.
c) De acuerdo al resultado obtenido en el apartado anterior, contrastar al nivel = 00 1
la igualdad de las medias de ambos metodos.
20. Se desea contrastar si la temperatura del agua del mar en Alicante es mayor que en Malaga
y para ello se realizaron mediciones cada dos meses durante un a
no, resultando:
Alicante
M
alaga

14
12

16
16

18
19

21
21

22
21

14
13

Realizar el contraste al nivel = 00 05 de significacion.


21. Un estudio del precio de los pisos en una ciudad resulto que en el a
no 1992 se distribuan
normalmente con media 100 000 ptas/m2 y desviacion tpica de 8 000 ptas/m2 .
a) Estimar el precio mnimo por metro cuadrado que no alcanzan el 25 % de los pisos.
b) Si elegimos una muestra al azar de 10 pisos, hallar la probabilidad de que alguno
cueste m
as de 125 000 ptas/m2 .

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

259

7. Inferencia estadstica

c) En un estudio posterior (1997) se estudian 30 pisos al azar, obteniendose una media


de 105 000 ptas/m2 , con s = 10 000 ptas/m2 . Estudiar si es admisible, al nivel de
significaci
on = 00 1 que la varianza se ha mantenido.
d ) Analizar si puede admitirse que la media ha aumentado, con las mismas hipotesis del
apartado anterior.
22. Se quiere estudiar si la velocidad media de lectura es mayor en ambiente urbano que
en rural; para ello, se toma una muestra de 500 personas de tipo urbano, resultando en
palabras por minuto:
500
X

pi = 75000

i=1

500
X
i=1

p2i = 140 23 106

siendo pi el n
umero de palabras por minuto del individuo i-esimo, mientras que para una
muestra de 300 personas de ambiente rural, dieron unos resultados de:
300
X

pi = 43500

i=1

300
X
i=1

p2i = 60 83 106

Dar un intervalo de confianza para la diferencia de las velocidades medias en ambos ambientes.
23. Un metodo de depuraci
on de aguas residuales mediante tratamiento con cloro deja un
contenido medio de impurezas de 10 48 mg/m3 con = 00 13.
Un metodo alternativo con metano produce, mediante muestreo aleatorio simple, los siguientes resultados en dos sectores de una ciudad:
Sector A: Media=145
nA =10
sA =03
Sector B: Media=143
nB =20
sB =035
Contrastar si existen diferencias en media y varianza para la muestra total al nivel 00 1
entre el metodo con metano y el metodo con cloro.
Sugerencia: Calcular primero la media y cuasivarianza para el total de los 30 datos muestrales
24. La elasticidad del pl
astico puede variar dependiendo del proceso por el cual se prepara.
Para comparar la elasticidad del plastico producido por dos procesos diferentes se tomaron
seis muestras extradas de cada uno de los procesos, obteniendose los siguientes resultados:
Proceso A:
Proceso B:

61
92

92
81

87
69

75
79

90
65

73
90

a) Calcular dos intervalos de confianza al 95 %, uno para la elasticidad media y otro


para la varianza de los datos obtenidos en el proceso A. Interpretar los resultados.
b) Cuesti
on te
orica: Deseamos ser mas precisos en nuestras afirmaciones sobre la media y
varianza de la elasticidad de los plasticos fabricados de acuerdo al proceso A, es decir,
queremos ofrecer intervalos de confianza con menor amplitud. Que dos soluciones se
pueden plantear? Razonar la respuesta.
c) Presentan los datos suficiente evidencia para poder asegurar que existe diferencia
entre las elasticidades medias de los dos procesos? Usar = 00 05. Si la respuesta es
afirmativa, contrastar que proceso obtiene un plastico de mayor resistencia.

Apuntes de M
etodos Estadsticos para la Computaci
on

260

7.5. Relaci
on de problemas

d ) Obtener un intervalo de confianza al 95 % para la diferencia de las medias de elasticidad de los procesos. A la vista del intervalo calculado, que respuesta se puede dar
a la pregunta del apartado anterior? Comentarlo.
25. Los cientficos consideran que el benceno es un agente qumico que puede causar el cancer.
Diversos estudios han comprobado que la gente que trabaja con benceno durante mas de
5 a
nos, tiene 20 veces m
as probabilidad de contraer leucemia. Como resultado se impuso
una Ley para limitar el nivel medio de benceno en el ambiente de trabajo a un maximo
de 1 ppm.
Un estudio en una planta productora consiste en tomar 10 muestras del aire en periodos
de tiempo regulares (das sucesivos) obteniendose:
00 95 , 00 97 , 00 90 , 00 88 , 10 00 , 10 05 , 10 18 , 10 13 , 10 15 , 10 09
Estimar si debe aceptarse al 95 % la hipotesis de estar violando el lmite medio permitido.
Se podra afirmara lo mismo al 80 %? Por que?
26. El tiempo de respuesta de un ordenador se define como el tiempo que un usuario debe
esperar mientras el ordenador accede a la informacion en el disco. Suponga que un centro
de datos desea comparar los tiempos de respuesta de dos unidades de disco de ordenador.
Se seleccionaron muestras aleatorias independientes de 13 tiempos de respuesta para el
Disco 1 y 16 tiempos de respuesta para el Disco 2. A continuacion, se presentan los datos
registrados en milisegundos:
Disco 1:
Disco 2:

59
71

92
38

54
47

102
53

73
63

60
48

73
41

75
68

74
40

84
60

47
44

33
39

61
34

75

86

73

Se pide:
a) Calcular dos intervalos de confianza al 95 %, uno para el tiempo medio de respuesta y
otro para la varianza del tiempo de respuesta del Disco 1. Interpretar los resultados.
b) Cuesti
on te
orica: Deseamos ser mas precisos en nuestras afirmaciones sobre la media
y varianza del tiempo de respuesta, es decir, queremos ofrecer intervalos de confianza
de menor amplitud. Que dos soluciones se pueden plantear? Razonar la respuesta.
c) Contrastar si podemos considerar que los tiempos medios de respuesta de ambos
discos son iguales. Si no lo son, establecer la hipotesis y contrastar cual de ellos es
mas r
apido.
27. Pensamos que el porcentaje de piezas defectuosas fabricadas por una determinada maquina
es del 45 %. Para contrastar nuestra hipotesis se han seleccionado 25 piezas detectandose
entre ellas 16 defectuosas.
a) Est
abamos en lo cierto al 95 %? Y al 99 %?
b) Dar una explicaci
on si las respuestas a los apartados anteriores son distintas.
c) Si alguna respuesta es negativa, proponer una afirmacion sobre si el porcentaje real
es mayor o menor que lo que pensabamos y contrastar dicha afirmacion.

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

261

7. Inferencia estadstica

28. En 200 tiradas de una moneda, han salido 115 caras y 85 cruces. Contrastar la hip
otesis
de que la moneda es buena, con nivel de significacion (a) 00 05 y (b) 00 01. Utilice, en
primer lugar un contraste parametrico, y compare los resultados con los que se obtendran
utilizando un contraste no parametrico.
29. En 120 lanzamientos de un dado las distintas caras del dado han aparecido con frecuencias:
25, 17, 15, 23, 24 y 16. Constrastar al nivel 00 05 que el dado no esta trucado.
30. En 360 tiradas de un par de dados, han salido 80 sietes y 30 onces. Al nivel de significaci
on
del 00 05 contrastar que los dados no estan sesgados.
31. Para contrastar una hip
otesis no parametrica se ha realizado tres veces un mismo experi2
mento. Los valores de
son 20 37, 20 86 y 30 54 cada uno con un grado de libertad. Verificar
que aunque H0 no se puede rechazar al nivel 00 05 usando un u
nico experimento de los
anteriores, s se puede rechazar cuando se combinan los tres.
32. Se lanzan cinco monedas 1000 veces. Se considera oi el n
umero de veces que han salido i
caras en el experimento, resultando la sucesion
o0 = 38 ,

o1 = 144 ,

o2 = 342 ,

o3 = 287 ,

o4 = 164

y o5 = 25

Ajustar una distribuci


on binomial y contrastar la bondad del ajuste.
33. El n
umero de individuos que poseen los cuatro grupos sanguneos debe estar en las proporciones q 2 : p2 + 2pq : r2 + 2qr : 2pr, siendo p + q + r = 1. Dadas las frecuencias observadas
180, 360, 132 y 98, verificar la compatibilidad de los resultados con p = 00 4, q = 00 5 y
r = 00 1.
34. Las leyes de la herencia de Mendel predicen la aparicion de tipos de guisantes en la relaci
on
9 : 3 : 3 : 1 para las clases lisa y amarilla, lisa y verde, arrugada y amarilla, arrugada y
verde. En un experimento se obtuvieron, respectivamente, 315, 108, 101 y 32. A un nivel
de 00 05, coinciden los datos con la teora?
35. En un laboratorio se observ
o el n
umero de partculas que llegan a una determinada zona
procedentes de una sustancia radiactiva en un corto espacio de tiempo, siempre igual,
anot
andose los resultados en la siguiente tabla:
N
umero de partculas
N
umero de periodos de tiempo

0
120

1
200

2
140

3
20

4
10

5
2

a) Ajuste una distribuci


on de Poisson.
b) Calcule la probabilidad con que llegan.
c) Verifique si el ajuste es correcto mediante una 2 , con un nivel = 00 05.
36. En un examen de estadstica, se obtuvieron las siguientes calificaciones:
60, 70, 90, 85, 90, 50, 75, 90, 80, 70, 60, 75, 75, 75, 80, 60, 65, 60
90, 70, 60, 70, 65, 50, 85, 80, 90, 85, 80, 75, 50, 55, 60, 65, 70, 75
Comprobar si las calificaciones obtenidas se distribuyen seg
un una normal a un nivel 00 05.

Apuntes de M
etodos Estadsticos para la Computaci
on

262

7.5. Relaci
on de problemas

37. En un hospital se ensay


o la eficacia de cinco medicamentos en un grupo de pacientes, con
el objeto de determinar si al final del tratamiento un paciente determinado mejoraba o no.
Las observaciones que se encontraron estan anotadas en la siguiente tabla:
Tratamientos
N
umero de Pacientes
Pacientes mejorados

A
51
12

B
54
8

C
48
10

D
49
15

E
48
5

Total
250
50

Existe diferencia entre los diferentes medicamentos a un nivel de 00 05?


38. En un experimento con 164 personas resfriadas, se administro un medicamento a la mitad
de ellas y a la otra mitad se les dio una pldora de az
ucar. Con los datos de la siguiente
tabla, verificar la hip
otesis de que este medicamento no es mejor que la pldora de az
ucar
para curar los resfriados.
F
armaco
Az
ucar

Beneficiosa
50
42

Perjudicial
10
12

Sin efecto
22
28

39. Una fabrica de autom


oviles quiere averiguar si el sexo de sus posibles clientes tiene relacion
con la preferencia de modelo. Se toma una muestra de dos mil posibles clientes y se
clasifican as:
Sexo / Modelo
Mujer
Varon

A
340
350

B
400
270

C
260
380

Se puede decir que el sexo influye en el modelo elegido a un nivel = 00 01?


40. Una zapatera se abastece de cuatro fabricantes. Cada zapato es inspeccionado antes de
ponerlo en venta. Hay tres defectos diferentes que causaran la devolucion al fabricante.
En una muestra se encontraron los siguientes defectos:
Fabricante / Defecto
A
B
C
D

I
17
10
18
15

II
10
10
15
5

III
13
10
17
10

Se puede decir que los defectos son independientes del fabricante a un nivel = 00 01?
41. En dos ciudades A y B, se observo el color del pelo y de los ojos de sus habitantes,
encontranse las siguientes tablas:
Ojos / Pelo
Azul
No Azul

Rubio
47
31

No rubio
23
93

Ojos / Pelo
Azul
No azul

Rubio
54
42

No rubio
30
80

Se pide:
a) Hallar los coeficientes de contingencia de las dos ciudades.
b) En cu
al de las dos ciudades podemos afirmar que hay mayor dependencia entre el
color del pelo y de los ojos?

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

Apuntes de
ESTADISTICA

ANEXO
Tablas de los
Intervalos de confianza

Sixto Sanchez Merino


Dpto. de Matematica Aplicada
Universidad de Malaga

Mi agradecimiento al profesor Carlos Cerezo Casermeiro, por sus


correcciones y sugerencias en la elaboraci
on de estos apuntes.

Apuntes de Estadstica
2011, Sixto Sanchez Merino.
Este trabajo est
a editado con licencia Creative Commons del tipo:
Reconocimiento-No comercial-Compartir bajo la misma licencia 3.0 Espa
na.
Usted es libre de:
copiar, distribuir y comunicar p
ublicamente la obra.
hacer obras derivadas.
Bajo las condiciones siguientes:
Reconocimiento. Debe reconocer los creditos de la obra de la manera especificada
por el autor o el licenciador (pero no de una manera que sugiera que tiene su apoyo
o apoyan el uso que hace de su obra).
No comercial. No puede utilizar esta obra para fines comerciales.
Compartir bajo la misma licencia. Si altera o transforma esta obra, o genera
una obra derivada, s
olo puede distribuir la obra generada bajo una licencia identica
a esta.
Al reutilizar o distribuir la obra, tiene que dejar bien claro los terminos de la licencia de
esta obra.
Alguna de estas condiciones puede no aplicarse si se obtiene el permiso del titular de los
derechos de autor.
Nada en esta licencia menoscaba o restringe los derechos morales del autor.

Anexo A

Tablas de intervalos de confianza


Intervalos de confianza para la media de una distribuci
on normal N (, )
Varianza
Conocida


I= x
+
z/2 n

Varianza desconocida
Muestras grandes
Muestras peque
nas
n > 30
n 30


s
+
I= x
z/2
n

s
I= x
+
t/2,n1 n

Intervalo de confianza para la varianza 2 de una distribuci


on normal N (, )
"

(n 1)s2 (n 1)s2
I=
,
2/2,n1 21 ,n1)
2

Intervalo de confianza para el par


ametro p de una distribuci
on binominal
B(n, p)
"

I = p +
z/2

p(1 p)
n

Intervalo de confianza para el par


ametro de una distribuci
on de Poisson P ()
s

+ z/2
I =

265

266

Intervalo de confianza para la diferencia de medias (1 2 ) de dos distribuciones normales N (1 , 1 ) y N (2 , 2 )


Varianzas

Muestras

Varianzas

Intervalo

I = (
x1 x
2 ) +
z/2

Conocidas

grandes

I = (
x1 x
2 ) +
z/2

n1 +n2 > 30
n1 ' n2
Desconocidas

12
n1

22
n2

s21
s22
+
n1 n2

r


1
1
+
I = (
x1 x
2 ) t/2,n1 +n2 2 sp
+
n1 n2

Iguales
Peque
nas
n1 +n2 30

I = (
x1 x
2 ) +
t/2,f

Distintas

s21
n1

s22
n2

donde

2
s21 /n1 + s22 /n2
y
f=
2 2
2
s22 /n2
s21 /n1
+
n1 + 1
n2 + 1
son respectivamente la media ponderada de las varianzas muestrales y la aproximacion de Welch.
s2p

(n1 1)s21 + (n2 1)s22


=
n1 + n2 2

Intervalo de confianza para la raz


on de varianzas 12 /22 de dos poblaciones
normales N (1 , 1 ) y N (2 , 2 )

I=

"

s21 /s22

s21 /s22

,
F/2;n11,n21 F1 2 ;n11,n21

Intervalo de confianza para la diferencia de par


ametros (p1 p2 ) de dos distribuciones binomiales B(n1 , p1 ) y B(n2 , p2 )

I = p1 p2 +
z/2

p1 (1 p1 ) p2 (1 p2 )
+
n1
n2

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

Apuntes de
ESTADISTICA

ANEXO
Tablas de los
Contrastes de hip
otesis

Sixto Sanchez Merino


Dpto. de Matematica Aplicada
Universidad de Malaga

Mi agradecimiento al profesor Carlos Cerezo Casermeiro, por sus


correcciones y sugerencias en la elaboraci
on de estos apuntes.

Apuntes de Estadstica
2011, Sixto Sanchez Merino.
Este trabajo est
a editado con licencia Creative Commons del tipo:
Reconocimiento-No comercial-Compartir bajo la misma licencia 3.0 Espa
na.
Usted es libre de:
copiar, distribuir y comunicar p
ublicamente la obra.
hacer obras derivadas.
Bajo las condiciones siguientes:
Reconocimiento. Debe reconocer los creditos de la obra de la manera especificada
por el autor o el licenciador (pero no de una manera que sugiera que tiene su apoyo
o apoyan el uso que hace de su obra).
No comercial. No puede utilizar esta obra para fines comerciales.
Compartir bajo la misma licencia. Si altera o transforma esta obra, o genera
una obra derivada, s
olo puede distribuir la obra generada bajo una licencia identica
a esta.
Al reutilizar o distribuir la obra, tiene que dejar bien claro los terminos de la licencia de
esta obra.
Alguna de estas condiciones puede no aplicarse si se obtiene el permiso del titular de los
derechos de autor.
Nada en esta licencia menoscaba o restringe los derechos morales del autor.

Anexo B

Tablas de contrastes de hip


otesis
(regiones de rechazo)
Contraste de hip
otesis para la media ( = 0 ) de una poblaci
on normal N (, )

Varianza

Muestras

conocida

desconocida

grandes

H0 : 0

H0 : = 0

H0 : 0

Ha : < 0

Ha : 6= 0

Ha : > 0

x
0
< z
/ n

|
x 0 |
> z/2
/ n

x
0
> z
/ n

x
0
< z
s/ n

|
x 0 |
> z/2
s/ n

x
0
> z
s/ n

x
0
< t,n1
s/ n

|
x 0 |
> t/2,n1
s/ n

x
0
> t,n1
s/ n

n > 30
desconocida

peque
nas
n 30

Contraste de hip
otesis para la varianza ( 2 = 02 ) de una poblaci
on normal
N (, )
H0 : 2 02

H0 : 2 = 02

H0 : 2 02

Ha : 2 < 02

Ha : 2 6= 02

Ha : 2 > 02

(n 1)s2
< 21,n1
02

i
(n 1)s2 h 2
2

1 2 ,n1
,n1
2
02

(n 1)s2
> 2,n1
02

269

270

Contraste de hip
otesis de la igualdad de medias (1 = 2 ) de dos poblaciones
normales N (1 , 1 ) y N (2 , 2 ) de varianzas 12 y 22 conocidas

H0 : 1 2

H0 : 1 = 2

H0 : 1 2

Ha : 1 < 2

Ha : 1 6= 2

Ha : 1 > 2

x
x
2
s1
< z
2
2

1
+ 2
n1 n2

|
x x
2 |
s1
> z/2
2
2

1
+ 2
n1 n2

x
x
2
s1
> z
2
2

1
+ 2
n1 n2

Contraste de hip
otesis de la igualdad de medias (1 = 2 ) de dos poblaciones
normales N (1 , 1 ) y N (2 , 2 ) de varianzas 12 y 22 desconocidas para muestras
grandes (n1 + n2 > 30, n1 ' n2 )

H0 : 1 2

H0 : 1 = 2

H0 : 1 2

Ha : 1 < 2

Ha : 1 6= 2

Ha : 1 > 2

x
x
2
s1
< z
s21
s22
+
n1 n2

|
x x
2 |
s1
> z/2
s21
s22
+
n1 n2

x
x
2
s1
> z
s21
s22
+
n1 n2

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

271

B. Tablas de contrastes de hip


otesis (regiones de rechazo)

Contraste de hip
otesis de la igualdad de medias (1 = 2 ) de dos poblaciones
normales N (1 , 1 ) y N (2 , 2 ) de varianzas 12 y 22 desconocidas pero iguales
(12 = 22 ) para muestras peque
nas (n1 + n2 30)

H0 : 1 2

H0 : 1 = 2

H0 : 1 2

Ha : 1 < 2

Ha : 1 6= 2

Ha : 1 > 2

x
x
2
r1
< t,n1 +n2 2
1
1
sp
+
n1 n2

|
x x
2 |
r1
> t 2 ,n1 +n2 2
1
1
sp
+
n 1 n2

x
x
2
r1
> t,n1 +n2 2
1
1
sp
+
n1 n2

donde

(n1 1)s21 + (n2 1)s22


n1 + n2 2
es la media ponderada de las cuasivarianzas muestrales.
s2p =

Contraste de hip
otesis de la igualdad de medias (1 = 2 ) de dos poblaciones
normales N (1 , 1 ) y N (2 , 2 ) de varianzas 12 y 22 desconocidas y distintas
(12 6= 22 ) para muestras peque
nas (n1 + n2 30)

H0 : 1 2

H0 : 1 = 2

H0 : 1 2

Ha : 1 < 2

Ha : 1 6= 2

Ha : 1 > 2

x
x
2
s1
< t,f
s21
s22
+
n1 n2

|
x x
2 |
s1
> t/2,f
s21
s22
+
n1 n2

x
x
2
s1
> t,f
s21
s22
+
n1 n2

donde

es la aproximaci
on de Welch.

2
s21 /n1 + s22 /n2
f=
2
2 2
s21 /n1
s22 /n2
+
n1 + 1
n2 + 1

Apuntes de M
etodos Estadsticos para la Computaci
on

272

Contraste de hip
otesis de la igualdad de varianzas (12 = 22 ) de dos poblaciones
normales N (1 , 1 ) y N (2 , 2 )

H0 : 12 22

H0 : 12 = 22

H0 : 12 22

Ha : 12 < 22

Ha : 12 6= 22

Ha : 12 > 22

s21
< F1;n11,n21
s22

s21

/ [F1 2 ;n11,n21 , F 2 ;n11,n21]


s22

s21
> F;n11,n21]
s22

Contraste de hip
otesis para el par
ametro p de una distribuci
on binomial B(n, p)

H0 : p p0

H0 : p = p0

H0 : p p0

Ha : p < p0

Ha : p 6= p0

Ha : p > p0

p p0

p(1 p)
n

< z

|
p p0 |
r
> z/2
p(1 p)
n

p p0

p(1 p)
n

> z

Contraste de hip
otesis para la igualdad de los par
ametros (p1 = p2 ) de dos
distribuciones binomiales B1 (n1 , p1 ) y B2 (n2 , p2 ) para muestras grandes

H0 : p1 p2

H0 : p1 = p2

H0 : p1 p2

Ha : p1 < p2

Ha : p1 6= p2

Ha : p1 > p2

p1 p2
p1 (1 p1 ) p2 (1 p2 )
+
n1
n2

< z

|
p1 p2 |

> z /2

p1 (1 p1 ) p2 (1 p2 )
+
n1
n2

Dpto. Matem
atica Aplicada (Universidad de M
alaga)

p1 p2
p1 (1 p1 ) p2 (1 p2 )
+
n1
n2

> z

Apuntes de
ESTADISTICA

ANEXO
Tablas de las
Distribuciones de probabilidad

Sixto Sanchez Merino


Dpto. de Matematica Aplicada
Universidad de Malaga

Mi agradecimiento al profesor Carlos Cerezo Casermeiro y Carlos


Guerrero Garca, por sus correcciones y sugerencias en la elaboraci
on de estos apuntes.

Apuntes de Estadstica
2011, Sixto Sanchez Merino.
Este trabajo est
a editado con licencia Creative Commons del tipo:
Reconocimiento-No comercial-Compartir bajo la misma licencia 3.0 Espa
na.
Usted es libre de:
copiar, distribuir y comunicar p
ublicamente la obra.
hacer obras derivadas.
Bajo las condiciones siguientes:
Reconocimiento. Debe reconocer los creditos de la obra de la manera especificada
por el autor o el licenciador (pero no de una manera que sugiera que tiene su apoyo
o apoyan el uso que hace de su obra).
No comercial. No puede utilizar esta obra para fines comerciales.
Compartir bajo la misma licencia. Si altera o transforma esta obra, o genera
una obra derivada, s
olo puede distribuir la obra generada bajo una licencia identica
a esta.
Al reutilizar o distribuir la obra, tiene que dejar bien claro los terminos de la licencia de
esta obra.
Alguna de estas condiciones puede no aplicarse si se obtiene el permiso del titular de los
derechos de autor.
Nada en esta licencia menoscaba o restringe los derechos morales del autor.

Anexo C

Tablas de las distribuciones de


probabilidad
En este anexo se incluyen las tablas de las distribuciones de probabilidad mas usuales.

275

Distribucion Binomial B(n, p)


 
n k
b(n, k, p) =
p (1 p)nk
k
p
n

0,01

0,05

0,10

0,15

0,20

0,25

0,30

1/3

0,35

0,40

0,45

0,49

0,50

2
2
2
3
3
3
3
4
4
4
4
4
5
5
5
5
5
5
6
6
6
6
6
6
6
7
7
7
7
7
7
7
7
8
8
8
8
8
8
8
8
8
9
9
9
9
9
9
9
9
9
9
10
10
10
10
10
10
10
10
10
10
10

0
1
2
0
1
2
3
0
1
2
3
4
0
1
2
3
4
5
0
1
2
3
4
5
6
0
1
2
3
4
5
6
7
0
1
2
3
4
5
6
7
8
0
1
2
3
4
5
6
7
8
9
0
1
2
3
4
5
6
7
8
9
10

0,9801
0,0198
0,0001
0,9703
0,0294
0,0003
0,0000
0,9606
0,0388
0,0006
0,0000
0,0000
0,9510
0,0480
0,0010
0,0000
0,0000
0,0000
0,9415
0,0571
0,0014
0,0000
0,0000
0,0000
0,0000
0,9321
0,0659
0,0020
0,0000
0,0000
0,0000
0,0000
0,0000
0,9227
0,0746
0,0026
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,9135
0,0830
0,0034
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,9044
0,0914
0,0042
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000

0,9025
0,0950
0,0025
0,8574
0,1354
0,0071
0,0001
0,8145
0,1715
0,0135
0,0005
0,0000
0,7738
0,2036
0,0214
0,0011
0,0000
0,0000
0,7351
0,2321
0,0305
0,0021
0,0001
0,0000
0,0000
0,6983
0,2573
0,0406
0,0036
0,0002
0,0000
0,0000
0,0000
0,6634
0,2793
0,0515
0,0054
0,0004
0,0000
0,0000
0,0000
0,0000
0,6302
0,2985
0,0629
0,0077
0,0006
0,0000
0,0000
0,0000
0,0000
0,0000
0,5987
0,3151
0,0746
0,0105
0,0010
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000

0,8100
0,1800
0,0100
0,7290
0,2430
0,0270
0,0010
0,6561
0,2916
0,0486
0,0036
0,0001
0,5905
0,3281
0,0729
0,0081
0,0005
0,0000
0,5314
0,3543
0,0984
0,0146
0,0012
0,0001
0,0000
0,4783
0,3720
0,1240
0,0230
0,0026
0,0002
0,0000
0,0000
0,4305
0,3826
0,1488
0,0331
0,0046
0,0004
0,0000
0,0000
0,0000
0,3874
0,3874
0,1722
0,0446
0,0074
0,0008
0,0001
0,0000
0,0000
0,0000
0,3487
0,3874
0,1937
0,0574
0,0112
0,0015
0,0001
0,0000
0,0000
0,0000
0,0000

0,7225
0,2550
0,0225
0,6141
0,3251
0,0574
0,0034
0,5220
0,3685
0,0975
0,0115
0,0005
0,4437
0,3915
0,1382
0,0244
0,0022
0,0001
0,3771
0,3993
0,1762
0,0415
0,0055
0,0004
0,0000
0,3206
0,3960
0,2097
0,0617
0,0109
0,0012
0,0001
0,0000
0,2725
0,3847
0,2376
0,0839
0,0185
0,0026
0,0002
0,0000
0,0000
0,2316
0,3679
0,2597
0,1069
0,0283
0,0050
0,0006
0,0000
0,0000
0,0000
0,1969
0,3474
0,2759
0,1298
0,0401
0,0085
0,0012
0,0001
0,0000
0,0000
0,0000

0,6400
0,3200
0,0400
0,5120
0,3840
0,0960
0,0080
0,4096
0,4096
0,1536
0,0256
0,0016
0,3277
0,4096
0,2048
0,0512
0,0064
0,0003
0,2621
0,3932
0,2458
0,0819
0,0154
0,0015
0,0001
0,2097
0,3670
0,2753
0,1147
0,0287
0,0043
0,0004
0,0000
0,1678
0,3355
0,2936
0,1468
0,0459
0,0092
0,0011
0,0001
0,0000
0,1342
0,3020
0,3020
0,1762
0,0661
0,0165
0,0028
0,0003
0,0000
0,0000
0,1074
0,2684
0,3020
0,2013
0,0881
0,0264
0,0055
0,0008
0,0001
0,0000
0,0000

0,5625
0,3750
0,0625
0,4219
0,4219
0,1406
0,0156
0,3164
0,4219
0,2109
0,0469
0,0039
0,2373
0,3955
0,2637
0,0879
0,0146
0,0010
0,1780
0,3560
0,2966
0,1318
0,0330
0,0044
0,0002
0,1335
0,3115
0,3115
0,1730
0,0577
0,0115
0,0013
0,0001
0,1001
0,2670
0,3115
0,2076
0,0865
0,0231
0,0038
0,0004
0,0000
0,0751
0,2253
0,3003
0,2336
0,1168
0,0389
0,0087
0,0012
0,0001
0,0000
0,0563
0,1877
0,2816
0,2503
0,1460
0,0584
0,0162
0,0031
0,0004
0,0000
0,0000

0,4900
0,4200
0,0900
0,3430
0,4410
0,1890
0,0270
0,2401
0,4116
0,2646
0,0756
0,0081
0,1681
0,3602
0,3087
0,1323
0,0284
0,0024
0,1176
0,3025
0,3241
0,1852
0,0595
0,0102
0,0007
0,0824
0,2471
0,3177
0,2269
0,0972
0,0250
0,0036
0,0002
0,0576
0,1977
0,2965
0,2541
0,1361
0,0467
0,0100
0,0012
0,0001
0,0404
0,1556
0,2668
0,2668
0,1715
0,0735
0,0210
0,0039
0,0004
0,0000
0,0282
0,1211
0,2335
0,2668
0,2001
0,1029
0,0368
0,0090
0,0014
0,0001
0,0000

0,4444
0,4444
0,1111
0,2963
0,4444
0,2222
0,0370
0,1975
0,3951
0,2963
0,0988
0,0123
0,1317
0,3292
0,3292
0,1646
0,0412
0,0041
0,0878
0,2634
0,3292
0,2195
0,0823
0,0165
0,0014
0,0585
0,2048
0,3073
0,2561
0,1280
0,0384
0,0064
0,0005
0,0390
0,1561
0,2731
0,2731
0,1707
0,0683
0,0171
0,0024
0,0002
0,0260
0,1171
0,2341
0,2731
0,2048
0,1024
0,0341
0,0073
0,0009
0,0001
0,0173
0,0867
0,1951
0,2601
0,2276
0,1366
0,0569
0,0163
0,0030
0,0003
0,0000

0,4225
0,4550
0,1225
0,2746
0,4436
0,2389
0,0429
0,1785
0,3845
0,3105
0,1115
0,0150
0,1160
0,3124
0,3364
0,1811
0,0488
0,0053
0,0754
0,2437
0,3280
0,2355
0,0951
0,0205
0,0018
0,0490
0,1848
0,2985
0,2679
0,1442
0,0466
0,0084
0,0006
0,0319
0,1373
0,2587
0,2786
0,1875
0,0808
0,0217
0,0033
0,0002
0,0207
0,1004
0,2162
0,2716
0,2194
0,1181
0,0424
0,0098
0,0013
0,0001
0,0135
0,0725
0,1757
0,2522
0,2377
0,1536
0,0689
0,0212
0,0043
0,0005
0,0000

0,3600
0,4800
0,1600
0,2160
0,4320
0,2880
0,0640
0,1296
0,3456
0,3456
0,1536
0,0256
0,0778
0,2592
0,3456
0,2304
0,0768
0,0102
0,0467
0,1866
0,3110
0,2765
0,1382
0,0369
0,0041
0,0280
0,1306
0,2613
0,2903
0,1935
0,0774
0,0172
0,0016
0,0168
0,0896
0,2090
0,2787
0,2322
0,1239
0,0413
0,0079
0,0007
0,0101
0,0605
0,1612
0,2508
0,2508
0,1672
0,0743
0,0212
0,0035
0,0003
0,0060
0,0403
0,1209
0,2150
0,2508
0,2007
0,1115
0,0425
0,0106
0,0016
0,0001

0,3025
0,4950
0,2025
0,1664
0,4084
0,3341
0,0911
0,0915
0,2995
0,3675
0,2005
0,0410
0,0503
0,2059
0,3369
0,2757
0,1128
0,0185
0,0277
0,1359
0,2780
0,3032
0,1861
0,0609
0,0083
0,0152
0,0872
0,2140
0,2918
0,2388
0,1172
0,0320
0,0037
0,0084
0,0548
0,1569
0,2568
0,2627
0,1719
0,0703
0,0164
0,0017
0,0046
0,0339
0,1110
0,2119
0,2600
0,2128
0,1160
0,0407
0,0083
0,0008
0,0025
0,0207
0,0763
0,1665
0,2384
0,2340
0,1596
0,0746
0,0229
0,0042
0,0003

0,2601
0,4998
0,2401
0,1327
0,3823
0,3674
0,1176
0,0677
0,2600
0,3747
0,2400
0,0576
0,0345
0,1657
0,3185
0,3060
0,1470
0,0282
0,0176
0,1014
0,2436
0,3121
0,2249
0,0864
0,0138
0,0090
0,0604
0,1740
0,2786
0,2676
0,1543
0,0494
0,0068
0,0046
0,0352
0,1183
0,2273
0,2730
0,2098
0,1008
0,0277
0,0033
0,0023
0,0202
0,0776
0,1739
0,2506
0,2408
0,1542
0,0635
0,0153
0,0016
0,0012
0,0114
0,0494
0,1267
0,2130
0,2456
0,1966
0,1080
0,0389
0,0083
0,0008

0,2500
0,5000
0,2500
0,1250
0,3750
0,3750
0,1250
0,0625
0,2500
0,3750
0,2500
0,0625
0,0313
0,1563
0,3125
0,3125
0,1563
0,0313
0,0156
0,0938
0,2344
0,3125
0,2344
0,0938
0,0156
0,0078
0,0547
0,1641
0,2734
0,2734
0,1641
0,0547
0,0078
0,0039
0,0313
0,1094
0,2188
0,2734
0,2188
0,1094
0,0313
0,0039
0,0020
0,0176
0,0703
0,1641
0,2461
0,2461
0,1641
0,0703
0,0176
0,0020
0,0010
0,0098
0,0439
0,1172
0,2051
0,2461
0,2051
0,1172
0,0439
0,0098
0,0010

Distribucion de Poisson P ()
Poisson

P (X = k) =

k
e
k!

0,1
0,2
0,3
0,4
0,5

0,9048
0,8187
0,7408
0,6703
0,6065

0,0905
0,1637
0,2222
0,2681
0,3033

0,0045
0,0164
0,0333
0,0536
0,0758

0,0002
0,0011
0,0033
0,0072
0,0126

0,0000
0,0001
0,0003
0,0007
0,0016

0,0000
0,0000
0,0001 0,0000
0,0002 0,0000

0,6
0,7
0,8
0,9
1,0

0,5488
0,4966
0,4493
0,4066
0,3679

0,3293
0,3476
0,3595
0,3659
0,3679

0,0988
0,1217
0,1438
0,1647
0,1839

0,0198
0,0284
0,0383
0,0494
0,0613

0,0030
0,0050
0,0077
0,0111
0,0153

0,0004
0,0007
0,0012
0,0020
0,0031

0,0000
0,0001
0,0002
0,0003
0,0005

0,0000
0,0000
0,0000
0,0001 0,0000

1,1
1,2
1,3
1,4
1,5

0,3329
0,3012
0,2725
0,2466
0,2231

0,3662
0,3614
0,3543
0,3452
0,3347

0,2014
0,2169
0,2303
0,2417
0,2510

0,0738
0,0867
0,0998
0,1128
0,1255

0,0203
0,0260
0,0324
0,0395
0,0471

0,0045
0,0062
0,0084
0,0111
0,0141

0,0008
0,0012
0,0018
0,0026
0,0035

0,0001
0,0002
0,0003
0,0005
0,0008

0,0000
0,0000
0,0001 0,0000
0,0001 0,0000
0,0001 0,0000

1,6
1,7
1,8
1,9
2,0

0,2019
0,1827
0,1653
0,1496
0,1353

0,3230
0,3106
0,2975
0,2842
0,2707

0,2584
0,2640
0,2678
0,2700
0,2707

0,1378
0,1496
0,1607
0,1710
0,1804

0,0551
0,0636
0,0723
0,0812
0,0902

0,0176
0,0216
0,0260
0,0309
0,0361

0,0047
0,0061
0,0078
0,0098
0,0120

0,0011
0,0015
0,0020
0,0027
0,0034

0,0002
0,0003
0,0005
0,0006
0,0009

0,0000
0,0001
0,0001
0,0001
0,0002

0,0000
0,0000
0,0000
0,0000

2,2
2,4
2,6
2,8
3,0

0,1108
0,0907
0,0743
0,0608
0,0498

0,2438
0,2177
0,1931
0,1703
0,1494

0,2681
0,2613
0,2510
0,2384
0,2240

0,1966
0,2090
0,2176
0,2225
0,2240

0,1082
0,1254
0,1414
0,1557
0,1680

0,0476
0,0602
0,0735
0,0872
0,1008

0,0174
0,0241
0,0319
0,0407
0,0504

0,0055
0,0083
0,0118
0,0163
0,0216

0,0015
0,0025
0,0038
0,0057
0,0081

0,0004
0,0007
0,0011
0,0018
0,0027

0,0001
0,0002
0,0003
0,0005
0,0008

0,0000
0,0000
0,0001 0,0000
0,0001 0,0000
0,0002 0,0001

3,2
3,4
3,6
3,8
4,0

0,0408
0,0334
0,0273
0,0224
0,0183

0,1304
0,1135
0,0984
0,0850
0,0733

0,2087
0,1929
0,1771
0,1615
0,1465

0,2226
0,2186
0,2125
0,2046
0,1954

0,1781
0,1858
0,1912
0,1944
0,1954

0,1140
0,1264
0,1377
0,1477
0,1563

0,0608
0,0716
0,0826
0,0936
0,1042

0,0278
0,0348
0,0425
0,0508
0,0595

0,0111
0,0148
0,0191
0,0241
0,0298

0,0040
0,0056
0,0076
0,0102
0,0132

0,0013
0,0019
0,0028
0,0039
0,0053

0,0004
0,0006
0,0009
0,0013
0,0019

0,0001
0,0002
0,0003
0,0004
0,0006

5,0
6,0
7,0
8,0
9,0
10,0

0,0067
0,0025
0,0009
0,0003
0,0001
0,0000

0,0337
0,0149
0,0064
0,0027
0,0011
0,0005

0,0842
0,0446
0,0223
0,0107
0,0050
0,0023

0,1404
0,0892
0,0521
0,0286
0,0150
0,0076

0,1755
0,1339
0,0912
0,0573
0,0337
0,0189

0,1755
0,1606
0,1277
0,0916
0,0607
0,0378

0,1462
0,1606
0,1490
0,1221
0,0911
0,0631

0,1044
0,1377
0,1490
0,1396
0,1171
0,0901

0,0653
0,1033
0,1304
0,1396
0,1318
0,1126

0,0363
0,0688
0,1014
0,1241
0,1318
0,1251

0,0181
0,0413
0,0710
0,0993
0,1186
0,1251

0,0082
0,0225
0,0452
0,0722
0,0970
0,1137

0,0034
0,0113
0,0263
0,0481
0,0728
0,0948

13

14

15

16

17

18

19

20

21

22

23

24

25

0,0013
0,0052
0,0142
0,0296
0,0504
0,0729

0,0005
0,0022
0,0071
0,0169
0,0324
0,0521

0,0002
0,0009
0,0033
0,0090
0,0194
0,0347

0,0000
0,0003
0,0014
0,0045
0,0109
0,0217

0,0001
0,0006
0,0021
0,0058
0,0128

0,0000
0,0002
0,0009
0,0029
0,0071

0,0001
0,0004
0,0014
0,0037

5,0
6,0
7,0
8,0
9,0
10,0

Pgina 1

10

11

12

0,0000
0,0002 0,0001 0,0000
0,0006 0,0003 0,0001 0,0000
0,0019 0,0009 0,0004 0,0002 0,0001 0,0000

Distribucion Normal N (0, 1)


Normal

Za

0,0
0,1
0,2
0,3
0,4

0,00
0,5000
0,4602
0,4207
0,3821
0,3446

0,01
0,4960
0,4562
0,4168
0,3783
0,3409

0,02
0,4920
0,4522
0,4129
0,3745
0,3372

0,03
0,4880
0,4483
0,4090
0,3707
0,3336

0,04
0,4840
0,4443
0,4052
0,3669
0,3300

0,05
0,4801
0,4404
0,4013
0,3632
0,3264

0,06
0,4761
0,4364
0,3974
0,3594
0,3228

0,07
0,4721
0,4325
0,3936
0,3557
0,3192

0,08
0,4681
0,4286
0,3897
0,3520
0,3156

0,09
0,4641
0,4247
0,3859
0,3483
0,3121

0,5
0,6
0,7
0,8
0,9

0,3085
0,2743
0,2420
0,2119
0,1841

0,3050
0,2709
0,2389
0,2090
0,1814

0,3015
0,2676
0,2358
0,2061
0,1788

0,2981
0,2643
0,2327
0,2033
0,1762

0,2946
0,2611
0,2296
0,2005
0,1736

0,2912
0,2578
0,2266
0,1977
0,1711

0,2877
0,2546
0,2236
0,1949
0,1685

0,2843
0,2514
0,2206
0,1922
0,1660

0,2810
0,2483
0,2177
0,1894
0,1635

0,2776
0,2451
0,2148
0,1867
0,1611

1,0
1,1
1,2
1,3
1,4

0,1587
0,1357
0,1151
0,0968
0,0808

0,1562
0,1335
0,1131
0,0951
0,0793

0,1539
0,1314
0,1112
0,0934
0,0778

0,1515
0,1292
0,1093
0,0918
0,0764

0,1492
0,1271
0,1075
0,0901
0,0749

0,1469
0,1251
0,1056
0,0885
0,0735

0,1446
0,1230
0,1038
0,0869
0,0721

0,1423
0,1210
0,1020
0,0853
0,0708

0,1401
0,1190
0,1003
0,0838
0,0694

0,1379
0,1170
0,0985
0,0823
0,0681

1,5
1,6
1,7
1,8
1,9

0,0668
0,0548
0,0446
0,0359
0,0287

0,0655
0,0537
0,0436
0,0351
0,0281

0,0643
0,0526
0,0427
0,0344
0,0274

0,0630
0,0516
0,0418
0,0336
0,0268

0,0618
0,0505
0,0409
0,0329
0,0262

0,0606
0,0495
0,0401
0,0322
0,0256

0,0594
0,0485
0,0392
0,0314
0,0250

0,0582
0,0475
0,0384
0,0307
0,0244

0,0571
0,0465
0,0375
0,0301
0,0239

0,0559
0,0455
0,0367
0,0294
0,0233

2,0
2,1
2,2
2,3
2,4

0,0228
0,0179
0,0139
0,0107
0,0082

0,0222
0,0174
0,0136
0,0104
0,0080

0,0217
0,0170
0,0132
0,0102
0,0078

0,0212
0,0166
0,0129
0,0099
0,0075

0,0207
0,0162
0,0125
0,0096
0,0073

0,0202
0,0158
0,0122
0,0094
0,0071

0,0197
0,0154
0,0119
0,0091
0,0069

0,0192
0,0150
0,0116
0,0089
0,0068

0,0188
0,0146
0,0113
0,0087
0,0066

0,0183
0,0143
0,0110
0,0084
0,0064

2,5
2,6
2,7
2,8
2,9

0,0062
0,0047
0,0035
0,0026
0,0019

0,0060
0,0045
0,0034
0,0025
0,0018

0,0059
0,0044
0,0033
0,0024
0,0018

0,0057
0,0043
0,0032
0,0023
0,0017

0,0055
0,0041
0,0031
0,0023
0,0016

0,0054
0,0040
0,0030
0,0022
0,0016

0,0052
0,0039
0,0029
0,0021
0,0015

0,0051
0,0038
0,0028
0,0021
0,0015

0,0049
0,0037
0,0027
0,0020
0,0014

0,0048
0,0036
0,0026
0,0019
0,0014

0,00

0,10

0,20

0,30

0,40

0,50

0,60

0,70

0,80

0,90

3
4
5
6

1,35E-03 9,68E-04 6,87E-04 4,83E-04 3,37E-04 2,33E-04 1,59E-04 1,08E-04 7,24E-05 4,81E-05
3,17E-05 2,07E-05 1,34E-05 8,55E-06 5,42E-06 3,40E-06 2,11E-06 1,30E-06 7,94E-07 4,80E-07
2,87E-07 1,70E-07 9,98E-08 5,80E-08 3,34E-08 1,90E-08 1,07E-08 6,01E-09 3,33E-09 1,82E-09
9,90E-10 5,32E-10 2,83E-10 1,49E-10 7,80E-11 4,04E-11 2,07E-11 1,05E-11 5,26E-12 2,62E-12

Pgina 1

Distribucion 2
J \,X}

Chi-2

(,

n\

1
2
3
4
5

0,995

0,99

0,98

0,975

0,95

0,90

0,10

0,05

0,025

0,02

0,01

3,927E-05 1,571E-04 6,285E-04 9,821E-04

0,0039

0,0158

3,841
5,991
7,815
9,488
11,070

5,024
7,378
9,348
11,143
12,833

5,412
7,824
9,837
11,668
13,388

6,635
9,210
11,345
13,277
15,086

0,0100

0,0201

0,0404

0,0506

0,072
0,207
0,412

0,115
0,297
0,554

0,185
0,429
0,752

0,216
0,484
0,831

0,103
0,352
0,711
1,145

0,211
0,584
1,064
1,610

2,706
4,605
6,251
7,779
9,236

6
7
8
9
10

0,676
0,989
1,344
1,735
2,156

0,872
1,239
1,646
2,088
2,558

1,134
1,564
2,032
2,532
3,059

1,237
1,690
2,180
2,700
3,247

1,635
2,167
2,733
3,325
3,940

2,204
2,833
3,490
4,168
4,865

10,645
12,017
13,362
14,684
15,987

12,592
14,067
15,507
16,919
18,307

14,449
16,013
17,535
19,023
20,483

15,033
16,622
18,168
19,679
21,161

16,812
18,475
20,090
21,666
23,209

11
12
13
14
15

2,603
3,074
3,565
4,075
4,601

3,053
3,571
4,107
4,660
5,229

3,609
4,178
4,765
5,368
5,985

3,816
4,404
5,009
5,629
6,262

4,575
5,226
5,892
6,571
7,261

5,578
6,304
7,042
7,790
8,547

17,275
18,549
19,812
21,064
22,307

19,675
21,026
22,362
23,685
24,996

21,920
23,337
24,736
26,119
27,488

22,618
24,054
25,472
26,873
28,259

24,725
26,217
27,688
29,141
30,578

16
17
18
19
20

5,142
5,697
6,265
6,844
7,434

5,812
6,408
7,015
7,633
8,260

6,614
7,255
7,906
8,567
9,237

6,908
7,564
8,231
8,907
9,591

7,962
8,672
9,390
10,117
10,851

9,312
10,085
10,865
11,651
12,443

23,542
24,769
25,989
27,204
28,412

26,296
27,587
28,869
30,144
31,410

28,845
30,191
31,526
32,852
34,170

29,633
30,995
32,346
33,687
35,020

32,000
33,409
34,805
36,191
37,566

21
22
23
24
25

8,034
8,643
9,260
9,886
10,520

8,897
9,542
10,196
10,856
11,524

9,915
10,600
11,293
11,992
12,697

10,283
10,982
11,689
12,401
13,120

11,591
12,338
13,091
13,848
14,611

13,240
14,041
14,848
15,659
16,473

29,615
30,813
32,007
33,196
34,382

32,671
33,924
35,172
36,415
37,652

35,479
36,781
38,076
39,364
40,646

36,343
37,659
38,968
40,270
41,566

38,932
40,289
41,638
42,980
44,314

26
27
28
29
30

11,160
11,808
12,461
13,121
13,787

12,198
12,879
13,565
14,256
14,953

13,409
14,125
14,847
15,574
16,306

13,844
14,573
15,308
16,047
16,791

15,379
16,151
16,928
17,708
18,493

17,292
18,114
18,939
19,768
20,599

35,563
36,741
37,916
39,087
40,256

38,885
40,113
41,337
42,557
43,773

41,923
43,195
44,461
45,722
46,979

42,856
44,140
45,419
46,693
47,962

45,642
46,963
48,278
49,588
50,892

Distribucion t de Student
t(x)

T-Student

n\

0,40

0,30

0,20

0,10

0,050

0,025

0,010

0,005

0,001

0,0005

1
2
3
4

0,325
0,289
0,277
0,271

0,727
0,617
0,584
0,569

1,376
1,061
0,978
0,941

3,078
1,886
1,638
1,533

6,314
2,920
2,353
2,132

12,71
4,303
3,182
2,776

31,82
6,965
4,541
3,747

63,66
9,925
5,841
4,604

318,3
22,33
10,21
7,173

636,6
31,60
12,92
8,610

5
6
7
8
9

0,267
0,265
0,263
0,262
0,261

0,559
0,553
0,549
0,546
0,543

0,920
0,906
0,896
0,889
0,883

1,476
1,440
1,415
1,397
1,383

2,015
1,943
1,895
1,860
1,833

2,571
2,447
2,365
2,306
2,262

3,365
3,143
2,998
2,896
2,821

4,032
3,707
3,499
3,355
3,250

5,893
5,208
4,785
4,501
4,297

6,869
5,959
5,408
5,041
4,781

10
11
12
13
14

0,260
0,260
0,259
0,259
0,258

0,542
0,540
0,539
0,538
0,537

0,879
0,876
0,873
0,870
0,868

1,372
1,363
1,356
1,350
1,345

1,812
1,796
1,782
1,771
1,761

2,228
2,201
2,179
2,160
2,145

2,764
2,718
2,681
2,650
2,624

3,169
3,106
3,055
3,012
2,977

4,144
4,025
3,930
3,852
3,787

4,587
4,437
4,318
4,221
4,140

15
16
17
18
19

0,258
0,258
0,257
0,257
0,257

0,536
0,535
0,534
0,534
0,533

0,866
0,865
0,863
0,862
0,861

1,341
1,337
1,333
1,330
1,328

1,753
1,746
1,740
1,734
1,729

2,131
2,120
2,110
2,101
2,093

2,602
2,583
2,567
2,552
2,539

2,947
2,921
2,898
2,878
2,861

3,733
3,686
3,646
3,610
3,579

4,073
4,015
3,965
3,922
3,883

20
21
22
23
24

0,257
0,257
0,256
0,256
0,256

0,533
0,532
0,532
0,532
0,531

0,860
0,859
0,858
0,858
0,857

1,325
1,323
1,321
1,319
1,318

1,725
1,721
1,717
1,714
1,711

2,086
2,080
2,074
2,069
2,064

2,528
2,518
2,508
2,500
2,492

2,845
2,831
2,819
2,807
2,797

3,552
3,527
3,505
3,485
3,467

3,850
3,819
3,792
3,768
3,745

25
26
27
28
29

0,256
0,256
0,256
0,256
0,256

0,531
0,531
0,531
0,530
0,530

0,856
0,856
0,855
0,855
0,854

1,316
1,315
1,314
1,313
1,311

1,708
1,706
1,703
1,701
1,699

2,060
2,056
2,052
2,048
2,045

2,485
2,479
2,473
2,467
2,462

2,787
2,779
2,771
2,763
2,756

3,450
3,435
3,421
3,408
3,396

3,725
3,707
3,690
3,674
3,659

30
40
50
60
80

0,256
0,255
0,255
0,254
0,254

0,530
0,529
0,528
0,527
0,526

0,854
0,851
0,849
0,848
0,846

1,310
1,303
1,299
1,296
1,292

1,697
1,684
1,676
1,671
1,664

2,042
2,021
2,009
2,000
1,990

2,457
2,423
2,403
2,390
2,374

2,750
2,704
2,678
2,660
2,639

3,385
3,307
3,261
3,232
3,195

3,646
3,551
3,496
3,460
3,416

100
200
500
1E+05

0,254
0,254
0,253
0,253

0,526
0,525
0,525
0,524

0,845
0,843
0,842
0,842

1,290
1,286
1,283
1,282

1,660
1,653
1,648
1,645

1,984
1,972
1,965
1,960

2,364
2,345
2,334
2,326

2,626
2,601
2,586
2,576

3,174
3,131
3,107
3,090

3,390
3,340
3,310
3,291

n1

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
60
120
1E+05

n2 \

9,000
5,462
4,325
3,780
3,463
3,257
3,113
3,006
2,924
2,860
2,807
2,763
2,726
2,695
2,668
2,645
2,624
2,606
2,589
2,575
2,561
2,549
2,538
2,528
2,519
2,511
2,503
2,495
2,489
2,440
2,393
2,347
2,303

8,526
5,538
4,545
4,060
3,776
3,589
3,458
3,360
3,285
3,225
3,177
3,136
3,102
3,073
3,048
3,026
3,007
2,990
2,975
2,961
2,949
2,937
2,927
2,918
2,909
2,901
2,894
2,887
2,881
2,835
2,791
2,748
2,706

49,50

39,86

9,162
5,391
4,191
3,619
3,289
3,074
2,924
2,813
2,728
2,660
2,606
2,560
2,522
2,490
2,462
2,437
2,416
2,397
2,380
2,365
2,351
2,339
2,327
2,317
2,307
2,299
2,291
2,283
2,276
2,226
2,177
2,130
2,084

53,59

9,243
5,343
4,107
3,520
3,181
2,961
2,806
2,693
2,605
2,536
2,480
2,434
2,395
2,361
2,333
2,308
2,286
2,266
2,249
2,233
2,219
2,207
2,195
2,184
2,174
2,165
2,157
2,149
2,142
2,091
2,041
1,992
1,945

55,83

9,293
5,309
4,051
3,453
3,108
2,883
2,726
2,611
2,522
2,451
2,394
2,347
2,307
2,273
2,244
2,218
2,196
2,176
2,158
2,142
2,128
2,115
2,103
2,092
2,082
2,073
2,064
2,057
2,049
1,997
1,946
1,896
1,847

57,24

5
9,326
5,285
4,010
3,405
3,055
2,827
2,668
2,551
2,461
2,389
2,331
2,283
2,243
2,208
2,178
2,152
2,130
2,109
2,091
2,075
2,060
2,047
2,035
2,024
2,014
2,005
1,996
1,988
1,980
1,927
1,875
1,824
1,774

58,20

6
9,349
5,266
3,979
3,368
3,014
2,785
2,624
2,505
2,414
2,342
2,283
2,234
2,193
2,158
2,128
2,102
2,079
2,058
2,040
2,023
2,008
1,995
1,983
1,971
1,961
1,952
1,943
1,935
1,927
1,873
1,819
1,767
1,717

58,91

7
9,367
5,252
3,955
3,339
2,983
2,752
2,589
2,469
2,377
2,304
2,245
2,195
2,154
2,119
2,088
2,061
2,038
2,017
1,999
1,982
1,967
1,953
1,941
1,929
1,919
1,909
1,900
1,892
1,884
1,829
1,775
1,722
1,670

59,44

8
9,381
5,240
3,936
3,316
2,958
2,725
2,561
2,440
2,347
2,274
2,214
2,164
2,122
2,086
2,055
2,028
2,005
1,984
1,965
1,948
1,933
1,919
1,906
1,895
1,884
1,874
1,865
1,857
1,849
1,793
1,738
1,684
1,632

59,86

9
9,392
5,230
3,920
3,297
2,937
2,703
2,538
2,416
2,323
2,248
2,188
2,138
2,095
2,059
2,028
2,001
1,977
1,956
1,937
1,920
1,904
1,890
1,877
1,866
1,855
1,845
1,836
1,827
1,819
1,763
1,707
1,652
1,599

60,19

10
9,408
5,216
3,896
3,268
2,905
2,668
2,502
2,379
2,284
2,209
2,147
2,097
2,054
2,017
1,985
1,958
1,933
1,912
1,892
1,875
1,859
1,845
1,832
1,820
1,809
1,799
1,790
1,781
1,773
1,715
1,657
1,601
1,546

60,71

12
9,425
5,200
3,870
3,238
2,871
2,632
2,464
2,340
2,244
2,167
2,105
2,053
2,010
1,972
1,940
1,912
1,887
1,865
1,845
1,827
1,811
1,796
1,783
1,771
1,760
1,749
1,740
1,731
1,722
1,662
1,603
1,545
1,487

61,22

15

F de Fisher-Snedecor
DistribucioDistribucin
n F de Fisher-Snedecor
para = 001

24
9,450
5,176
3,831
3,191
2,818
2,575
2,404
2,277
2,178
2,100
2,036
1,983
1,938
1,899
1,866
1,836
1,810
1,787
1,767
1,748
1,731
1,716
1,702
1,689
1,677
1,666
1,656
1,647
1,638
1,574
1,511
1,447
1,383

62,00

30
9,458
5,168
3,817
3,174
2,800
2,555
2,383
2,255
2,155
2,076
2,011
1,958
1,912
1,873
1,839
1,809
1,783
1,759
1,738
1,719
1,702
1,686
1,672
1,659
1,647
1,636
1,625
1,616
1,606
1,541
1,476
1,409
1,342

62,26

40
9,466
5,160
3,804
3,157
2,781
2,535
2,361
2,232
2,132
2,052
1,986
1,931
1,885
1,845
1,811
1,781
1,754
1,730
1,708
1,689
1,671
1,655
1,641
1,627
1,615
1,603
1,592
1,583
1,573
1,506
1,437
1,368
1,295

62,53

60
9,475
5,151
3,790
3,140
2,762
2,514
2,339
2,208
2,107
2,026
1,960
1,904
1,857
1,817
1,782
1,751
1,723
1,699
1,677
1,657
1,639
1,622
1,607
1,593
1,581
1,569
1,558
1,547
1,538
1,467
1,395
1,320
1,240

62,79

120
9,483
5,143
3,775
3,123
2,742
2,493
2,316
2,184
2,082
2,000
1,932
1,876
1,828
1,787
1,751
1,719
1,691
1,666
1,643
1,623
1,604
1,587
1,571
1,557
1,544
1,531
1,520
1,509
1,499
1,425
1,348
1,265
1,169

63,06

9,491
5,134
3,761
3,105
2,722
2,471
2,293
2,159
2,055
1,972
1,904
1,846
1,797
1,755
1,718
1,686
1,657
1,631
1,607
1,586
1,567
1,549
1,533
1,518
1,504
1,491
1,478
1,467
1,456
1,377
1,292
1,193
1,008

63,33

1E+05

n1

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
60
120
1E+05

n2 \

1
161,4
18,51
10,13
7,709
6,608
5,987
5,591
5,318
5,117
4,965
4,844
4,747
4,667
4,600
4,543
4,494
4,451
4,414
4,381
4,351
4,325
4,301
4,279
4,260
4,242
4,225
4,210
4,196
4,183
4,171
4,085
4,001
3,920
3,842

2
199,5
19,00
9,552
6,944
5,786
5,143
4,737
4,459
4,256
4,103
3,982
3,885
3,806
3,739
3,682
3,634
3,592
3,555
3,522
3,493
3,467
3,443
3,422
3,403
3,385
3,369
3,354
3,340
3,328
3,316
3,232
3,150
3,072
2,996

3
215,7
19,16
9,277
6,591
5,409
4,757
4,347
4,066
3,863
3,708
3,587
3,490
3,411
3,344
3,287
3,239
3,197
3,160
3,127
3,098
3,072
3,049
3,028
3,009
2,991
2,975
2,960
2,947
2,934
2,922
2,839
2,758
2,680
2,605

4
224,6
19,25
9,117
6,388
5,192
4,534
4,120
3,838
3,633
3,478
3,357
3,259
3,179
3,112
3,056
3,007
2,965
2,928
2,895
2,866
2,840
2,817
2,796
2,776
2,759
2,743
2,728
2,714
2,701
2,690
2,606
2,525
2,447
2,372

5
230,2
19,30
9,013
6,256
5,050
4,387
3,972
3,687
3,482
3,326
3,204
3,106
3,025
2,958
2,901
2,852
2,810
2,773
2,740
2,711
2,685
2,661
2,640
2,621
2,603
2,587
2,572
2,558
2,545
2,534
2,449
2,368
2,290
2,214

6
234,0
19,33
8,941
6,163
4,950
4,284
3,866
3,581
3,374
3,217
3,095
2,996
2,915
2,848
2,790
2,741
2,699
2,661
2,628
2,599
2,573
2,549
2,528
2,508
2,490
2,474
2,459
2,445
2,432
2,421
2,336
2,254
2,175
2,099

7
236,8
19,35
8,887
6,094
4,876
4,207
3,787
3,500
3,293
3,135
3,012
2,913
2,832
2,764
2,707
2,657
2,614
2,577
2,544
2,514
2,488
2,464
2,442
2,423
2,405
2,388
2,373
2,359
2,346
2,334
2,249
2,167
2,087
2,010

8
238,9
19,37
8,845
6,041
4,818
4,147
3,726
3,438
3,230
3,072
2,948
2,849
2,767
2,699
2,641
2,591
2,548
2,510
2,477
2,447
2,420
2,397
2,375
2,355
2,337
2,321
2,305
2,291
2,278
2,266
2,180
2,097
2,016
1,939

9
240,5
19,38
8,812
5,999
4,772
4,099
3,677
3,388
3,179
3,020
2,896
2,796
2,714
2,646
2,588
2,538
2,494
2,456
2,423
2,393
2,366
2,342
2,320
2,300
2,282
2,265
2,250
2,236
2,223
2,211
2,124
2,040
1,959
1,880

10
241,9
19,40
8,786
5,964
4,735
4,060
3,637
3,347
3,137
2,978
2,854
2,753
2,671
2,602
2,544
2,494
2,450
2,412
2,378
2,348
2,321
2,297
2,275
2,255
2,236
2,220
2,204
2,190
2,177
2,165
2,077
1,993
1,910
1,831

12
243,9
19,41
8,745
5,912
4,678
4,000
3,575
3,284
3,073
2,913
2,788
2,687
2,604
2,534
2,475
2,425
2,381
2,342
2,308
2,278
2,250
2,226
2,204
2,183
2,165
2,148
2,132
2,118
2,104
2,092
2,003
1,917
1,834
1,752

15
245,9
19,43
8,703
5,858
4,619
3,938
3,511
3,218
3,006
2,845
2,719
2,617
2,533
2,463
2,403
2,352
2,308
2,269
2,234
2,203
2,176
2,151
2,128
2,108
2,089
2,072
2,056
2,041
2,027
2,015
1,924
1,836
1,750
1,666

24
249,1
19,45
8,639
5,774
4,527
3,841
3,410
3,115
2,900
2,737
2,609
2,505
2,420
2,349
2,288
2,235
2,190
2,150
2,114
2,082
2,054
2,028
2,005
1,984
1,964
1,946
1,930
1,915
1,901
1,887
1,793
1,700
1,608
1,517

F de Fisher-Snedecor
DistribucionDistribucin
F de Fisher-Snedecor
para = 0005

30
250,1
19,46
8,617
5,746
4,496
3,808
3,376
3,079
2,864
2,700
2,570
2,466
2,380
2,308
2,247
2,194
2,148
2,107
2,071
2,039
2,010
1,984
1,961
1,939
1,919
1,901
1,884
1,869
1,854
1,841
1,744
1,649
1,554
1,459

40
251,1
19,47
8,594
5,717
4,464
3,774
3,340
3,043
2,826
2,661
2,531
2,426
2,339
2,266
2,204
2,151
2,104
2,063
2,026
1,994
1,965
1,938
1,914
1,892
1,872
1,853
1,836
1,820
1,806
1,792
1,693
1,594
1,495
1,394

60
252,2
19,48
8,572
5,688
4,431
3,740
3,304
3,005
2,787
2,621
2,490
2,384
2,297
2,223
2,160
2,106
2,058
2,017
1,980
1,946
1,916
1,889
1,865
1,842
1,822
1,803
1,785
1,769
1,754
1,740
1,637
1,534
1,429
1,318

120
253,3
19,49
8,549
5,658
4,398
3,705
3,267
2,967
2,748
2,580
2,448
2,341
2,252
2,178
2,114
2,059
2,011
1,968
1,930
1,896
1,866
1,838
1,813
1,790
1,768
1,749
1,731
1,714
1,698
1,683
1,577
1,467
1,352
1,222

1E+05
254,3
19,50
8,526
5,628
4,365
3,669
3,230
2,928
2,707
2,538
2,405
2,296
2,206
2,131
2,066
2,010
1,960
1,917
1,878
1,843
1,812
1,783
1,757
1,733
1,711
1,691
1,672
1,654
1,638
1,622
1,509
1,389
1,254
1,010

n1

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
60
120
1E+05

n2 \

1
647,8
38,51
17,44
12,22
10,01
8,813
8,073
7,571
7,209
6,937
6,724
6,554
6,414
6,298
6,200
6,115
6,042
5,978
5,922
5,871
5,827
5,786
5,750
5,717
5,686
5,659
5,633
5,610
5,588
5,568
5,424
5,286
5,152
5,024

2
799,5
39,00
16,04
10,65
8,434
7,260
6,542
6,059
5,715
5,456
5,256
5,096
4,965
4,857
4,765
4,687
4,619
4,560
4,508
4,461
4,420
4,383
4,349
4,319
4,291
4,265
4,242
4,221
4,201
4,182
4,051
3,925
3,805
3,689

3
864,2
39,17
15,44
9,979
7,764
6,599
5,890
5,416
5,078
4,826
4,630
4,474
4,347
4,242
4,153
4,077
4,011
3,954
3,903
3,859
3,819
3,783
3,750
3,721
3,694
3,670
3,647
3,626
3,607
3,589
3,463
3,343
3,227
3,116

4
899,6
39,25
15,10
9,605
7,388
6,227
5,523
5,053
4,718
4,468
4,275
4,121
3,996
3,892
3,804
3,729
3,665
3,608
3,559
3,515
3,475
3,440
3,408
3,379
3,353
3,329
3,307
3,286
3,267
3,250
3,126
3,008
2,894
2,786

5
921,8
39,30
14,88
9,364
7,146
5,988
5,285
4,817
4,484
4,236
4,044
3,891
3,767
3,663
3,576
3,502
3,438
3,382
3,333
3,289
3,250
3,215
3,183
3,155
3,129
3,105
3,083
3,063
3,044
3,026
2,904
2,786
2,674
2,567

6
937,1
39,33
14,73
9,197
6,978
5,820
5,119
4,652
4,320
4,072
3,881
3,728
3,604
3,501
3,415
3,341
3,277
3,221
3,172
3,128
3,090
3,055
3,023
2,995
2,969
2,945
2,923
2,903
2,884
2,867
2,744
2,627
2,515
2,408

7
948,2
39,36
14,62
9,074
6,853
5,695
4,995
4,529
4,197
3,950
3,759
3,607
3,483
3,380
3,293
3,219
3,156
3,100
3,051
3,007
2,969
2,934
2,902
2,874
2,848
2,824
2,802
2,782
2,763
2,746
2,624
2,507
2,395
2,288

8
956,7
39,37
14,54
8,980
6,757
5,600
4,899
4,433
4,102
3,855
3,664
3,512
3,388
3,285
3,199
3,125
3,061
3,005
2,956
2,913
2,874
2,839
2,808
2,779
2,753
2,729
2,707
2,687
2,669
2,651
2,529
2,412
2,299
2,192

9
963,3
39,39
14,47
8,905
6,681
5,523
4,823
4,357
4,026
3,779
3,588
3,436
3,312
3,209
3,123
3,049
2,985
2,929
2,880
2,837
2,798
2,763
2,731
2,703
2,677
2,653
2,631
2,611
2,592
2,575
2,452
2,334
2,222
2,114

10
968,6
39,40
14,42
8,844
6,619
5,461
4,761
4,295
3,964
3,717
3,526
3,374
3,250
3,147
3,060
2,986
2,922
2,866
2,817
2,774
2,735
2,700
2,668
2,640
2,613
2,590
2,568
2,547
2,529
2,511
2,388
2,270
2,157
2,048

12
976,7
39,41
14,34
8,751
6,525
5,366
4,666
4,200
3,868
3,621
3,430
3,277
3,153
3,050
2,963
2,889
2,825
2,769
2,720
2,676
2,637
2,602
2,570
2,541
2,515
2,491
2,469
2,448
2,430
2,412
2,288
2,169
2,055
1,945

15
984,9
39,43
14,25
8,657
6,428
5,269
4,568
4,101
3,769
3,522
3,330
3,177
3,053
2,949
2,862
2,788
2,723
2,667
2,617
2,573
2,534
2,498
2,466
2,437
2,411
2,387
2,364
2,344
2,325
2,307
2,182
2,061
1,945
1,833

24
997,2
39,46
14,12
8,511
6,278
5,117
4,415
3,947
3,614
3,365
3,173
3,019
2,893
2,789
2,701
2,625
2,560
2,503
2,452
2,408
2,368
2,331
2,299
2,269
2,242
2,217
2,195
2,174
2,154
2,136
2,007
1,882
1,760
1,640

F de Fisher-Snedecor
DistribucionDistribucin
F de Fisher-Snedecor
para = 00025

30
1001,4
39,46
14,08
8,461
6,227
5,065
4,362
3,894
3,560
3,311
3,118
2,963
2,837
2,732
2,644
2,568
2,502
2,445
2,394
2,349
2,308
2,272
2,239
2,209
2,182
2,157
2,133
2,112
2,092
2,074
1,943
1,815
1,690
1,566

40
1005,6
39,47
14,04
8,411
6,175
5,012
4,309
3,840
3,505
3,255
3,061
2,906
2,780
2,674
2,585
2,509
2,442
2,384
2,333
2,287
2,246
2,210
2,176
2,146
2,118
2,093
2,069
2,048
2,028
2,009
1,875
1,744
1,614
1,484

60
1009,8
39,48
13,99
8,360
6,123
4,959
4,254
3,784
3,449
3,198
3,004
2,848
2,720
2,614
2,524
2,447
2,380
2,321
2,270
2,223
2,182
2,145
2,111
2,080
2,052
2,026
2,002
1,980
1,959
1,940
1,803
1,667
1,530
1,388

120
1014,0
39,49
13,95
8,309
6,069
4,904
4,199
3,728
3,392
3,140
2,944
2,787
2,659
2,552
2,461
2,383
2,315
2,256
2,203
2,156
2,114
2,076
2,041
2,010
1,981
1,954
1,930
1,907
1,886
1,866
1,724
1,581
1,433
1,269

1E+05
1018,3
39,50
13,90
8,257
6,015
4,849
4,142
3,670
3,333
3,080
2,883
2,725
2,596
2,487
2,395
2,316
2,248
2,187
2,133
2,085
2,042
2,003
1,968
1,935
1,906
1,878
1,853
1,829
1,807
1,787
1,637
1,482
1,311
1,012

n1

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
60
120
1E+05

n2 \

1
4052
98,50
34,12
21,20
16,26
13,75
12,25
11,26
10,56
10,04
9,646
9,330
9,074
8,862
8,683
8,531
8,400
8,285
8,185
8,096
8,017
7,945
7,881
7,823
7,770
7,721
7,677
7,636
7,598
7,562
7,314
7,077
6,851
6,635

2
4999
99,00
30,82
18,00
13,27
10,92
9,547
8,649
8,022
7,559
7,206
6,927
6,701
6,515
6,359
6,226
6,112
6,013
5,926
5,849
5,780
5,719
5,664
5,614
5,568
5,526
5,488
5,453
5,420
5,390
5,179
4,977
4,787
4,605

3
5403
99,17
29,46
16,69
12,06
9,780
8,451
7,591
6,992
6,552
6,217
5,953
5,739
5,564
5,417
5,292
5,185
5,092
5,010
4,938
4,874
4,817
4,765
4,718
4,675
4,637
4,601
4,568
4,538
4,510
4,313
4,126
3,949
3,782

4
5625
99,25
28,71
15,98
11,39
9,148
7,847
7,006
6,422
5,994
5,668
5,412
5,205
5,035
4,893
4,773
4,669
4,579
4,500
4,431
4,369
4,313
4,264
4,218
4,177
4,140
4,106
4,074
4,045
4,018
3,828
3,649
3,480
3,319

5
5764
99,30
28,24
15,52
10,97
8,746
7,460
6,632
6,057
5,636
5,316
5,064
4,862
4,695
4,556
4,437
4,336
4,248
4,171
4,103
4,042
3,988
3,939
3,895
3,855
3,818
3,785
3,754
3,725
3,699
3,514
3,339
3,174
3,017

6
5859
99,33
27,91
15,21
10,67
8,466
7,191
6,371
5,802
5,386
5,069
4,821
4,620
4,456
4,318
4,202
4,102
4,015
3,939
3,871
3,812
3,758
3,710
3,667
3,627
3,591
3,558
3,528
3,499
3,473
3,291
3,119
2,956
2,802

7
5928
99,36
27,67
14,98
10,46
8,260
6,993
6,178
5,613
5,200
4,886
4,640
4,441
4,278
4,142
4,026
3,927
3,841
3,765
3,699
3,640
3,587
3,539
3,496
3,457
3,421
3,388
3,358
3,330
3,304
3,124
2,953
2,792
2,640

8
5981
99,37
27,49
14,80
10,29
8,102
6,840
6,029
5,467
5,057
4,744
4,499
4,302
4,140
4,004
3,890
3,791
3,705
3,631
3,564
3,506
3,453
3,406
3,363
3,324
3,288
3,256
3,226
3,198
3,173
2,993
2,823
2,663
2,511

9
6022
99,39
27,35
14,66
10,16
7,976
6,719
5,911
5,351
4,942
4,632
4,388
4,191
4,030
3,895
3,780
3,682
3,597
3,523
3,457
3,398
3,346
3,299
3,256
3,217
3,182
3,149
3,120
3,092
3,067
2,888
2,718
2,559
2,408

10
6056
99,40
27,23
14,55
10,05
7,874
6,620
5,814
5,257
4,849
4,539
4,296
4,100
3,939
3,805
3,691
3,593
3,508
3,434
3,368
3,310
3,258
3,211
3,168
3,129
3,094
3,062
3,032
3,005
2,979
2,801
2,632
2,472
2,321

12
6106
99,42
27,05
14,37
9,888
7,718
6,469
5,667
5,111
4,706
4,397
4,155
3,960
3,800
3,666
3,553
3,455
3,371
3,297
3,231
3,173
3,121
3,074
3,032
2,993
2,958
2,926
2,896
2,868
2,843
2,665
2,496
2,336
2,185

15
6157
99,43
26,87
14,20
9,722
7,559
6,314
5,515
4,962
4,558
4,251
4,010
3,815
3,656
3,522
3,409
3,312
3,227
3,153
3,088
3,030
2,978
2,931
2,889
2,850
2,815
2,783
2,753
2,726
2,700
2,522
2,352
2,192
2,039

24
6235
99,46
26,60
13,93
9,466
7,313
6,074
5,279
4,729
4,327
4,021
3,780
3,587
3,427
3,294
3,181
3,084
2,999
2,925
2,859
2,801
2,749
2,702
2,659
2,620
2,585
2,552
2,522
2,495
2,469
2,288
2,115
1,950
1,791

F de Fisher-Snedecor
DistribucionDistribucin
F de Fisher-Snedecor
para = 0001

30
6261
99,47
26,50
13,84
9,379
7,229
5,992
5,198
4,649
4,247
3,941
3,701
3,507
3,348
3,214
3,101
3,003
2,919
2,844
2,778
2,720
2,667
2,620
2,577
2,538
2,503
2,470
2,440
2,412
2,386
2,203
2,028
1,860
1,697

40
6287
99,47
26,41
13,75
9,291
7,143
5,908
5,116
4,567
4,165
3,860
3,619
3,425
3,266
3,132
3,018
2,920
2,835
2,761
2,695
2,636
2,583
2,535
2,492
2,453
2,417
2,384
2,354
2,325
2,299
2,114
1,936
1,763
1,592

60
6313
99,48
26,32
13,65
9,202
7,057
5,824
5,032
4,483
4,082
3,776
3,535
3,341
3,181
3,047
2,933
2,835
2,749
2,674
2,608
2,548
2,495
2,447
2,403
2,364
2,327
2,294
2,263
2,234
2,208
2,019
1,836
1,656
1,473

120
6339
99,49
26,22
13,56
9,112
6,969
5,737
4,946
4,398
3,996
3,690
3,449
3,255
3,094
2,959
2,845
2,746
2,660
2,584
2,517
2,457
2,403
2,354
2,310
2,270
2,233
2,198
2,167
2,138
2,111
1,917
1,726
1,533
1,325

1E+05
6366
99,50
26,13
13,46
9,021
6,880
5,650
4,859
4,311
3,909
3,603
3,361
3,166
3,004
2,869
2,753
2,653
2,566
2,489
2,421
2,360
2,306
2,256
2,211
2,170
2,132
2,097
2,064
2,034
2,006
1,805
1,601
1,381
1,015

n1

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
60
120
1E+05

n2 \

1
16211
198,5
55,55
31,33
22,78
18,63
16,24
14,69
13,61
12,83
12,23
11,75
11,37
11,06
10,80
10,58
10,38
10,22
10,07
9,944
9,830
9,727
9,635
9,551
9,475
9,406
9,342
9,284
9,230
9,180
8,828
8,495
8,179
7,880

2
19999
199,0
49,80
26,28
18,31
14,54
12,40
11,04
10,11
9,427
8,912
8,510
8,186
7,922
7,701
7,514
7,354
7,215
7,093
6,986
6,891
6,806
6,730
6,661
6,598
6,541
6,489
6,440
6,396
6,355
6,066
5,795
5,539
5,299

3
21615
199,2
47,47
24,26
16,53
12,92
10,88
9,596
8,717
8,081
7,600
7,226
6,926
6,680
6,476
6,303
6,156
6,028
5,916
5,818
5,730
5,652
5,582
5,519
5,462
5,409
5,361
5,317
5,276
5,239
4,976
4,729
4,497
4,280

4
22500
199,2
46,19
23,15
15,56
12,03
10,05
8,805
7,956
7,343
6,881
6,521
6,233
5,998
5,803
5,638
5,497
5,375
5,268
5,174
5,091
5,017
4,950
4,890
4,835
4,785
4,740
4,698
4,659
4,623
4,374
4,140
3,921
3,715

5
23056
199,3
45,39
22,46
14,94
11,46
9,522
8,302
7,471
6,872
6,422
6,071
5,791
5,562
5,372
5,212
5,075
4,956
4,853
4,762
4,681
4,609
4,544
4,486
4,433
4,384
4,340
4,300
4,262
4,228
3,986
3,760
3,548
3,350

6
23437
199,3
44,84
21,97
14,51
11,07
9,155
7,952
7,134
6,545
6,102
5,757
5,482
5,257
5,071
4,913
4,779
4,663
4,561
4,472
4,393
4,322
4,259
4,202
4,150
4,103
4,059
4,020
3,983
3,949
3,713
3,492
3,285
3,091

7
23715
199,4
44,43
21,62
14,20
10,79
8,885
7,694
6,885
6,302
5,865
5,525
5,253
5,031
4,847
4,692
4,559
4,445
4,345
4,257
4,179
4,109
4,047
3,991
3,939
3,893
3,850
3,811
3,775
3,742
3,509
3,291
3,087
2,897

8
23925
199,4
44,13
21,35
13,96
10,57
8,678
7,496
6,693
6,116
5,682
5,345
5,076
4,857
4,674
4,521
4,389
4,276
4,177
4,090
4,013
3,944
3,882
3,826
3,776
3,730
3,687
3,649
3,613
3,580
3,350
3,134
2,933
2,745

9
24091
199,4
43,88
21,14
13,77
10,39
8,514
7,339
6,541
5,968
5,537
5,202
4,935
4,717
4,536
4,384
4,254
4,141
4,043
3,956
3,880
3,812
3,750
3,695
3,645
3,599
3,557
3,519
3,483
3,450
3,222
3,008
2,808
2,621

10
24224
199,4
43,69
20,97
13,62
10,25
8,380
7,211
6,417
5,847
5,418
5,085
4,820
4,603
4,424
4,272
4,142
4,030
3,933
3,847
3,771
3,703
3,642
3,587
3,537
3,492
3,450
3,412
3,377
3,344
3,117
2,904
2,705
2,519

12
24426
199,4
43,39
20,70
13,38
10,03
8,176
7,015
6,227
5,661
5,236
4,906
4,643
4,428
4,250
4,099
3,971
3,860
3,763
3,678
3,602
3,535
3,475
3,420
3,370
3,325
3,284
3,246
3,211
3,179
2,953
2,742
2,544
2,359

15
24630
199,4
43,08
20,44
13,15
9,814
7,968
6,814
6,032
5,471
5,049
4,721
4,460
4,247
4,070
3,920
3,793
3,683
3,587
3,502
3,427
3,360
3,300
3,246
3,196
3,151
3,110
3,073
3,038
3,006
2,781
2,570
2,373
2,187

24
24940
199,5
42,62
20,03
12,78
9,474
7,645
6,503
5,729
5,173
4,756
4,431
4,173
3,961
3,786
3,638
3,511
3,402
3,306
3,222
3,147
3,081
3,021
2,967
2,918
2,873
2,832
2,794
2,759
2,727
2,502
2,290
2,089
1,898

F de Fisher-Snedecor
DistribucionDistribucin
F de Fisher-Snedecor
para = 00005

30
25044
199,5
42,47
19,89
12,66
9,358
7,534
6,396
5,625
5,071
4,654
4,331
4,073
3,862
3,687
3,539
3,412
3,303
3,208
3,123
3,049
2,982
2,922
2,868
2,819
2,774
2,733
2,695
2,660
2,628
2,401
2,187
1,984
1,789

40
25148
199,5
42,31
19,75
12,53
9,241
7,422
6,288
5,519
4,966
4,551
4,228
3,970
3,760
3,585
3,437
3,311
3,201
3,106
3,022
2,947
2,880
2,820
2,765
2,716
2,671
2,630
2,592
2,557
2,524
2,296
2,079
1,871
1,669

60
25253
199,5
42,15
19,61
12,40
9,122
7,309
6,177
5,410
4,859
4,445
4,123
3,866
3,655
3,480
3,332
3,206
3,096
3,000
2,916
2,841
2,774
2,713
2,658
2,609
2,563
2,522
2,483
2,448
2,415
2,184
1,962
1,747
1,533

120
25359
199,5
41,99
19,47
12,27
9,001
7,193
6,065
5,300
4,750
4,337
4,015
3,758
3,547
3,372
3,224
3,097
2,987
2,891
2,806
2,730
2,663
2,602
2,546
2,496
2,450
2,408
2,369
2,333
2,300
2,064
1,834
1,606
1,364

1E+05
25464
199,5
41,83
19,32
12,14
8,879
7,076
5,951
5,188
4,639
4,226
3,904
3,647
3,436
3,260
3,112
2,984
2,873
2,776
2,691
2,614
2,546
2,484
2,428
2,377
2,330
2,287
2,247
2,210
2,176
1,932
1,689
1,431
1,016

También podría gustarte