EL MUESTREO
Münch, Lourdes y Ángeles, Ernesto (1988). Métodos y técnicas de investigación
para administración e ingeniería. México: Editorial Trillas, S.A. de C.V.
CONCEPTOS GENERALES.
El muestreo es una parte esencial del método científico para poder llevar a
cabo la investigación. En este módulo no se pretende preparar al lector en el
manejo de los procedimientos estadísticos; su objetivo es presentar de una
manera general el concepto de muestreo y su relación con la metodología de la
investigación.
Se sugiere tomar un curso de estadística y tener en cuenta que toda
investigación seria requiere contar desde un principio con la asesoría de un
estadístico experimentado a fin de que los resultados de la investigación sean
representativos, válidos y confiables.
El muestreo es el conjunto de operaciones que se realizan para estudiar la
distribución de determinadas características en la totalidad de una población, a
partir de la observación de una parte o subconjunto de la población, denominada
muestra. A las diferentes etapas para seleccionar la muestra se les llama
diseños de muestra.
El muestreo, siempre y cuando sea representativo, tiene múltiples ventajas
de tipo económico y práctico, ya que en lugar de investigar el total de la
población, se investiga una parte de ella, además de que proporciona los datos en
forma más oportuna, eficiente y exacta, debido a que el encuestar a toda la
población o efectuar un censo puede ocasionar fatiga y prácticas que tiendan a
distorsionar la información.
Una población es cualquier grupo de elementos; los elementos son las
unidades individuales que componen la población. Mientras que la población se
refiere a un grupo finito, el universo se refiere a sucesos que no tienen límite,
infinitos.
La representatividad de la muestra implica que ésta refleje las ca-
racterísticas, similitudes y diferencias encontradas en la población. Lograr la
representatividad de la muestra sólo es posible en un muestreo aleatorio o al
azar, pero de ninguna manera es exacta, ya que lo único que se puede establecer
1
es la probabilidad de no rebasar ciertos márgenes de error. (Error de
estimación).
El marco muestral incluye todas las unidades muestrales contenidas en la
población, es decir, una lista de unidades muestrales, y éstas son colecciones
distintas de elementos de la población.
El diseño de la muestra implica tres etapas:
a) Esquema de muestreo. Cómo se va a seleccionar la muestra y qué tipo de
muestreo se va a utilizar.
b) Encontrar estimadores.
c) Determinar el tamaño de la muestra.
Existen dos tipos de muestreo, el probabilístico y el no probabilístico.
MUESTREO PROBABILÍSTICO.
Parte de la suposición de que cada elemento de la población tiene la misma
probabilidad para ser seleccionado en la muestra. Este tipo de muestreo es el
más adecuado ya que sus procedimientos son más científicos debido a que se
basan en la ley de los grandes números y el cálculo de probabilidades.
Para estar en posibilidad de elegir una muestra al azar, es necesario:
a) Definir claramente la población con la que se está trabajando, por medio de
distinguir entre la población objetiva, que es el conjunto de cosas que
deseamos medir, y la población muestreada, que es la que realmente podemos
llegar a medir. En otras palabras, se debe identificar a cada elemento de la
población en forma clara y sin ambigüedades.
b) Establecer el marco muestral, es decir, una lista o registro de todos los
miembros de la población. Dentro de los registros que es posible utilizar,
están los directorios telefónicos, registros de inscripción de escuelas,
censos, etc.
El muestreo probabilístico puede llevarse a cabo de diversas maneras, que
veremos a continuación:
2
Muestreo aleatorio simple:
Es un método de selección de muestra en el cual las unidades se eligen
individual y directamente por medio de un proceso aleatorio, donde cada unidad
no seleccionada tiene la misma oportunidad de ser elegida que todas las unidades
extraídas de la muestra (Linninger, 1978).
El muestreo aleatorio simple puede ser con reemplazo o sin reemplazo. El
muestreo en el que cada miembro de la población puede elegirse más de una vez
se llama con reemplazo, y el muestreo sin reemplazo es aquel en el que cada
miembro de la población puede elegirse una sola vez. Este tipo de muestreo
puede llevarse a cabo de diversas maneras: si el tamaño de la muestra es
pequeño, se ponen en una urna el nombre de cada persona en un pedazo de papel
y de ahí se van eligiendo. Cuando se trate de muestras más grandes, lo más
conveniente es utilizar una tabla de números aleatorios. Para usar números
aleatorios, se numera la población, se eligen números de la tabla en forma
arbitraria y, dependiendo de los números elegidos, se incluyen en la muestra los
que correspondan a la población previamente numerada.
La representación simbólica de una población de tamaño finito se indica por
N, en donde n representa el tamaño de la muestra. De esta manera la fracción de
muestreo es igual a:
n
f =
N
Por ejemplo, si se selecciona una muestra de 200 de un total de 6 200 amas
de casa, la fracción de muestreo será:
200 1
f = =
6200 310
Esta ecuación puede utilizarse cuando se conoce el tamaño de la población si
también se estipula la fracción de muestreo, por ejemplo: ¿qué tamaño de
muestra se determina con una población de 3 000 y una fracción de muestreo de
1:20?
1 n
= 20n = 3000 n = 150
20 3000
Una característica importante de la información obtenida por muestreo
aleatorio simple es que permite estimar los valores de la población; por ejemplo,
3
para estimar la edad promedio de una población, basta conocer la edad promedio
de una muestra aleatoria simple, de tal manera que:
'
X =X
donde la media de la muestra X es un estimador (representando por el símbolo ‘)
insesgado de la media poblacional.
Los estimadores de la muestra probabilística son confiables en la medida que
la experiencia confirma que la disposición de todos los medios de las muestras
aleatorias simples se aproximan a una distribución normal de probabilidad.
Existen dos expresiones que miden la variabilidad de los valores: la varianza y
la desviación estándar, que expresan la variabilidad o dispersión de la
información en torno a la media.
La fórmula de la varianza de la población es:
(X i − X )2
VAR X = =σ2
N
La varianza de una muestra es:
( xi) 2
VAR X = − ( X )2
n
La estimación de la varianza de la población utilizando la varianza de la
muestra es:
n
s2 = VARx X
n −1
La desviación estándar es la raíz cuadrada de la varianza:
(X i − X )2
Muestra D.S.x = VAR x X = =s
n
Σ( X i − X ) 2
Población D.S.x = VAR x X = =σ
N
Para determinar la confiabilidad de la estimación de la media poblacional
4
basándose en la muestra, es necesario calcular el estimador de la varianza y de
la desviación estándar. La teoría del muestreo proporciona ecuaciones para
estimar la varianza y la desviación estándar, basándose en la información de una
sola muestra. A la desviación estándar así calculada se le conoce como error
estándar.
La fórmula para el error estándar y su estimador son:
N −n σ2
Error estándar = σ =
N n
N − n s2
Estimador del error estándar = s 1 =
N n
n ( X i − X )2
donde s 2 = Σ
i =1 n −1
La cota para el error de estimación es:
i
X ± 2σ X
lo que significa que al menos el 75% y muy posiblemente el 95% de las
estimaciones se desviarán de la media en menos de 2o.
Aplicando las fórmulas anteriores vamos a suponer que se efectuó una
encuesta a las amas de casa acerca de su preferencia por determinado producto.
La pregunta formulada fue:
¿Consume usted el producto X diariamente?
Sí No
Esta pregunta se formuló a una muestra aleatoria simple:
N = 3000 n = 200
A la respuesta Sí se la codificó con 1.
A la respuesta No se la codificó con 0.
La suma de las respuestas afirmativas fue 150 ∑( X i ) = 150 ; al dividir entre n
150
dio = .75
200
5
1. Media muestral = X = ∑ xi = (1 / 200)(150) = .75 o sea que el 75% de la
población contestó afirmativamente.
( xi ) 2
2. Varianza de la muestra VAR X = Σ − (X )2
n
150
VAR X = − (.75) 2 = .75 − .5625 = .19
200
Este indicador dice que existe el 19% de probabilidad de que un elemento
de la población elegida al azar conteste negativamente.
200
3. Varianza estimada de la población s 2 = (.187) = .188
199
O sea que existe un 18% de probabilidad de que la media no se ajusta a la
media calculada.
4. Estimación de la desviación estándar:
3000 − 200 .188
s ' x' =
3000 200
= .933 × .099 = .0008 = .02
En este ejemplo, el intervalo equivalente a un error estándar en relación con
la población es de .75 ± .02, o sea, el intervalo entre .77 y .73. Existen 68% de
probabilidades de que el valor de la población se encuentre en este campo de
variación. El intervalo de confiabilidad es el campo de variación en relación con el
valor de la población en el cual se puede esperar que se sitúen las estimaciones.
El nivel de confiabilidad es la probabilidad de que los valores muestra les
sean correctos.
El intervalo de confianza tiene relación con los riesgos de error que el
investigador está dispuesto a aceptar en su trabajo. A mayor intervalo de
confianza menores riesgos: para un nivel de confianza del 95% se necesita una
cota de error o intervalo de confianza de dos desviaciones estándar en torno a la
media, es decir que en el ejemplo citado existe un 95% de confiabilidad de que
los resultados obtenidos en la encuesta sean acertados para toda la población.
6
Consiste en dividir a la población en subgrupos o estratos y seleccionar una
muestra aleatoria simple dentro de cada uno.
En relación con el muestreo aleatorio simple, tiene tres ventajas:
1. El costo de recolección y análisis de datos se reduce al dividir los grupos con
elementos similares pero que difieren de grupo a grupo.
2. La varianza del estimador de la media poblacional se reduce debido a que la
variabilidad dentro de los estratos es generalmente menor que la
variabilidad de la población.
3. Se obtienen estimadores separados para los parámetros de cada subgrupo o
estrato sin necesidad de seleccionar otra muestra.
La estratificación es útil siempre y cuando se puedan definir con facilidad los
estratos y sean claramente observables. Cuanto mayor sea el número de
variables estratificadoras menos satisfactorios serán los resultados de la
muestra.
Las etapas para la selección de una muestra estratificada son:
a) Especificación clara y detallada de cada estrato.
b) Selección de una muestra aleatoria de cada estrato.
El muestreo por estratos es aconsejable cuando existen claras diferencias
en la población que se va a estudiar, por ejemplo: religión, sexo, nivel
socioeconómico, etc., en una población relativamente grande. Cuando el número
de elementos que integra cada estrato es diferente, la selección de la muestra
deberá realizarse de tal manera que el número de elementos de cada estrato sea
proporcional al tamaño de éste.
Fijación de la muestra por estratos:
N
n1 = n i i = 1,2,...., L
N
L
donde N1 es el número de elementos del estrato i y N = Σ N i es el tamaño de la
i =1
población.
Estimación de la media y la varianza de cada estrato:
7
Mi
Σ X ij
Xi =
ni
si
2
ni
=Σ
(X ij − xi ) 2
i = 1,2,...., L
j =1 ni − 1
donde Xij, es la j ésima observación del estrato i.
La varianza si2 es un estimador de la varianza del estrato σi2
Estimación de la media poblacional para una muestra aleatoria estratificada:
1 L
Estimador X est = Σ Ni X i
N i =1
Varianza estimada del estimador:
∧ 2 1 L 2 N i − ni s 2
σ X est = Σ Ni
N 2 i =1 N i ni
Cota de error:
∧
X est ± 2 σ x est
Muestreo sistemático :
En este método se seleccionan las unidades aplicando un intervalo de
selección, de tal modo que después de que suceda cada intervalo se van
incluyendo unidades en la muestra.
Para determinar el intervalo 1 se divide el tamaño de la población N entre el
tamaño de la muestra:
N
I=
n
Si por ejemplo se requiere de una muestra sistemática de 200 amas de casa
de una lista de 3 000, el intervalo
8
3000
I= = 15
200
Utilizando la tabla de números aleatorios, cada 15 números se van
seleccionando unidades que serán las que conformen la muestra. Las principales
ventajas del muestreo sistemático son simplicidad y fácil administración, pero
tiene el inconveniente de que pueden existir sesgos si las listas no están
ordenadas o son ambiguas.
Muestreo por conglomerados :
El muestreo por conglomerados se realiza seleccionando aleatoriamente un
conjunto de grupos de elementos muestrales llamados conglomerados y llevando
a cabo un censo completo en cada uno de éstos.
Este tipo de muestreo es útil cuando no existe una lista de todos los
elementos de la población y/o la población es grande y está dispersa en una
región muy extensa, por ejemplo: supongamos que se desea hacer un estudio de
la cantidad promedio de refrescos que ingiere cada familia en el Distrito de
Trujillo; en lugar de una muestra de toda la ciudad, se puede dividir ésta por
conglomerados y después extraer una muestra aleatoria de éstos, encuestando a
cada una de las familias incluidas en cada conglomerado escogido.
Este tipo de muestreo disminuye los costos pero en ocasiones puede
aumentar el error de muestreo debido a que los elementos de un conglomerado
por lo general tienen características comunes.
Estimación de la media poblacional en el muestreo por conglomerados donde
n1 = número de elementos del conglomerado y t1 = total de mediciones del
conglomerado:
Estimador:
m
∧ Σ ti
µ = Xi = i =1
m
Σ ni
i =1
Varianza estimada del estimador:
9
∧ 2 M − m m t i − xcni
σ yc = Σ
( )
2
2 i =1
Mmn m −1
Cota de error:
∧
yc ± 2 σ yc
1 m 1 m
n= Σ ni t= Σ ti
m i =1 m i =1
M = número de conglomerados de la población.
m = número de conglomerados en la muestra.
Estimación del total poblacional:
Estimador:
∧ M m
T= Σ ti
m i =1
Varianza estimada del estimador:
M − m t i − t
∧ 2
σt =M
∧ 2
Mm m − 1
Cota de error:
∧ ∧
T = 2 ± σ ∧t
MUESTREO NO PROBABILÍSTICO.
Este tipo de muestreo, como su nombre indica, se basa en el criterio del
investigador. Las unidades de muestreo no se seleccionan por procedimientos al
azar; se utiliza por razones de costo. Los principales métodos de muestreo no
probabilístico son:
10
Muestreo decisional :
Los entrevistadores o investigadores de campo utilizan su criterio para
seleccionar los elementos de una muestra, por ejemplo: entrevistar adolescentes
de la clase media con base en una definición clara de la población objetivo.
Muestreo de cuota :
Se hace una clasificación de la población bajo estudio y se utilizan estas
categorías previamente fijadas para obtener un número predeterminado de
elementos en cada categoría, por ejemplo: los entrevistadores de campo
seleccionan un determinado número de personas del sexo femenino que trabajen
en una empresa específica.
Muestreo basado en expertos :
Los elementos se eligen con base en la opinión de personas con autoridad y
suficientemente informadas acerca de la población bajo estudio, por ejemplo: un
experto en biología puede proponer profesionales reconocidos en el área para
que se efectúe un estudio.
Muestras casuales o fáciles de estudiar :
Este método consiste en investigar a cualquier grupo de personas que son de
fácil acceso o que acuden a un lugar, por ejemplo: la gente que circula por
determinada calle a una hora específica del día.
En general, los métodos no probabilísticos carecen de validez científica,
además de que no tienen una base teórica para calcular la escala de error ni la
representatividad de la muestra, por lo que siempre es aconsejable utilizar
métodos probabilísticos.
TAMAÑO DE LA MUESTRA.
Uno de los problemas más difíciles del muestreo probabilístico es la
determinación del tamaño de la muestra, ya que el objetivo primordial al
11
determinarlo es obtener información representativa, válida y confiable al mínimo
costo. Para obtener más exactitud en la información, es necesario seleccionar
una muestra mayor; sin embargo, el solo hecho de contar con una muestra grande
no garantiza su representatividad.
El tamaño de la muestra estará relacionado con los objetivos del estudio y las
características de la población, además de los recursos y el tiempo del que se
dispone. El tamaño absoluto de la muestra y su varianza son los que ejercen
mayor influencia en el error estándar. El tamaño de la muestra se puede
determinar con base en la fórmula del estimador de la varianza:
()
V y =
s2
n
n=
s2
V (y)
z
n=
E
En donde:
n = tamaño de la muestra.
z = estadística Z correspondiente.
∧
σ = valor estimado de la desviación estándar del parámetro de la población.
E = máxima magnitud de error aceptable.
Las etapas para determinar el tamaño de la muestra en el muestreo aleatorio
simple, que es el más usual, son las siguientes:
1. Determinar el nivel de confianza con el que se desea trabajar.
X = σ o el 66% de confianza
X = 2σ o el 95% de confianza
X = 3σ o el 99% de confianza
(como ya se vio al hablar de muestreo, el más usual es 2σ).
2. Estimar las características del fenómeno investigado. Para elio se
determina la probabilidad de que se realice el evento (p) o la de que no se
realice (q); cuando no se posea suficiente información de la probabilidad
del evento, se le asignan los máximos valores:
( p = .50 q = .5C )
La suma de p + q siempre debe ser igual a 1.
12
3. Determinar el grado de error máximo aceptable en los resultados de la
investigación. Éste puede ser hasta del 10%; normalmente lo más
aconsejable es trabajar con variaciones del 2 al 6%, ya que variaciones
superiores al 10% reducen demasiado la validez de la información.
4. Se aplica la fórmula del tamaño de la muestra de acuerdo con el tipo de
población.
• Infinita. Cuando no se sabe el número exacto de unidades del que está
compuesta la población.
• Finita. Se conoce cuántos elementos tiene la población.
Para cada tipo de población se utiliza una fórmula distinta. Para poblaciones
infinitas la fórmula es:
pq
n=
e2
Y para poblaciones finitas la fórmula es:
Z 2 Npq
n=
e 2 ( N − 1) + Z 2 pq
En donde:
Z = nivel de confianza
N = universo
p = probabilidad a favor
q = probabilidad en contra
e = error de estimación
n = tamaño de la muestra
El error de estimación se utiliza con dos finalidades:
• Estimar la precisión necesaria.
• Determinar el tamaño de muestra más adecuado.
Para calcular el error de estimación con un nivel de confianza del 95% o 2
sigmas, se aplica la siguiente fórmula:
13
3.84 pq
e=
n
En donde:
e = error de estimación
n = número de elementos
p = probabilidad a favor
q = probabilidad en contra
Con el objeto de evitar tantas operaciones, para determinar el tamaño de la
muestra y el error de estimación, existen tablas previamente calculadas, por
ejemplo: para el caso del estudio de los factores que inciden en la productividad
de los obreros, si se quisiera entrevistar a los gerentes de producción para
conocer su opinión:
1. Se determina el nivel de confianza (95%/5%).
2. Se toma como referencia la lista de las 500 empresas-más grandes que
anualmente publica la revista Expansión y se numeran (marco muestral).
3. Se obtiene una lista de los gerentes de producción que trabajen en cada
empresa y se numera.
4. Se elige el método de muestreo. En este caso, dadas las características de
la población, se utilizaría el método probabilístico y el muestreo aleatorio
simple.
5. Se aplica la fórmula de acuerdo con la población (en este caso finita), al
intervalo de confianza del 95% y al error de estimacióndel5%.
3.84 Npq
n=
e ( N − 1) + 3.84 pq
2
3.84 × 500 × .5 × .5
n=
(.05) × (500 − 1) + 3.84 × .5 × .5
2
480
n= = 384
1.25
El tamaño de la muestra sería de 384, es decir, se aplicarían 384
encuestas.
6. Mediante una tabla de números aleatorios se eligen las empresas que se
14
van a encuestar, de acuerdo con el método que anteriormente se explicó.
REQUISITOS DE UN MUESTREO ADECUADO.
Con el fin de que el muestreo proporcione resultados efectivos es necesario
tomar en cuenta lo siguiente:
1. Contar con la asesoría de un estadístico experimentado para obtener un
diseño de muestreo.
2. La exactitud de la información no sólo depende de la aplicación de las
fórmulas de muestreo: la calidad del cuestionario, la capacitación de los
entrevistadores, la supervisión del trabajo de campo y la confiabilidad de la
codificación son imprescindibles para lograrla.
3. Las entrevistas y cuestionarios incompletos y la sustitución de los
entrevistados porque el encuestador tiene dificultades para entrevistarlos,
dañan la representatividad de la muestra.
4. El muestreo es sólo una parte del proceso de investigación, y aunque los
resultados que se obtienen son cuantificables, es necesario analizarlos e
integrarlos en relación con el contexto total de la investigación.
5. En el proceso de muestreo existen dos tipos de errores:
• Errores debido al muestreo o la cota error inherente al método de
muestreo.
• Errores no debidos al muestreo o fallas de tipo humano al obtener
información, al procesarla, o de distorsión de ixistrucciones.
6. A medida que el tamaño de muestra crece, el error tiende a cero.
7. De los diseños de muestra debe elegirse el de mayor precisión al costo
mínimo.
oooOooo
Selección y adaptación:
Dr. Enrique Rivas Galarreta.
Profesor de Filosofía y Ciencias Sociales.
Psicólogo, C.Ps.P. 8973.
Doctor en Educación.
Trujillo, enero del 2007.
15