Boletines

Boletín Electrónico N° 14
ERRORES DEBIDOS AL MUESTREO: MARGEN DE ERROR



A la hora de seleccionar una muestra, el cálculo del tamaño requerido es uno de los temas que provoca más inquietud e incertidumbre en los encargados de la tarea. Esto se debe a que es un tema controvertido, del que se habla mucho sin tener muy claro de qué se trata.

Todos estamos de acuerdo con que cuanto mayor sea el tamaño de muestra, mejores serán nuestras estimaciones, pero, debido a que el trabajo de campo es caro, es preciso encontrar alguna "técnica" que permita determinar el tamaño de muestra "adecuado".

Esta expresión se repite como una oración sin tener muy claro qué se entiende por "adecuado". Toda esta incertidumbre es abonada por diversos textos que hablan del tema en forma poco clara y, lamentablemente, en muchos casos, errónea. Para comenzar por algún lado a desentrañar este aparente misterio, digamos que, cuando extraemos una muestra, cualquier cálculo que se realiza con los datos obtenidos de ella es una "estimación" y necesitamos saber si podemos "creer" en ella.

En el contexto de las muestras probabilísticas (según fueron definidas en el Boletín anterior), podemos hablar del "grado de creencia" que se puede tener en las estimaciones obtenidas a partir de ellas. Este grado de creencia se refleja en la expresión que dice: la probabilidad de obtener una estimación que no difiera del valor desconocido que se quiere estimar en más de una cantidad determinada es una magnitud que puede calcularse a priori. Esta expresión es la principal causante del endiosamiento de las muestras probabilísticas, sin tener en cuenta cuál es su verdadero significado.

"En más de una cantidad determinada" quiere decir que podemos establecer la diferencia máxima que existirá entre el valor que calculemos a partir de la muestra y el verdadero valor desconocido. A esta diferencia se la suele denominar "margen de error", se la indica con d y es igual a:

fórmula 1

donde P es la proporción que queremos estimar, Q es su complemento, es decir, es (1-P) y n es el tamaño muestral.



Este margen de error puede ser controlado a partir del tamaño de la muestra n , lo cual es intuitivamente comprensible porque, como ya acordamos, cuanto mayor sea el tamaño de la muestra mejores serán nuestras estimaciones.

Ahora bien: ¿qué significa esa letra t que aparece en la fórmula?.

Podríamos decir que t "representa"
la probabilidad de que el margen de error sea menor o igual a una cantidad determinada, es decir, la probabilidad de que ocurra lo que queremos que ocurra.

También podemos pensar en la contrapartida de esta probabilidad, es decir, en la probabilidad de que el margen de error supere esta cantidad determinada, o sea, el riesgo de que ocurra lo que no queremos que ocurra. Este riesgo es el que uno está dispuesto a correr para poder mantener el tamaño de muestra dentro de límites aceptables, se indica con la letra (alfa) y se denomina también "probabilidad de obtener una mala muestra".

Habitualmente el valor de t se fija en 2 y corresponde a una probabilidad (1-) del 95% de que nuestra estimación no difiera del valor desconocido en más de d, o sea, corresponde a un riesgo del 5% de que sí ocurra.

Según la teoría del muestreo, se denomina "error de tipo I" al hecho de que el margen de error supere la cantidad prevista y "probabilidad de cometer un error de tipo I" al riesgo . Por razones no del todo claras se aplica el término error, no sólo al hecho de que el margen de error supere la cantidad prevista (lo cual es correcto), sino también para referirse a la probabilidad de que esto ocurra, es decir al (lo cual es incorrecto).

El valor de d puede expresarse de dos formas: en valores absolutos y en valores relativos. En valores absolutos d tiene la expresión señalada en la fórmula 1. Veamos un ejemplo para entender qué significa este d en valores absolutos.

Usemos un ejemplo habitual en investigación de mercado para ilustrar estos conceptos. Supongamos que P es la proporción de personas que calificaron con puntaje más alto su nivel de satisfacción con un producto y que esa proporción fue del 0,60. Entonces Q, la proporción de personas que no calificaron con el puntaje más alto, resultó igual al 0,40. Aceptamos un error de 0,12 para estimar la proporción P. ¿Qué significa decir esto? Significa que aceptamos que nuestra estimación de la proporción difiera del valor "desconocido" en +/- 0,12.

Ahora bien, si la proporción P a estimar no fuera de 0,60 sino de 0,10, manteniendo el mismo margen de error (0,12), obtenemos estimaciones mucho menos confiables porque el margen de error es mayor que el valor que queremos estimar (es alto "en relación" al valor que queremos estimar).

Este ejemplo nos lleva a la otra forma de expresar el margen de error d (en términos relativos a P):

fórmula 2

Siguiendo con el ejemplo anterior, el margen de error relativo correspondiente a un margen de error absoluto de 0,12 respecto a la proporción de 0,60 sería del 20%, pero el mismo 0,12 sobre un P de 0,10 sería del 120%.

Hasta aquí hemos hablado del error estadístico denominado "margen de error", presentándolo en su forma absoluta y en su forma relativa, inclinándonos por la utilización de esta última.

En el siguiente Boletín encararemos el estudio de otro tipo de error que, en su forma absoluta, se denomina Desvío Estándar y, en su forma relativa, Coeficiente de Variación.