Llegando al grupo familiar
Una vez que se han tomado decisiones sobre la construcción deseada de la muestra global, por ejemplo, el tamaño total de la muestra y el numero de entrevistas a ser conducidas en cada estrato, el siguiente paso es traducir esa muestra deseada en entrevistas.
Hay por lo menos dos maneras muy diferentes de proceder en este punto. La clave de la distinción es decidir si usted quiere una muestra de probabilidades aleatorias o una muestra por cuotas.
Muestra de probabilidades aleatorias
En las posibilidades aleatorias, cada persona de la población tiene la misma oportunidad de ser seleccionada al final de la muestra. Esto supone que nosotros conocemos el tamaño global de la población. Si el tamaño es "n", entonces la probabilidad de selección de las personas es = 1/n.
Si contamos con un listado de toda la gente que vive en una determinada demarcación, una muestra probabilística totalmente al azar simplemente significa que se irán extrayendo de esa lista todos los nombres necesarios hasta alcanzar la cifra deseada. Alternativamente, si se ha segmentado la muestra en varios subgrupos (por ejemplo, población urbana y rural), se seleccionará al azar un número X de nombres de la lista de población urbana y un número Y de nombres de la lista de poblaciones rurales. Una vez que se ha integrado la muestra, simplemente será necesario visitarlos, contactarlos por teléfono, o enviarles el cuestionario por correo.
Incluso en los casos en que se cuenta con listados completos de todas las personas que habitan en una comunidad, las entrevistas personales que utilizan muestras totalmente azarosas tienden a ser extraordinariamente costosas. Se tienen que asumir los costos de realizar entrevistas en todos los sitios seleccionados al azar independientemente de qué tan distantes resulten entre sí. Consecuentemente, las estrategias de entrevista más personalizadas utilizan muestras al azar acotadas. Es decir, se minimizan los costos de transportación enviando a un grupo de entrevistadores a una locación seleccionada al azar para que conduzcan las series de entrevistas requeridas en ese punto.
Las muestras acotadas son ampliamente utilizadas porque reducen costos, pero también porque a menudo no se cuenta con listas completas de nombres. Muchos países, provincias o municipalidades no cuentan con ese tipo de listas o, si lo hacen, no las compartirán con un investigador.
Por tanto, se debe saber cuanta gente conforma la población total y cuanta vive en las distintas regiones o subgrupos, aunque no necesariamente se cuente con un listado de sus nombres. Las muestras acotadas alrededor de puntos muestrales y específicos permite llegar a los domicilios individuales de forma tal que se mantenga el azar y una idéntica probabilidad de selección.
Esto implica la selección de un conjunto de las denominadas "unidades primarias de muestra" (UPM's). Las UPM's son las unidades más pequeñas de las que se eligen al azar los puntos de muestra finales. Las UPM's comprenden las unidades geográficas más pequeñas sobre las que existen datos poblacionales confiables (para la mayoría de las encuestas, esto significa la población de más de 18 años). En algunos países que cuentan con buenos datos censales, son llamadas "áreas numeradas".
Sin embargo, el procedimiento no se limita simplemente a extraer puntos muestrales finales de las UPM's, porque estas casi siempre tienen diferentes magnitudes de población. Aún en los casos en que se pueden obtener áreas numeradas determinadas por el censo consistentes en un número igual de domicilios cada una (por ejemplo, en Zimbabwe cada área numerada comprende 100 domicilios) el número de personas en cada domicilio diferirá. Por tanto, se debe pesar cada UPM potencial por el número real de personas que viven en ella. Es decir, la probabilidad de seleccionar un punto muestral final de una UPM debe ser proporcional a su población efectiva.
Una vez que se ha medido cada UPM por el tamaño de su población, se puede proceder a seleccionar al azar los puntos muestrales finales. El número efectivo de puntos muestrales finales se determina por el número de entrevistas que se desee realizar en cada punto y el tamaño total de la muestra. La mayoría de las encuestas realizan entre cinco y siete entrevistas en cada punto. Consecuentemente, si se van a hacer cinco entrevistas en cada punto y el tamaño total de la muestra es de 2,500, se debe seleccionar al azar una lista de 500 puntos muestrales finales.
Ahora ya sabemos a donde queremos ir. Por ejemplo, la lista generada puede mostrar 350 suburbios, algunos de los más populosos serán seleccionados más de una vez y 150 distritos rurales.
Los investigadores de encuestas dispondrán de mapas de cada una de estar áreas y luego seleccionarán al azar un lugar en un suburbio. Si los investigadores son muy escrupulosos respecto a la transparencia de los puntos numerados elegidos al azar, esto puede volverse muy laborioso; luego se seleccionará un número al azar y se buscará en el mapa la calle en donde intersecta. Ese es el punto a donde finalmente se enviará a los entrevistadores.
En muchos lugares no existen mapas confiables, o los mapas rurales pueden ser tan extensos que solo muestran la ubicación de los poblados, pero no las calles que los conforman. En este caso, se tendría que fijar una regla como la de empezar en algún punto común, tal como una iglesia, escuela o edificio municipal.
Una vez que los entrevistadores saben a que punto deben dirigirse, deben seguir una serie de reglas que les permitan seleccionar domicilios al azar. Por ejemplo, pueden dirigirse al punto de partida convenido, mirar al este o al oeste y luego avanzar diez casas y realizar entrevistas cada cinco. La regla debe ser elegida al azar, pero todos los entrevistadores deben seguir una misma. El punto clave es que el entrevistador no debe intervenir en la selección de los domicilios.
El último paso consiste en seleccionar a un entrevistado real. Una vez más, darle a todas las personas la misma probabilidad de ser seleccionadas exige que no sólo se hable con la gente que abre la puerta o conteste el teléfono. Si se está trabajando con una muestra escogida de un enorme registro de población, se necesita hablar con la persona específica cuyo nombre aparece en la lista.
Si no se cuenta con esa lista, una vez que está frente a la puerta o tiene a alguien al teléfono, se necesita "numerar" el domicilio o hacer una lista de la gente que vive en él (normalmente son ciudadanos mayores de 18 años). Luego se necesita seleccionar un nombre al azar y entrevistar únicamente a esa persona. Una forma común de seleccionar a esa persona al azar es preguntar quién de los residentes en el domicilio cumplió años más recientemente. En áreas rurales, mucha gente puede irritarse al no tener la oportunidad de expresarse, especialmente si no se elige al jefe de la familia, sobre todo si es hombre, y pueden desatender el método del cumpleaños. Una forma visible de mostrar la lógica de la selección al azar es la de distribuir un juego de tarjetas de distintos colores entre todos los elegibles, volverlas a reunir y pedirle a alguno de los presentes que seleccione al azar una de las tarjetas: la persona a la que se distribuyó esa tarjeta es a la que se entrevista.
Sin embargo, no todas las puertas que se toquen ni todas las llamadas telefónicas que se atiendan se traducirán en una entrevista exitosamente realizada. Muchas personas no estarán en casa, otras sí lo estarán pero permanecerán inaccesibles tras rejas de seguridad y otras simplemente se rehusarán a contestar. Como se ha indicado, es muy importante hacer todo el esfuerzo posible para que las personas no se autoexcluyan de la muestra. Esto debido a que es probable que quienes no se encuentran en su domicilio o se rehusan a participar sean diferentes de la muestra general en varios sentidos. Es altamente probable que las personas que generalmente se encuentren en casa, especialmente si las entrevistas se realizan entre semana, sean jóvenes, desempleados, amas de casa y ancianos. Los que se rehusan a hablar con los entrevistadores tienden a ser más extraños, y se quiere que ese tipo de personas estén representados en cualquier muestra. Esto es especialmente cierto si la extrañeza se relaciona con un tópico de interés, como votar.
Las "no respuesta" pueden causar estragos en la representatividad de una muestra. En los Estados Unidos se han duplicado desde los 50's, pasando de entre 12 y 22% a entre 30 y 55% en el caso de entrevistas personales y de 25 a 35% para muestras telefónicas. En Sudáfrica, las "no respuestas" llegaron a cerca del 100% en algunas comunidades de blancos conservadores en entrevistas realizadas entre 1993 y 1994.
Un truco utilizado con frecuencia es el de corregir las no respuestas "promediando" las respuestas obtenidas de acuerdo con las estadísticas censales conocidas. Así, si no fueron entrevistados suficientes varones de edad media, las respuestas de ese grupo pueden ser "promediadas al alza" en algunas fracciones. De esta forma se tiene que, por ejemplo, si solo se realizaron la mitad de las entrevistas a este subgrupo de las que se requerían en la muestra, simplemente se multiplica cada caso por 1.5.
No obstante, esto resulta problemático porque se asume que aquellos que no fueron incluidos en la muestra o rehusaron participar son iguales a los que se entrevistaron en todo el espectro de actitudes registrados por la entrevista. Sin embargo, como se acaba de mencionar, el simple hecho de que una persona estuvo fuera del lugar (probablemente trabajado o de compras) o se rehuso a contestar, probablemente las hace diferentes de aquellos que sí estuvieron en casa o quisieron hablar con el entrevistador.
Son pocas las cosas que se pueden hacer para minimizar la incidencia de quienes se rehusan a colaborar. Los entrevistadores requieren ser capacitados intensamente para que sean tan corteses como sea posible. El cuestionario debe incluir una parte introductoria que haya la encuesta lo más interesante posible para los potenciales entrevistados así para convencerlos de la importancia que se le concede a sus opiniones. Finalmente, los entrevistadores deben preguntar si han llegado en un momento oportuno y si no, ofrecer la posibilidad de concertar una cita cuando el entrevistado no esté ocupado y pueda invertir algún tiempo en responder las preguntas formuladas.
Se puede tratar de minimizar el efecto de la gente que no se encuentra en su hogar de distintas maneras. Antes que nada, se debe tratar de celebrar la mayor parte de las entrevistas por la noche o durante los fines de semana. Los días hábiles son difíciles porque los trabajadores suelen encontrarse fuera de su hogar, aunque las amas de casa pueden disponer de más tiempo para hablar. El peor momento parece ser el de la cena, cuando la gente se encuentra ocupada en su preparación o consumo y les irrita más ser perturbadas.
En segundo lugar, se le debe dedicar una gran atención a las denominadas "llamadas posteriores". Si la persona incluida en la lista o la que fue seleccionada al azar por el método del cumpleaños o de las tarjetas de colores no se encuentra disponible, se debe preguntar cuándo es probable que regrese y volver entonces para conseguir la entrevista. La mayoría de las compañías encuestadoras exigen que los entrevistadores realicen al menos dos, cuando no tres "llamadas posteriores" para contactar a la persona originalmente seleccionada. Algunas encuestas que proveen información sobre el mercado para los medios requieren hasta cuatro de esas llamadas.
Sólo cuando el entrevistador ha efectuado el número requerido de llamadas posteriores y no ha tenido suerte, se le debe permitir realizar una "sustitución". El sustituto no debe ser alguien que habite el mismo hogar. Es preferible que sigan alguna regla, como ir a la segunda o tercera casa de la izquierda o la derecha o marcar un número arriba o debajo de la lista telefónica.
Una vez más, la clave reside en hacer un esfuerzo extra para asegurarse de que quienes probablemente se encuentren fuera de su domicilio no pueden escabullirse fácilmente de la muestra y de que no sean fácilmente sustituidos con el tipo de personas que es más probable que se encuentren en su hogar.
La ventaja de una muestra probabilística al azar es que permite sacar provecho de las leyes de muestreo matemático que posibilitan generar resultados basados en una muestra de la población en su conjunto. Estas leyes nos indican que el (significado) promedio de cualquier muestra tomada al azar tenderá a igualar el significado de la población total de la que se extrajo. Más concretamente, para cualquier tamaño muestral determinado, esas leyes nos ofrecen fórmulas para calcular el margen de error exacto de cualquier muestra. Es decir, sabemos que para una muestra determinada, una estimación muestral se ubicará más o menos dentro del 95% del valor de la población total. Esto es así porque si tomamos un gran número de muestras, las leyes de probabilidad nos indican que alrededor del 5% caerá fuera del margen normal de error. Sin embargo, 95% de las muestras su ubicarán dentro del rango o banda calculable de la población total. Entre más grande la muestra más estrecha esa banda.
Cuotas
Un método alternativo es el de muestras por cuota. En este caso, la muestra total se construye para representar a la población en su totalidad a lo largo de todas las líneas importantes de diferenciación. Por ejemplo, si se decide que la muestra tendrá ciertos porcentajes de cada provincia y de cada ciudad, de hombres y de mujeres, de cada grupo lingüístico y de cada grupo racial. Sin embargo, la selección final queda a juicio del entrevistador. A cada entrevistador se le da una cuota que cubrir en su área; es decir, una lista con el número de personas que deben identificar y entrevistar y que correspondan a las distintas categorías demográficas. Así se le puede pedir a un entrevistador que encuentre a cinco hombres y seis mujeres africanas que vivan en áreas urbanas, y a siete hombre y ocho mujeres africanas que vivan en áreas rurales.
Sin embargo, no se les indica a qué domicilios o calles ir, o algún procedimiento de selección al azar que deban seguir, simplemente deben encontrar a la gente que se ajuste a las categorías deseadas.
Debido a que los entrevistadores se les libera de la responsabilidad de recorrer todo el procedimiento al azar descrito anteriormente. Son capaces de obtener el número deseado de entrevistados más fácilmente y con costos de transporte mucho más bajos. Esto hace que las muestras por cuota sean considerablemente más económicas que las muestras probabilísticas al azar.
No obstante, la mayor limitación deriva del hecho de que al sustraerle la misma y conocida probabilidad de inclusión que caracteriza a la muestra probabilística, no se pueden utilizar las teorías matemáticas de la probabilidad para hacer inferencias de una muestra por cuotas a la población en su conjunto. Podemos calcular la frecuencia de respuestas de una muestra por cuotas, pero hablando estrictamente, no se puede determinar el grado en que esos resultados serán representativos de los valores verdaderos de la población en su conjunto.