Les sondages sont utiles lorsque l’on veut connaître des choses au sujet d’un grand nombre de personnes. Le but est de parler à un plus petit nombre de gens (échantillon) et d’extrapoler les résultats à un plus grand groupe de personnes (population).
L’échantillonnage est souvent complexe et, en général, cela demande un grand nombre de données statistiques et d’ordinateurs. Ceci dit, il importe de comprendre la logique fondamentale, et ce, afin de communiquer de façon intelligente à une entreprise qui travaille sur le terrain ce qu’on désire et de vérifier ce qu’elle fait vraiment.
Au sujet de quel segment de la population recherche-t-on de l’information, qui permettra ensuite de faire des extrapolations? S’agit-il de tous les électeurs ou seulement des électeurs probables, des jeunes, des personnes âgées, des électeurs blancs ou des électeurs noirs?
Établir un échantillon pour une population se compare à faire une soupe. Quand vous mélangez un grand bol de soupe, tout bon cuisinier vous dira que vous n’avez besoin de prendre que deux ou trois cuillerées pour avoir une idée passablement fiable de ce que goûtera tout le bol. Évidemment, ceci suppose que la soupe a été bien mélangée et, en conséquence, que tout le sel n’est pas pris dans un seul coin, que toutes les pommes de terre ne sont pas au fond du bol ou que tout l’ail n’est pas allé sur les parois du bol. Chacune de ces possibilités signifierait que les cuillerées ne sont probablement pas représentatives du bol en entier.
De même, si l’on suppose que le contenu du bol est bien mélangé, un nombre à peu près identique de cuillerées tirées au hasard donnera une bonne idée du goût, sans tenir compte du fait que la soupe provient d’une casserole ordinaire sur la cuisinière de la maison ou d’une de ces casseroles de taille industrielle dans un restaurant. Le même nombre de cuillerées fera l’affaire si le contenu du bol est bien mélangé. Le nombre de cuillerées qu’il serait souhaitable de prendre pourrait augmenter légèrement, mais cette augmentation ne serait jamais aussi grande que la différence dans la taille des deux bols.
Or, peu de populations sont bien mélangées : souvent, il y a des groupes de gens (ou des sous-groupes) dont les attitudes diffèrent grandement de celles d’autres gens (tout comme il y a différents légumes et assaisonnements qui ont un goût différent) qui ne sont pas répartis ça et là dans la population mais qui ont tendance à se regrouper dans certaines régions, dans certaines villes ou dans certains quartiers.
Il faut chercher à réduire autant que possible la possibilité que l’un de ces groupes, ou sous-groupe, échappe à l’échantillonnage aléatoire, ou qu’il y soit sous-représenté. De fait, lorsque l’on tente d’établir un échantillon qui soit représentatif de toute la population (ou bol de soupe), on voudra probablement aussi subdiviser l’échantillon de manière à établir de petits sous-échantillons de chaque sous-groupe ciblé (assurant ainsi la présente adéquate des sous-groupes que sont les pommes de terre, le riz et les tomates).
Ceci veut dire qu’il faut faire attention et s’assurer de représenter les personnes de toutes les races et toutes les langues, de toutes les régions, qu’elles soient riches ou pauvres, qu’elles habitent en ville ou à la campagne. En général, la taille de chaque sous-groupe devrait correspondre à sa taille au sein de la population. Ainsi, si la composante rurale d’une population visée est de 52 %, la composante rurale de l’échantillon devrait être identique.
Mais dès qu’on décide d’établir plus de deux sous-groupes, déterminer la composition réelle de l’échantillon peut s’avérer plus compliqué. Par exemple, un échantillon national en Afrique du Sud voudrait que l’on y retrouve des personnes de race mixte vivant en milieu rural dans la région de Western Cape ainsi que des personnes de race blanche ou noire vivant en milieu rural dans cette même province. Ceci voudrait dire aussi avoir des gens de chaque groupe vivant dans les zones métropolitaines de cette province. Comme tout ceci peut devenir passablement compliqué, il pourrait s’avérer utile de recourir à un démographe ou à un mathématicien bien formé pour réaliser ce travail.
Cependant, dans certains cas, il peut être souhaitable de procéder à un échantillonnage aléatoire où la représentation des sous-groupes est plus grande que dans les faits. Ceci arrive en général lorsqu’un sous-groupe ciblé représente une petite portion de la population cible. Par exemple, en Afrique du Sud, un échantillon proportionnel comprendrait seulement 9 % de répondants de race mixte et environ 2 % de ceux-ci seraient de souche indienne. Mais si pour des raisons financières, l’échantillon national ne comptait que 2000 personnes, ceci voudrait alors dire qu’il y aurait moins de 200 répondants de race mixte et environ 40 de souche indienne.
Cependant, il peut s’avérer impossible d’établir des estimations statistiques fiables en se fondant sur un sous-échantillon de 40 personnes. Même avec 200 personnes, la marge d’erreur statistique pourrait être à ce point élevée que les projections sur les électeurs de race mixte ne seraient pas très utiles pour l’élaboration d’un programme de formation électorale ciblant ces communautés. Ceci deviendrait d’autant plus important si quelqu’un voulait examiner les différences entre les hommes et les femmes, entre les populations urbaines et rurales, entre les partisans des partis, au sein de sous-groupes de race mixte et de souche indienne. Le nombre de répondants provenant de ces groupes serait si petit que cet échantillon serait à toutes fins pratiques inutile.
En conséquence, un échantillon plus important de tels petits groupes pourra alors être envisagé. Dans ce cas, alors qu’un petit groupe ne devrait comprendre que 40 personnes si l’on établissait une base strictement proportionnelle, une décision pourra être prise de mener 100 entrevues en vue d’avoir une base d’information plus fiable. Dès que toutes les données auront été collectées, le caractère disproportionné de cet échantillon sera corrigé en pondérant les 100 entrevues au moyen d’un rapport approprié pour qu’elles représentent une proportion correcte de l’échantillon global.
La pondération est aussi utile pour d’autres attributs démographiques importants au sujet desquels existent des renseignements, mais qui ne seront pas connus jusqu’à ce que les répondants ouvrent la porte. Par exemple, il se pourrait que le nombre d’hommes et de femmes dans la population ciblée de même que le nombre de personnes ayant tel ou tel niveau de scolarité soient connus. Mais à prime abord, il pourrait ne pas être possible de découper l’échantillon selon ces traits, car jusqu’à ce que quelqu’un ouvre la porte ou réponde au téléphone, l’intervieweur ne saura pas si le répondant est un homme ou une femme ou quel est son niveau de scolarité.
Dès que l’échantillon est établi, il peut être comparé à la population réelle en tenant compte des données démographiques et de l’information dont on dispose à cet égard. On pourra pondérer le nombre de personnes au sein de l’échantillon dans un sens ou dans l’autre. Par exemple, imaginons que l’on contactait deux fois plus de femmes dans l’échantillon qu’il en existe réellement dans la population. Dans ce cas, le poids relatif de chaque femme au sein de l’échantillon serait réduit de moitié pour ramener la proportion des femmes au sein de l’échantillon à ce qu’elle est dans les faits.
L’échantillonnage est un déterminant majeur du coût d’un sondage. Lorsque ceux-ci comprennent des échantillons avec une proportion élevée de répondants ruraux, ils auront tendance à être relativement coûteux en raison des coûts associés au déplacement des intervieweurs dans les zones rurales éloignées.
En général, pour être capable de mener un sondage à l’échelle nationale au moyen d’un échantillon représentatif, il faut disposer d’une d’infrastructure importante et d’un grand nombre d’employés. Ainsi, même si les organisations non gouvernementales sont capables de concevoir le projet et d’en analyser le résultat, la plupart d’entre elles opteront pour retenir les services d’une organisation professionnelle afin de procéder aux entrevues.