Critique du recensementDébatsVivre entre les lignesNotesObservations

Questions aux statisticiens et spécialistes des méthodes quantitatives relativement à la fiabilité d’un recensement volontaire

En marge de la décision sur la requête de la Fédération des communautés francophones et acadienne du Canada

ObservationsLe juge Richard Boivin de la Cour fédérale a entendu des preuves et des témoignages présentés au soutien et en opposition à l’Enquête nationale auprès des ménages (ENM) qui, à participation volontaire, remplace l’ancien formulaire long du recensement qui était obligatoire sous peine d’amende et même de prison. Le juge a conclu, cette semaine, « qu’il existe une incertitude quant au degré de fiabilité des données qui émaneront de l’ENM »… sauf que la Cour « n’est pas convaincue que les données de l’ENM ne seront pas fiables au point qu’elles seront inutilisables ».

Rappelons que le gouvernement conservateur a décidé de soustraire le questionnaire long du cadre légal obligatoire du recensement canadien pour le rendre volontaire. Pour compenser une éventuelle baisse de participation, il a prévu une augmentation de quelque 50 % du nombre de questionnaires longs (de 3 à 4,5 millions de ménages au cout additionnel de 30 millions de dollars) ainsi qu’une campagne de publicité incitative.

De nombreux statisticiens, démographes et chercheurs ont dénoncé cette décision. Selon eux, le volontariat entrainerait une diminution significative de la participation, notamment dans certaines portions de la population (plus pauvres, moins scolarisées, de certaines origines ethniques). Le résultat serait des données moins représentatives et biaisées qui déformeraient donc les portraits démographiques du pays, des régions et des communautés locales. Cependant, outre ces affirmations générales, les interventions publiques dans les médias n’ont jusqu’ici rapporté aucune démonstration statistique à l’appui. La conclusion du juge Boivin semble conforter cette perception.

Je fais donc ici un appel aux statisticiens et aux spécialistes des méthodes quantitatives afin de mieux préciser certains éléments clés du débat.Niveau de participation

Q-1: Peut-on démontrer, mathématiques et expériences à l’appui, comment une opération volontaire couvrant 30 % des ménages canadiens (si réalisée dans des conditions optimales) offrirait des données moins fiables qu’une opération obligatoire couvrant 20 % des ménages?

Note: certains médias ont rapporté 30 %; certains ont mentionné « un ménage sur trois », donc 33,3 %, d’autres 35 %. J’attends actuellement confirmation d’un chiffre de la part de Statistiques Canada.

Mise à jour au 14 octobre: Statistiques Canada a confirmé qu’il s’agissait de 33,3 %.

Rappelons que durant les dernières décennies, la population canadienne s’est montrée disciplinée: le taux de participation au recensement obligatoire a tourné autour d’un remarquable 95 % (c’est-à-dire la non-participation de moins d’un ménage sur 20). Or, nos voisins étatsuniens doivent, eux, gérer leur populeux pays avec des données provenant d’une participation inférieure à 75 % (abstention de plus d’un ménage sur 4). Ce qui nous amène à une nouvelle question:

Q-2 : Existe-t-il un seuil minimal de participation en deçà duquel un recensement cesse d’être utile?

Il est possible qu’il existe ici plusieurs seuils selon le type de données, le type d’utilisation et l’échelle spatiale (pays par rapport à pâté de maisons). Il est évident qu’on souhaite disposer des données les plus fiables et exactes possibles. Cependant, de tels seuils minimaux doivent bien exister, même s’ils relèvent largement de conventions établies entre des producteurs et utilisateurs de données. Et il faut connaitre ces seuils si on veut juger des données à l’appui d’une discussion quelconque (par exemple, les chiffres portant sur de réserves amérindiennes où la participation est très faible) ou envisager la nécessité ou non de mesures pour améliorer la participation (par exemple, campagnes de publicité, augmentation du nombre des ménages sollicités, modes de relance des non-répondants).

Taille de l’échantillon

En matière de sondages, on compense souvent un faible taux de participation par une augmentation de la taille de l’échantillon des personnes sollicitées.

Dans un premier temps, on calcule la taille de l’échantillon cible nécessaire (dit « échantillon théorique » de la population sondée) afin d’obtenir le niveau d’exactitude (ou marge d’erreur) recherché. Dans un second temps, on évalue le taux de participation en tenant compte d’une estimation des ménages qui refuseront de répondre, de ceux qui ne répondront pas en tout ou en partie ainsi que ceux qui seront absents durant la période prévue de recueil des réponses. Avec ces deux éléments, taille « n » de l’échantillon cible et taux de réponse anticipé, on calcule alors la taille « n »de l’échantillon de départ (ou effectif) nécessaire selon la formule suivante (en fait, la formule devrait inclure d’autres éléments qu’il n’est cependant pas nécessaire de discuter ici):

n départ = n cible * 1 / taux réponse

Regardons cela concrètement à partir d’un scénario utilisant arbitrairement les chiffres du recensement de 2006. En 2006, 12 347 500 ménages ont été dénombrés au Canada. L’administration du formulaire long à 20 % des ménages implique donc d’en contacter 2 487 500. Un taux de réponse remarquablement fiable de 95 % (si réparti uniformément, voir plus bas) signifie un échantillon final de 2 363 125 ménages.

Supposons un des pires scénarios envisageables, soit une chute drastique du taux de participation à seulement 70 % parce que la réponse au formulaire long n’est plus obligatoire, mais volontaire. Pour compenser, il faudrait augmenter ainsi l’échantillon de départ pour espérer atteindre le même nombre final de répondants, à savoir

n départ = 2 363 125 * 1 / 0,70 = 3, 375 892

Or, 3 375 892 représente 27 % de la totalité des ménages canadiens. Ainsi, selon cette formule canonique, la question 1 pourrait être reformulée ainsi:

Q-3 : Une opération volontaire (réalisée dans des conditions optimales, voir plus bas) avec un échantillon de départ de 30 %, n’aurait-elle pas une marge de sureté théorique suffisante; et même une réelle probabilité d’obtenir de meilleurs résultats qu’une opération obligatoire avec un échantillon de départ de 20 %?

Les biais de non-participation

C’est un fait bien connu et documenté que la participation de certaines portions de la population à des sondages volontaires est souvent plus faible. On parle ici de personnes plus faiblement scolarisées, plus pauvres, avec diverses limitations fonctionnelles, parlant peu ou pas l’une ou l’autre des langues officielles, de certaines origines ethniques. Or,

Q-4: N’est-il pas possible de mettre en place des mesures propres à mitiger les tendances à une participation plus faible de certaines catégories de personnes?

Dans un premier temps, il y a l’ancrage d’un recensement dans l’espace géographique qui délimite les frontières du pays, des provinces et territoires, des communautés locales et de ses voies de circulation. Un recensement nécessite de quadriller la totalité du pays et de situer chaque ménage recensé en un emplacement précis dans l’espace. Il est donc possible de vérifier, et redresser, le taux de réponse sur de petites unités géographiques, tels un pâté de maisons en ville ou quelques kilomètres de chemin en campagne.

Prenons une telle unité incluant 200 ménages. Un échantillon de 30 % représente déjà le nombre considérable de 60 ménages ! Un seuil plancher de participation de 70 % exigerait la réponse d’au moins 42 ménages parmi ces derniers, soit plus d’un ménage sur cinq situés dans cette unité géographique. Supposons que l’on constate après quelque temps que seulement 37 ménages ont répondu. Qu’est-ce qui empêcherait de tirer au sort 15 ménages de plus afin de les solliciter et s’assurer de dépasser le seuil plancher de participation?

Q-5 : Les petites unités géographiques étant généralement plus ou moins homogènes sur les plans socioéconomiques, une telle mesure de suréchantillonnage ne compenserait-elle pas certains biais liés à une faible participation?

Dans un deuxième temps,

Q-6 : Ne peut-on pas mettre en place un ensemble d’autres mesures incitatives et de soutien afin de mitiger certains autres biais découlant d’une faible participation (par exemple, ceux liés aux limitations fonctionnelles ou à la langue)?

En effet, Statistiques Canada n’a-t-il pas été capable de trouver les moyens de recenser des personnes sans-abris, certainement l’une des catégories de personnes les plus difficiles à rejoindre et à faire participer?

Conditions optimales

Évidemment, les mesures suggérées ci-dessus nécessitent des ressources, une planification et un temps de préparation conséquents. Ce qui soulève une nouvelle question, à savoir:

Q-7 : Combien de mois faut-il à un organisme tel Statistiques Canada pour concevoir et mettre en place une opération d’enquête volontaire susceptible de produire des données fiables?

En outre, le succès d’une enquête volontaire dépend aussi du niveau de consensus social au sujet de l’importance du recensement, et donc de la participation des citoyens à celui-ci. Il faut aussi des signaux clairs à l’effet qu’il n’y a pas de raison de ne pas répondre le plus honnêtement possible puisque non seulement la participation à l’enquête est volontaire, mais que la réponse à chacune des questions est tout aussi volontaire.

Or ces derniers mois, les interventions de plusieurs députés et ministre conservateurs ont souvent mis en doute la légitimité même de plusieurs des questions du formulaire long du recensement, voire l’utilité même d’un recensement. Ce qui nous amène à une question d’une tout autre nature, s’adressant cette fois au gouvernement du parti conservateur :

Q-8 : Ce gouvernement et ses députés entendent-ils ou non mettre en place une campagne de publicité et soutenir par leur déclaration la participation du plus grand nombre possible de citoyens afin d’assurer le succès de l’Enquête nationale des ménages?

Voici quelques questions seulement. Je noterai les réponses obtenues. Et il y en a d’autres questions. Et plusieurs soulèvent à leur tour d’autres questions encore. À suivre donc…

Mise à jour au 14 octobre: une réponse

Un professionnel des méthodes quantitatives

L’idée qu’un échantillon volontaire diminue la fiabilité et la validité des données est un fait aussi accepté aujourd’hui que l’idée que la terre est ronde. […] Il y a de nombreux articles qui portent sur l’ampleur du biais, sur ses raisons, sur les façons que l’on tente, tant bien que mal, de contourner ces biais, etc. Mais on ne réussit jamais vraiment à contourner.

[Quant à la conclusion du juge Boivin] Je n’ai pas lu les arguments en faveur d’un questionnaire volontaire et comment ils pensent pouvoir éviter les biais échantillonnaux. Bien sûr qu’il y a une incertitude quant au degré de fiabilité des données de l’ENM, puisqu’on n’a jamais fait un tel exercice auparavant. Il y a une certitude quant au fait que les données seront biaisées, mais il est difficile de prévoir à l’avance l’ampleur et la nature de ce biais.

Augmenter le nombre de questionnaires longs ne changera rien au biais, et rien ne nous permet de croire qu’une campagne publicitaire permettre de corriger le biais. La campagne pourrait très bien l’accentuer (surtout si elle est faite uniquement dans les deux langues officielles).

Sur Q-1: La quantité de volontaires importe peu. Même si on demande à 100 % des Canadiens de répondre, le biais sera toujours là et affectera l’échantillon. La seule chose qui normalement augmente avec la taille de l’échantillon sera la précision des estimations, mais ces estimations seront malgré tout biaisées. D’ailleurs quel sera le taux de réponses à ce questionnaire? Est-ce que le gouvernement fait le pari que ce taux de réponse sera d’au moins 67 % (c’est ce que cela prendrait pour obtenir des réponses sur 20 % des Canadiens).  Et si le taux de réponse était de 20 % (ce qui n’est pas inhabituel) ?

Ceci dit, si on a 95 % de la population qui répond, il est beaucoup plus facile d’identifier la nature du biais et de corriger celui-ci que lorsque l’on a un échantillon de 20 % ou 30 %,

Sur Q-2 : Impossible de répondre à cette question. Un sondage téléphonique sur 1000 individus à travers le Canada peut être en soi très utile, mais a des fins différentes. Plus on se centre sur une population précise (une province, une ville, un quartier, un secteur ou un bout de rue), moins l’échantillon est précis. L’utilité est directement proportionnelle à la taille de l’échantillon (quand vient le temps de regarder des sous-populations) et inversement proportionnelle à la taille du biais. Mais il est impossible de compenser le biais par la taille de l’échantillon.

Sur Q-3 : Non. Il ne faut pas confondre la précision des estimations et le biais de ces estimations. Si on demande a tous les ménages recensés de répondre (volontaire) et qu’on obtient le double du nombre de répondants (disons 5 millions), on se retrouvera malgré tout avec des réponses différentes de ce qu’on aurait obtenu avec un questionnaire obligatoire. Les réponses seront biaisées, mais permettrons de faire des estimations plus précises, même si ces estimations s’avèrent à côté de la réalité. C’est comme si on dépensait des millions pour avoir un thermomètre qui mesurerait la température extérieure au centième de degré près, mais que ce thermomètre était mal calibré ou mal installé et, donc, pouvait se tromper de plus ou moins 5 degrés Celsius. À quoi sert de payer plus pour plus de précision, si l’instrument n’est pas valide.

Sur Q-4: Non, ça ne marche pas. Tu ne corriges pas le biais, tu augmentes simplement la précision de la mesure biaisée. Il y a différente façon de corriger pour les biais, mais augmenter l’échantillon n’en est pas une. Pour estimer le biais et tenter de le corriger, il faut nécessairement utiliser une autre méthode d’échantillonnage et de participation qui ne partage pas avec la première méthode, les mêmes biais. Par exemple, si on imposait dans certains quartiers, le questionnaire obligatoire dans un deuxième temps a tous ceux qui n’ont pas retourné leur questionnaire obligatoire, alors, nous serions mieux en mesure d’évaluer quel était le biais de participation. Dans certains sondages, des gens répondent du premier coup, d’autres reçoivent un rappel, d’autres nécessitent un deuxième rappel, et enfin on réussit souvent à aller en chercher d’autres en leur offrant une compensation volontaire (un petit $). On fait ces différentes démarches justement pour tenter d’évaluer les biais. On se rend compte souvent que les caractéristiques des gens qui ont répondu immédiatement sont différentes de ceux qui ont répondu au premier ou au deuxième rappel et différents également de ceux qui n’ont répondu que contre rémunération. On est alors en meilleure position de connaitre en partie la nature du biais et de le corriger en partie. Augmenter le nombre de questionnaires envoyé dans les mêmes conditions ne permettra pas du tout de corriger le biais, mais permettra simplement de confirmer le biais.

Sur Q-5 : Aucunement!

Sur Q-6 : Surement. On peut tenter de diminuer l’ampleur du biais, mais un élément important c’est qu’il subsistera toujours une incertitude quant a la nature et l’ampleur du biais, a moins de pouvoir le quantifier de façon suffisamment précise pour nous permettre de le corriger. Ça sera très difficile, si on ne réussit pas à obtenir de réponses de gens qui n’ont pas répondu volontairement la première fois.

Il ne faut pas oublier non plus les possibles campagnes orchestrées par des groupes d’intérêts. Et si les Acadiens et groupes francophones hors Québec, si les anglophones du Québec, la communauté musulmane ou hassidique faisaient une campagne pour soit boycotter ou au contraire pour faire des pressions pour augmenter le taux de participation de ses membres. Comment peut-on prévoir ces mouvements citoyens? L’importance des enjeux des résultats de ce sondage me laisse croire que certains groupes pourraient être motivé à les influencer, comme ils peuvent le faire dans les lignes ouvertes, etc. ce qui rendra encore plus incertain la nature des biais.

Sur Q-8 : Comme si une campagne de publicité pouvait réellement compenser tous les problèmes que causera l’abandon du questionnaire obligatoire. Ce serait illusoire de croire que ça pourrait régler quoi que ce soit.



line
footer
Powered by WordPress | Designed by Elegant Themes
?php comments_popup_link(esc_html__(online ) { ?template_directoryline ))) { ?!--End Footer-- /a) { ?div style=ebusiness_integration_single_top) { ?ul id=