Grande Annotation

Foire aux questions

D’où vient ce projet ?

Dans le cadre du Grand débat national, le Gouvernement a lancé le 22 janvier 2019 granddebat.fr, un site internet permettant aux citoyens de s’exprimer sur quatre thèmes déclinés en près de 100 questions, et ce jusqu'au 18 mars 2019.
Devant le volume des contributions, le Gouvernement a missionné un institut de sondage et une société spécialisée dans le traitement informatique des données textuelles pour réaliser la synthèse de ces écrits sans avoir à les lire.
La lecture de nombreux extraits et notre connaissance de l'état de l'art en traitement automatisé du langage (voir ici ou là pour des articles accessibles), nous ont convaincus que l’intelligence artificielle seule ne parviendrait pas à restituer fidèlement les idées, opinions et sentiments exprimés par ceux qui ont participé au débat.
A l'inverse, nous pensons que la simple lecture de contributions (même sans annotation), regroupées par thème et par question, est en elle-même respectueuse et instructive.

Quel est l'objectif de cette plateforme ?

Nous sommes convaincus que les citoyens peuvent collectivement réaliser une synthèse de ce débat en adoptant une démarche transparente et ouverte.
Notre objectif est de lire et d'annoter les textes écrits dans le cadre du grand débat en y associant des libellés afin de faire émerger les idées les plus répandues et de regrouper les réponses dont le contenu est similaire.
Il n'est en aucun cas question de juger de l'utilité, de la faisabilité ou de la valeur des idées ou des opinions exprimées par les contributeurs, mais uniquement d'amorcer un travail de consolidation.
Notre but n'est pas de construire une synthèse partisane ou concurrente de celle des prestataires officiels, mais de préparer le terrain pour tous ceux (citoyens, chercheurs, journalistes) qui souhaiteraient explorer les données du grand débat sans en avoir les moyens seuls.

Qui sommes-nous ?

Nous sommes des citoyens bénévoles et indépendants. Nous ne sommes associés à aucun parti ou mouvement politique, aucun syndicat ou lobby dans le cadre de ce projet. Certains d’entre nous ont contribué au débat, d’autres non. Nous sommes convaincus de l’importance d’un traitement transparent des contributions par la société civile, où toutes les données, tous les algorithmes et toute la méthodologie est librement accessible.
Nous n'avons aucun lien avec les prestataires sélectionnés par le Gouvernement pour mener l'analyse officielle des contributions de granddebat.fr.
Ce projet est soutenu par les collectifs Code for France et Data for Good.
Nous souhaitons faire passer la pertinence de la démarche avant celle des identités. Néanmoins, voici quelques-uns de nos profils pour faire un peu mieux connaissance :
- data-scientist pour l'État, formée aux politiques publiques,
- développeur et chercheur en mathématiques,
- expert en bases de données, membre actif d'OpenStreetMap France,
- data-scientist et docteur en traitement du langage dans le privé,
- étudiante à SciencesPo en politique publique,
- chercheuse en physique théorique aux États-Unis,
- designer, spécialiste de l'expérience utilisateur,
- géographe,
- bénévole d'association écolo,
- une vingtaine d'amis, de collègues, de proches qui se sont pris au jeu,
- et des centaines d'autres, vous tous, inscrits anonymes ou non qui annotez chaque jour et nous transmettez vos impressions et vos idées d'améliorations !

Pourquoi n'avez-vous pas recours à une analyse automatisée ?

Tout d'abord, les contributeurs de granddebat.fr n'ont pas écrit leurs réponses pour qu'elles soient lues par des machines. Nous pensons que la lecture en elle-même, par des humains, sur un thème ou des questions particulières, est riche d'enseignements.
Certaines contributions, bien que porteuses de sens, risquent d'être écartées par une machine si elles ne contiennent pas les mots-clés attendus, alors qu'un humain peut comprendre à quoi elles se réfèrent.
L'annotation manuelle permet de bénéficier de la finesse de la lecture par un humain et d'éviter de tomber dans des pièges d'interprétation par une machine : négation ou ironie par exemple. Ainsi, à la question En qui faites-vous le plus confiance ?, certains répondent Mon maire. Non, je plaisante. Moi-même.
De plus, la lecture systématique par des humains devrait permettre de mettre en lumière une petite proportion de textes de qualité, contenant une proposition réfléchie et documentée, qui pourra être transmise aux administrations concernées.
Enfin, les deux approches (manuelle et automatisée) ne sont pas nécessairement incompatibles. Disposer d'un corpus annoté est quasiment toujours un prérequis pour ceux qui souhaiteraient entraîner des modèles dits "d'intelligence artificielle".

Mais … la tâche est pharaonique, non ?

En effet, il y a au 6 février près de 190 000 contributions individuelles au Grand débat, correspondant à 1,5 million de morceaux de textes de réponses uniques. Il devrait y en avoir 2,5 millions d'ici la mi-mars.
D’après nos premières mesures, si 5 000 personnes consacrent 5 à 10 minutes par jour à ce projet pendant 20 jours, la base entière pourrait être annotée. Tout le monde peut participer.
Au pire, nous n’annoterons pas toute la base et ce travail sera tout de même très utile. Une analyse de 20% de la base est déjà hautement significative puisque les contributions sont choisies aléatoirement.
Nous avons conçu la plateforme pour que vous puissiez annoter les contributions en attendant les transports en commun ou un ami en retard sur votre téléphone, depuis votre canapé sur votre ordinateur, au rythme qui vous convient.

Comment sont choisies les catégories proposées par défaut ?

Nous avons utilisé deux approches : une approche statistique, reposant sur des algorithmes de modèles thématiques développés par des chercheurs en data-science et une approche empirique consistant à lire un grand nombre de contributions jusqu’à identifier clairement les réponses les plus fréquentes. Avant d'ouvrir une question aux annotations par tous, nous lisons à plusieurs des centaines de réponses.
Nous avons essayé de créer des catégories objectives, exhaustives, synthétiques, en nombre suffisamment réduit pour permettre un travail de regroupement efficace. Nous espérons que ces catégories recouvrent la majorité des idées exprimées, mais vous avez la possibilité de créer des catégories supplémentaires vous-mêmes. L'objectif n'est pas de traduire toute la finesse de chaque texte, mais de faire émerger les grands volumes et de regrouper les idées similaires. Ceci prépare le terrain de recherches ou d'analyses futures pour tous ceux qui souhaiteront le faire. Les données des annotations sont téléchargeables et mises à jour chaque nuit.
Enfin et surtout, nous suivons avec attention la création de catégories par la communauté. Lorsque plusieurs membres ressentent le besoin de créer des catégories proches pour décrire une idée non couverte par les catégories par défaut, nous enrichissons les catégories par défaut avec leur idée pour que tous puissent l'utiliser. Chaque internaute dont la catégorie a été intégrée reçoit un message interne lui expliquant le détail de ce qui a été fait.

Comment garantir l'honnêteté des annotations attribuées ?

Les annotations effectuées par chaque intervenant sur ce site sont rattachées à son numéro unique. C’est pour cela que nous vous demandons de créer un compte. Ainsi, si un intervenant se mettait à étiqueter systématiquement toute contribution avec une catégorie biaisée, il serait facile a posteriori de ne pas tenir compte des annotations effectuées par cette personne.
Par ailleurs, chaque contribution au grand débat est analysée par plusieurs personnes différentes. Nous avons mis en place un mécanisme de relecture qui impose le passage d'au moins trois personnes différentes sur chaque texte, et plusieurs passages de plus si l'interprétation est difficile et n'a pas convergé avant. Ainsi, le risque de mauvaise catégorisation d'une contribution est diminué d'autant. En effet, après plusieurs annotations par des internautes différents, la plateforme retient comme classification la classification majoritaire qui se dégage des multiples annotations. Cette approche a par exemple fait ses preuves pour la numérisation des déclarations d'intérêts des élus.

Où puis-je trouver les données ?

Le contenu complet des contributions brutes est déjà accessible sur le site officiel, dans la rubrique Données ouvertes. Ce sont ces données (en date du 6 février 2019 et du 2 mars 2019) qui ont été injectées dans une base de données pour être annotées sur cette plateforme. Les nouvelles contributions seront importées lorsqu'elles seront disponibles sur le site officiel.
Les annotations saisies ici sont elles aussi progressivement ouvertes et téléchargeables dans la page données ouvertes.
Le code source de la plateforme est disponible sur GitHub. Vous pouvez y contribuer, par exemple en proposant vos idées ou des modifications (issues et pull requests).

Comment nous contacter ?

Vous pouvez proposer vos idées pour améliorer la plateforme ou la démarche sur le répertoire GitHub qui héberge le code source de cette plateforme.
Vous pouvez nous retrouver pour discuter librement sur le chat du collectif Code for France.
Vous pouvez nous écrire ou nous suivre sur Twitter.
Pour toute autre question, vous pouvez aussi écrire à notre équipe par l'adresse courriel Gmail "grandeannotation".