Grande Annotation

Données ouvertes

Licence

Les données produites sur cette plateforme sont disponibles au téléchargement sous la licence Creative Commons Attribution Share Alike 4.0 International (CC-BY-SA-4.0). Cette licence s'applique à l'ensemble des données d'annotation (choix et intitulés des catégories pour chaque question, et bien sûr affectation détaillée des catégories en face de chaque réponse) et aussi à l'ensemble des textes libres de synthèse rédigés par les annotateurs.

Présentation des données

L'équipe qui gère ce site est très attachée à la transparence des méthodologies, des codes sources et des données. C'est pourquoi toutes les données produites sur cette plateforme sont disponibles au téléchargement sur cette page. Pour des raisons techniques, les fichiers d'export sont mis à jour automatiquement chaque nuit. En cours de journée, ils ne contiennent donc pas les toutes dernières modifications. Nous publions trois jeux de données :

Un export complet de toutes les annotations. Il s'agit d'un export brut, sans aucun retraitement avec le détail des catégories affectées par chaque annotateur à chaque verbatim. Cet export est le plus complet mais aussi le plus difficile à analyser. Voir les détails plus bas. Télécharger.
Un export simplifié des annotations convergentes. Il s'agit d'un export après retraitement. Il contient uniquement les annotations sur lesquelles les multiples annotateurs ayant lu un texte sont tombés d'accord. Cet export est plus facile à exploiter que le précédent, mais moins riche. Voir les détails plus bas. Télécharger.
Un export des textes libres de synthèse. Il s'agit d'un export brut, de textes qualitatifs et subjectifs, rédigés par des annotateurs ayant lu de nombreuses réponses à une même question, et ayant souhaité résumer les réponses qu'ils ont lu sous la forme d'un texte libre, sans contrainte. Voir les détails plus bas. Télécharger.

Format de l'export complet de toutes les annotations

L'export est un fichier CSV (séparateur virgule, avec ligne d'entête, encodage UTF-8) de l'ensemble des annotations effectuées sur ce site. L'export ne contient pas les données brutes du grand débat (qui sont accessibles sur le site officiel, dans la rubrique Données ouvertes). Le fichier d'export contient les colonnes suivantes

Debat	Identifiant du débat (1 : Démocratie, 2 : Ecologie, 3 : Fiscalité, 4 : Organisation)
Contribution	Référence de la contribution (au sens du champ "reference" des fichiers JSON bruts, par exemple 3-56722)
Question	Identifiant de la question (au sens du champ "id" des fichiers JSON bruts, par exemple 166)
Categorie	Libellé de la catégorie affectée au texte de réponse à la question
Annotateur	Identifiant de l'intervenant ayant apposé la catégorie sur la réponse
Poids	Coefficient multiplicateur recommandé pour le couple (contribution, question) afin de corriger les biais liés à la sur-représentation des textes fréquents dans le corpus annoté et les biais liés aux réponses multiples d'un même contributeur à une même question. Pour plus de détails, voir les explications.

Attention ! Par souci de transparence, nous tenons à publier ici les données brutes de toutes les annotations saisies dans la plateforme. Néanmoins, nous insistons sur le fait qu'il s'agit de données non retraitées qu'il convient de prendre avec prudence. En particulier, elles contiennent :

des tentatives de manipulation frauduleuse de la plateforme (du type, "je clique toujours sur le même bouton" ou "je clique aléatoirement"),
des erreurs de saisies, même par les annoteurs vertueux (clic qui dérape, clic trop rapide),
toutes les annotations, y compris celles qui n'ont pas (ou pas encore) été corroborées par trois lectures concordantes.

Par ailleurs, lorsqu'une personne réalise une annotation sur un texte fréquent (typiquement, un texte court comme "Santé et éducation"), toutes les réponses contenant le texte à l'identique sont automatiquement catégorisées aussi, pour gagner du temps à tous.

Pour toutes ces raisons, il ne faut surtout pas faire d'analyse quantitative du fichier brut avant d'avoir procédé à un profond nettoyage de données (détection de fraude, recherche des lectures concordantes, redressement des réponses fréquentes). Un simple décompte des libellés les plus fréquents dans le fichier ci-joint aboutira mécaniquement à des biais statistiques majeurs, comme la sur-représentation des annotations posées sur des textes courts.

Nous rendrons progressivement disponibles des propositions de scripts de retraitement. Vous pouvez nous contacter (voir la FAQ).

Format de l'export simplifié des annotations convergentes

L'export est un fichier CSV (séparateur virgule, avec ligne d'entête, encodage UTF-8) donnant, pour chaque réponse annotée par suffisamment d'annotateurs différents, les annotations concordantes obtenues. L'export ne contient pas les données brutes du grand débat (qui sont accessibles sur le site officiel, dans la rubrique Données ouvertes). Le fichier d'export contient les colonnes suivantes

Debat	Identifiant du débat (1 : Démocratie, 2 : Ecologie, 3 : Fiscalité, 4 : Organisation)
Contribution	Référence de la contribution (au sens du champ "reference" des fichiers JSON bruts, par exemple 3-56722)
Question	Identifiant de la question (au sens du champ "id" des fichiers JSON bruts, par exemple 166)
Categorie	Libellé de la catégorie affectée au texte de réponse à la question
Poids	Coefficient multiplicateur recommandé pour le couple (contribution, question) afin de corriger les biais liés à la sur-représentation des textes fréquents dans le corpus annoté et les biais liés aux réponses multiples d'un même contributeur à une même question. Pour plus de détails, voir les explications.

Format de l'export des textes libres de synthèse

L'export est un fichier CSV (séparateur virgule, avec ligne d'entête, encodage UTF-8) listant les textes libres de synthèse rédigés par des annotateurs. Le fichier d'export contient les colonnes suivantes

Debat	Identifiant du débat (1 : Démocratie, 2 : Ecologie, 3 : Fiscalité, 4 : Organisation)
Question	Identifiant de la question (au sens du champ "id" des fichiers JSON bruts, par exemple 166)
Annotateur	Identifiant de l'intervenant ayant rédigé le texte de synthèse
Texte	Le texte rédigé par l'annotateur pour synthétiser les réponses qu'il a lues à la question, au format Markdown.