Licence
Les données produites sur cette plateforme sont disponibles au téléchargement sous la licence Creative Commons Attribution Share Alike 4.0 International (CC-BY-SA-4.0). Cette licence s'applique à l'ensemble des données d'annotation (choix et intitulés des catégories pour chaque question, et bien sûr affectation détaillée des catégories en face de chaque réponse) et aussi à l'ensemble des textes libres de synthèse rédigés par les annotateurs.
Présentation des données
L'équipe qui gère ce site est très attachée à la transparence des méthodologies, des codes sources et des données. C'est pourquoi toutes les données produites sur cette plateforme sont disponibles au téléchargement sur cette page. Pour des raisons techniques, les fichiers d'export sont mis à jour automatiquement chaque nuit. En cours de journée, ils ne contiennent donc pas les toutes dernières modifications. Nous publions trois jeux de données :
- Un export complet de toutes les annotations. Il s'agit d'un export brut, sans aucun retraitement avec le détail des catégories affectées par chaque annotateur à chaque verbatim. Cet export est le plus complet mais aussi le plus difficile à analyser. Voir les détails plus bas. Télécharger.
- Un export simplifié des annotations convergentes. Il s'agit d'un export après retraitement. Il contient uniquement les annotations sur lesquelles les multiples annotateurs ayant lu un texte sont tombés d'accord. Cet export est plus facile à exploiter que le précédent, mais moins riche. Voir les détails plus bas. Télécharger.
- Un export des textes libres de synthèse. Il s'agit d'un export brut, de textes qualitatifs et subjectifs, rédigés par des annotateurs ayant lu de nombreuses réponses à une même question, et ayant souhaité résumer les réponses qu'ils ont lu sous la forme d'un texte libre, sans contrainte. Voir les détails plus bas. Télécharger.
Format de l'export complet de toutes les annotations
L'export est un fichier CSV (séparateur virgule, avec ligne d'entête, encodage UTF-8) de l'ensemble des annotations effectuées sur ce site. L'export ne contient pas les données brutes du grand débat (qui sont accessibles sur le site officiel, dans la rubrique Données ouvertes). Le fichier d'export contient les colonnes suivantes
Debat | Identifiant du débat (1 : Démocratie, 2 : Ecologie, 3 : Fiscalité, 4 : Organisation) |
---|---|
Contribution | Référence de la contribution (au sens du champ "reference" des fichiers JSON bruts, par exemple 3-56722) |
Question | Identifiant de la question (au sens du champ "id" des fichiers JSON bruts, par exemple 166) |
Categorie | Libellé de la catégorie affectée au texte de réponse à la question |
Annotateur | Identifiant de l'intervenant ayant apposé la catégorie sur la réponse |
Poids | Coefficient multiplicateur recommandé pour le couple (contribution, question) afin de corriger les biais liés à la sur-représentation des textes fréquents dans le corpus annoté et les biais liés aux réponses multiples d'un même contributeur à une même question. Pour plus de détails, voir les explications. |
- des tentatives de manipulation frauduleuse de la plateforme (du type, "je clique toujours sur le même bouton" ou "je clique aléatoirement"),
- des erreurs de saisies, même par les annoteurs vertueux (clic qui dérape, clic trop rapide),
- toutes les annotations, y compris celles qui n'ont pas (ou pas encore) été corroborées par trois lectures concordantes.
Pour toutes ces raisons, il ne faut surtout pas faire d'analyse quantitative du fichier brut avant d'avoir procédé à un profond nettoyage de données (détection de fraude, recherche des lectures concordantes, redressement des réponses fréquentes). Un simple décompte des libellés les plus fréquents dans le fichier ci-joint aboutira mécaniquement à des biais statistiques majeurs, comme la sur-représentation des annotations posées sur des textes courts.
Nous rendrons progressivement disponibles des propositions de scripts de retraitement. Vous pouvez nous contacter (voir la FAQ).
Format de l'export simplifié des annotations convergentes
L'export est un fichier CSV (séparateur virgule, avec ligne d'entête, encodage UTF-8) donnant, pour chaque réponse annotée par suffisamment d'annotateurs différents, les annotations concordantes obtenues. L'export ne contient pas les données brutes du grand débat (qui sont accessibles sur le site officiel, dans la rubrique Données ouvertes). Le fichier d'export contient les colonnes suivantes
Debat | Identifiant du débat (1 : Démocratie, 2 : Ecologie, 3 : Fiscalité, 4 : Organisation) |
---|---|
Contribution | Référence de la contribution (au sens du champ "reference" des fichiers JSON bruts, par exemple 3-56722) |
Question | Identifiant de la question (au sens du champ "id" des fichiers JSON bruts, par exemple 166) |
Categorie | Libellé de la catégorie affectée au texte de réponse à la question |
Poids | Coefficient multiplicateur recommandé pour le couple (contribution, question) afin de corriger les biais liés à la sur-représentation des textes fréquents dans le corpus annoté et les biais liés aux réponses multiples d'un même contributeur à une même question. Pour plus de détails, voir les explications. |
Format de l'export des textes libres de synthèse
L'export est un fichier CSV (séparateur virgule, avec ligne d'entête, encodage UTF-8) listant les textes libres de synthèse rédigés par des annotateurs. Le fichier d'export contient les colonnes suivantes
Debat | Identifiant du débat (1 : Démocratie, 2 : Ecologie, 3 : Fiscalité, 4 : Organisation) |
---|---|
Question | Identifiant de la question (au sens du champ "id" des fichiers JSON bruts, par exemple 166) |
Annotateur | Identifiant de l'intervenant ayant rédigé le texte de synthèse |
Texte | Le texte rédigé par l'annotateur pour synthétiser les réponses qu'il a lues à la question, au format Markdown. |