Données ouvertes

Licence

Les données d'annotation collective établies dans cette plateforme sont disponibles au téléchargement sous la licence Creative Commons Attribution Share Alike 4.0 International (CC-BY-SA-4.0). Cette licence s'applique à l'ensemble des données d'annotation (choix et intitulés des catégories pour chaque question, et bien sûr affectation détaillée des catégories en face de chaque réponse).

Format

L'export est un fichier CSV (séparateur virgule, avec ligne d'entête, encodage UTF-8) de l'ensemble des annotations effectuées sur ce site. L'export ne contient pas les données brutes du grand débat (qui sont accessibles sur le site officiel, dans la rubrique Données ouvertes). Le fichier d'export contient les colonnes suivantes

Debat Identifiant du débat (1 : Démocratie, 2 : Ecologie, 3 : Fiscalité, 4 : Organisation)
Contribution Référence de la contribution (au sens du champ "reference" des fichiers JSON bruts, par exemple 3-56722)
Question Identifiant de la question (au sens du champ "id" des fichiers JSON bruts, par exemple 166)
Categorie Libellé de la catégorie affectée au texte de réponse à la question
Annotateur Identifiant de l'intervenant ayant apposé la catégorie sur la réponse
Poids Coefficient multiplicateur recommandé pour le couple (contribution, question) afin de corriger les biais liés à la sur-représentation des textes fréquents dans le corpus annoté et les biais liés aux réponses multiples d'un même contributeur à une même question. Pour plus de détails, voir les explications.
Attention ! Par souci de transparence, nous tenons à publier ici les données brutes de toutes les annotations saisies dans la plateforme. Néanmoins, nous insistons sur le fait qu'il s'agit de données non retraitées qu'il convient de prendre avec prudence. En particulier, elles contiennent :
  • des tentatives de manipulation frauduleuse de la plateforme (du type, "je clique toujours sur le même bouton" ou "je clique aléatoirement"),
  • des erreurs de saisies, même par les annoteurs vertueux (clic qui dérape, clic trop rapide),
  • toutes les annotations, y compris celles qui n'ont pas (ou pas encore) été corroborées par trois lectures concordantes.
Par ailleurs, lorsqu'une personne réalise une annotation sur un texte fréquent (typiquement, un texte court comme "Santé et éducation"), toutes les réponses contenant le texte à l'identique sont automatiquement catégorisées aussi, pour gagner du temps à tous.

Pour toutes ces raisons, il ne faut surtout pas faire d'analyse quantitative du fichier brut avant d'avoir procédé à un profond nettoyage de données (détection de fraude, recherche des lectures concordantes, redressement des réponses fréquentes). Un simple décompte des libellés les plus fréquents dans le fichier ci-joint aboutira mécaniquement à des biais statistiques majeurs, comme la sur-représentation des annotations posées sur des textes courts.

Nous rendrons progressivement disponibles des propositions de scripts de retraitement. Vous pouvez nous contacter (voir la FAQ).

Téléchargement

Le fichier d'export est mis à jour automatiquement chaque nuit. Il n'est pas mis à jour en cours de journée et ne contient donc jamais les annotations les plus récentes.