Attention !
Document à lire avant toute utilisation des données ci-jointes

Par souci de transparence, nous tenons à publier ici les données brutes de
toutes les annotations saisies dans la plateforme. Néanmoins, nous insistons
sur le fait qu'il s'agit de données non retraitées qu'il convient de prendre
avec prudence. En particulier, elles contiennent :

1) des tentatives de manipulation frauduleuse de la plateforme (du type,
"je clique toujours sur le même bouton" ou "je clique aléatoirement"),

2) des erreurs de saisies, même par les annoteurs vertueux (clic qui dérape,
clic trop rapide),

3) toutes les annotations, y compris celles qui n'ont pas (ou pas encore) été
corroborées par trois lectures concordantes.

Par ailleurs, lorsqu'une personne réalise une annotation sur un texte fréquent
(typiquement, un texte court comme "Santé et éducation"), toutes les réponses
contenant le texte à l'identique sont automatiquement catégorisées aussi,
pour faire gagner du temps à tous.

Pour toutes ces raisons, il ne faut surtout pas faire d'analyse quantitative du
fichier brut avant d'avoir procédé à un profond nettoyage de données (détection
de fraude, recherche des lectures concordantes, redressement des réponses
fréquentes). Un simple décompte des libellés les plus fréquents dans le fichier
ci-joint aboutira mécaniquement à des biais statistiques majeurs, comme la
sur-représentation des annotations posées sur des textes courts.

Nous rendrons progressivement disponibles des propositions de scripts de
retraitement.

Vous pouvez nous contacter (voir la FAQ sur le site https://grandeannotation.fr).
