Aller au contenu principal
Retour au site principal de la Bibliothèque de l'ÉTS
 

La gestion des données de recherche (GDR): Documentation et métadonnées

Ce guide diffuse de l'information et des ressources pour appuyer la communauté de recherche de l'ÉTS dans la gestion des données de recherche.

Rôle de la documentation

“Documentation is a love letter that you write to your future self.” Damian Conway (2005)

La documentation des données peut être définie comme la description claire de tout ce qu'un nouvel "utilisateur de données" ou "votre futur-moi" aurait besoin de savoir pour trouver, comprendre, reproduire et réutiliser vos données, de manière indépendante et sans risque d'interprétation erronée. Elle doit décrire clairement comment vous avez généré ou utilisé les données, pourquoi et où trouver les fichiers associés. Il pourrait également être utilisé comme documentation d'intégration pour les nouveaux collègues, même si le chercheur responsable quitte le projet. L'élaboration d'un plan de gestion des données (PGD) peut faciliter l'élaboration de la documentation.

La documentation des données est nécessaire à deux niveaux : la documentation sur l'ensemble de l'étude ou du projet et la documentation sur les enregistrements individuels, les observations ou les points de données. (Adapté de ELIXIR Belgium, 2020)

Voici une liste d'éléments importants à considérer pour assurer une documentation adaptée qui facilitera le repérage de l’information, le partage des données au sein de l’équipe de recherche et leur possible réutilisation tout en veillant à leur assurer une pérennité tout au long de leur vie utile (Université de Sherbrooke, 2022):

  • les hypothèses formulées;
  • l’approche méthodologique utilisée;
  • les types et procédures d’analyse;
  • la description des données recueillies;
  • le dictionnaire des données qui définit les variables utilisées ainsi que les objets;
  • les concepts clés, les vocabulaires, les systèmes de classification;
  • les unités de mesure;
  • les outils ou logiciels utilisés, les codes sources;
  • les renseignements sur les personnes ayant travaillé au projet et réalisé chacune des tâches;
  • les fichiers Lisez-moi (Readme) qui décrivent le contexte des jeux de données, leur structure, les droits, les limites d’utilisation, etc.

Rôle des métadonnées

Les métadonnées sont une documentation très structurée. Les métadonnées lisibles par machine ou exploitables rendent vos (méta)données plus trouvables, accessibles, interopérables et réutilisables. Elles augmentent donc la qualité et la visibilité des données auprès d’une communauté scientifique, et par conséquent leur potentiel de réutilisation et de reconnaissance. Elles sont aussi utiles pour la préservation numérique à long terme des données. 

Les métadonnées devraient être accompagnées de la documentation suffisante (comme les manuels de logiciels, la conception des enquêtes et les guides d'utilisation, etc.), préparée par la personne qui a créé les données, afin de permettre l'utilisation de la ressource par d'autres. (Adaptée de Digital Preservation Coalition, 2021)

Fichier LISEZ-MOI (README)

Le fichier LISEZ-MOI (ou README) est un fichier texte généralement nommé LISEZ-MOI.txt ou README.txt, au format ouvert .txt, qui présente et explique un projet. Il fait partie de la documentation des données qui devrait être produite au début du projet. Il permet d'enregistrée sous forme de texte libre toute information qui ne peut pas être enregistrée de manière hautement structurée.

Les utilisateurs potentiels de données du projet en question doivent normalement le consulter avant de consulter les données.

Les services d'hébergement de code tels que GitHub , Bitbucket et GitLab rechercheront également votre LISEZ-MOI et l'afficheront avec la liste des fichiers et des répertoires de votre projet.

Quand devrais-je créer un fichier LISEZ-MOI (ou README)?

Avant de montrer un projet à d'autres personnes ou de le rendre public voire pendant la phase de planification. Il est recommandé de prendre l'habitude d'en faire le premier fichier que vous créez dans un nouveau projet.

De plus, certains dépôts de données peuvent demander qu'un fichier LISEZ-MOI soit déposé avec la liste des fichiers afférents aux données du projet ainsi que toutes informations pertinentes. Créer un fichier LISEZ-MOI au début de chaque projet vous fera gagner du temps plus tard.

Où dois-je le mettre et que doit-il contenir ?

En fonction du nombre de dossiers/fichiers dont vous disposez et du nombre d'années pendant lesquelles vous allez les conserver, vous pouvez créer un fichier LISEZ-MOI pour votre répertoire ou pour chaque dossier et sous-dossier créé dans votre répertoire, afin de documenter des parties spécifiques de vos données.

Il est recommandé d'avoir un fichier LISEZ-MOI dans le répertoire de niveau supérieur du projet étant donné que c'est à cet endroit qu'une personne non familière avec votre projet commencera sa consultation. Le fichier LISEZ-MOI placé à ce niveau devrait contenir des informations générales sur le projet et le système d'organisation des données utilisé.

Si un fichier LISEZ-MOI est placé dans un sous-dossier contenant des données brutes ou traitées, il doit contenir des informations descriptives pour ces données.

Assurez-vous que vos fichiers LISEZ-MOI ne sont pas trop longs.

(Adapté de Elixir Belgium, 2020 et Make a README, 2018)

Contenu recommandé du fichier LISEZ-MOI

Informations générales

  1. Fournir un titre pour l'ensemble de données
  2. Nom/institution/adresse/informations e-mail pour
    • Chercheur principal (ou personne responsable de la collecte des données)
    • Associé ou co-chercheurs
    • Personne à contacter pour les questions
  3. Date de collecte des données (peut être une date unique ou une plage)
  4. Informations sur l'emplacement géographique de la collecte de données
  5. Mots-clés utilisés pour décrire le sujet des données
  6. Informations linguistiques
  7. Informations sur les sources de financement qui ont soutenu la collecte des données

Aperçu des données et des fichiers

  1. Pour chaque nom de fichier, une brève description des données qu'il contient
  2. Format du fichier s'il n'est pas évident d'après le nom du fichier
  3. Si l'ensemble de données comprend plusieurs fichiers liés les uns aux autres, la relation entre les fichiers ou une description de la structure des fichiers qui les contient (la terminologie possible pourrait inclure « ensemble de données », « étude » ou « paquet de données »).
  4. Date de création du fichier
  5. Date(s) à laquelle le(s) fichier(s) ont été mis à jour (versionnés) et nature de la ou des mise(s) à jour, le cas échéant
  6. Informations sur les données associées collectées mais qui ne figurent pas dans l'ensemble de données décrit

Partager et accéder aux informations

  1. Licences  ou restrictions imposées sur les données
  2. Liens vers des publications qui citent ou utilisent les données
  3. Liens vers d'autres emplacements de données accessibles au public (voir les meilleures pratiques de partage de données pour plus d'informations sur l'identification des référentiels)
  4. Citation recommandée pour les données (voir les meilleures pratiques pour la citation des données )

Informations méthodologiques

  1. Description des méthodes de collecte ou de génération de données  (inclure des liens ou des références à des publications ou à d'autres documents contenant la conception expérimentale ou les protocoles utilisés)
  2. Description des méthodes utilisées pour le traitement des données (décrire comment les données ont été générées à partir des données brutes ou collectées)
  3. Toute information spécifique au logiciel ou à l'instrument nécessaire pour comprendre ou interpréter les données, y compris les numéros de version du logiciel et du matériel.
  4. Normes et informations sur l'étalonnage, le cas échéant
  5. Décrire toutes les procédures d'assurance qualité appliquées aux données
  6. Définitions de codes ou de symboles utilisés pour noter ou caractériser des valeurs de mauvaise qualité/discutables/aberrantes dont les gens devraient être conscients
  7. Personnes impliquées dans la collecte, le traitement, l’analyse et/ou la soumission des échantillons

Informations spécifiques aux données

*Répétez cette section si nécessaire pour chaque ensemble de données (ou fichier, le cas échéant)*

  1. Nombre de variables et nombre d'observations ou de lignes
  2. Liste de variables, comprenant les noms complets et les définitions (épeler les mots abrégés) des en-têtes de colonnes pour les données tabulaires
  3. Unités de mesure
  4. Définitions des codes ou symboles utilisés pour enregistrer les données manquantes
  5. Formats spécialisés ou autres abréviations utilisées 

Ressources externes

Directives et modèles de fichier LISEZ-MOI / README

Meilleures pratiques en bref pour formater un LISEZ-MOI

  • 1er document à créer au commencement du projet
  • L’enregistrer au niveau supérieur du répertoire du projet
  • Lui donner un nom qui sera facilement associé aux fichiers de données qu'il décrit (
  • Écrivez votre document LISEZ-MOI sous forme de fichier texte – (éviter les formats propriétaires comme MS Word) – les formats ouverts sont toujours plus pérennes.
  • Créer un LISEZ-MOI pour chaque fichier de données identiques
  • Formater de manière identique tous vos fichiers LISEZ-MOI (utilisez la même terminologie)
  • Utilisez des formats de dates normalisés

Références

ELIXIR Belgium (2020). RDM guide. Repéré à https://rdm.elixir-belgium.org/about_DMP

Digital Preservation Coalition (DPC) 2021. Manuel de préservation numérique. Repéré à https://www.dpconline.org/docs/digital-preservation-handbook2/2519-handbook-2021-fr/file

Université Sherbrooke (2022). Gestion des données de recherche: Documenter son projet et ses processus. Repéré à https://libguides.biblio.usherbrooke.ca/gdr/documenter

Make a README, 2018. Repéré à https://www.makeareadme.com/

Guide to writing “readme” style metadata. Cornell University. Repéré à https://data.research.cornell.edu/data-management/sharing/readme/