Aller au contenu principal
Retour au site principal de la Bibliothèque de l'ÉTS
 

La gestion des données de recherche (GDR): Créer un fichier LISEZ-MOI (README)

Ce guide diffuse de l'information et des ressources pour appuyer la communauté de recherche de l'ÉTS dans la gestion des données de recherche.

Qu'est-ce que le fichier LISEZ-MOI (README)?

Un fichier LISEZ-MOI est un guide pour votre jeu de données. Il s'agit généralement d'un fichier texte brut afin de maximiser sa facilité d'utilisation et son potentiel de conservation à long terme. L'objectif d'un fichier LISEZ-MOI est d'aider les autres chercheurs (ou vous-même dans le futur) à comprendre votre jeu de données, son contenu, sa provenance, sa licence et la manière d'interagir avec lui. Les fichiers LISEZ-MOI sont généralement nommés README ou LISEZ-MOI, readme.txt ou lisezmoi.txt  ou read-me.md.

Le nom " LISEZ-MOI " ou " README" indique que le fichier contient des informations importantes et que le type de fichier, "TXT", peut être ouvert par de nombreux logiciels différents, rendant le contenu accessible au maximum.

Les fichiers  LISEZ-MOI sont inclus en tant que composant d'un jeu de données

Fichier LISEZ-MOI ou métadonnées pour les dépôts de données?

Lorsque vous déposez vos données dans des dépôts (par exemple Boréalis ou DFDR), il vous est demandé de fournir des métadonnées. Un fichier LISEZ-MOI complète, mais ne remplace pas les métadonnées des dépôts.

La meilleure pratique consiste à enregistrer des informations à la fois dans les métadonnées du dépôt et dans le fichier LISEZ-MOI. Les métadonnées du dépôt faciliteront la recherche dans et entre les dépôts de données, tandis que le fichier LISEZ-MOI suit l'ensemble de données et continue à le décrire après qu'il a été séparé de son contexte d'origine. Dans tous les cas, vous devez utiliser les conventions appropriées à votre discipline pour enregistrer les informations relatives à votre jeu de données.

Exercice 1 - Trouvez le sens d'un ensemble de données

Accéder à cet ensemble de données :

Clark, Luke, 2019, “Role Reversal: The Influence of Slot Machine Gambling on Subsequent Alcohol Consumption”, https://doi.org/10.5683/SP2/SLOY0N, Borealis, V1, UNF:6:zsehCAz4agntvPwDZF03OA== [fileUNF]

Sélectionnez et téléchargez le fichier de données "Gambling_Alcohol_Study 1_Archive.tab" dans le format de fichier original.

En examinant les données, essayez de répondre aux questions suivantes :

  1. Décrivez les différentes conditions de jeu dans cette étude.
  2. Une variable nommée "ResultingBAC", qu'est-ce que cela signifie ?
  3. Comment les données ont-elles été collectées ?

Que constatez-vous?

Comment créer un fichier LISEZ-MOI bis

Informations générales

  1. Fournir un titre pour l'ensemble de données
  2. Nom/institution/adresse/informations e-mail pour
    • Chercheur principal (ou personne responsable de la collecte des données)
    • Associé ou co-chercheurs
    • Personne à contacter pour les questions
  3. Date de collecte des données (peut être une date unique ou une plage)
  4. Informations sur l'emplacement géographique de la collecte de données
  5. Mots-clés utilisés pour décrire le sujet des données
  6. Informations linguistiques
  7. Informations sur les sources de financement qui ont soutenu la collecte des données

Aperçu des données et des fichiers

  1. Pour chaque nom de fichier, une brève description des données qu'il contient
  2. Format du fichier s'il n'est pas évident d'après le nom du fichier
  3. Si l'ensemble de données comprend plusieurs fichiers liés les uns aux autres, la relation entre les fichiers ou une description de la structure des fichiers qui les contient (la terminologie possible pourrait inclure « ensemble de données », « étude » ou « paquet de données »).
  4. Date de création du fichier
  5. Date(s) à laquelle le(s) fichier(s) ont été mis à jour (versionnés) et nature de la ou des mise(s) à jour, le cas échéant
  6. Informations sur les données associées collectées mais qui ne figurent pas dans l'ensemble de données décrit

Partager et accéder aux informations

  1. Licences  ou restrictions imposées sur les données
  2. Liens vers des publications qui citent ou utilisent les données
  3. Liens vers d'autres emplacements de données accessibles au public (voir les meilleures pratiques de partage de données pour plus d'informations sur l'identification des référentiels)
  4. Citation recommandée pour les données (voir les meilleures pratiques pour la citation des données )

Informations méthodologiques

  1. Description des méthodes de collecte ou de génération de données  (inclure des liens ou des références à des publications ou à d'autres documents contenant la conception expérimentale ou les protocoles utilisés)
  2. Description des méthodes utilisées pour le traitement des données (décrire comment les données ont été générées à partir des données brutes ou collectées)
  3. Toute information spécifique au logiciel ou à l'instrument nécessaire pour comprendre ou interpréter les données, y compris les numéros de version du logiciel et du matériel.
  4. Normes et informations sur l'étalonnage, le cas échéant
  5. Décrire toutes les procédures d'assurance qualité appliquées aux données
  6. Définitions de codes ou de symboles utilisés pour noter ou caractériser des valeurs de mauvaise qualité/discutables/aberrantes dont les gens devraient être conscients
  7. Personnes impliquées dans la collecte, le traitement, l’analyse et/ou la soumission des échantillons

Informations spécifiques aux données

*Répétez cette section si nécessaire pour chaque ensemble de données (ou fichier, le cas échéant)*

  1. Nombre de variables et nombre d'observations ou de lignes
  2. Liste de variables, comprenant les noms complets et les définitions (épeler les mots abrégés) des en-têtes de colonnes pour les données tabulaires
  3. Unités de mesure
  4. Définitions des codes ou symboles utilisés pour enregistrer les données manquantes
  5. Formats spécialisés ou autres abréviations utilisées 

Style et processus

LE STYLE

La manière dont vous écrivez votre LISEZ-MOI est aussi importante que les informations que vous y incluez. N'oubliez pas d'être aussi clair que possible. Voici quelques bonnes pratiques relatives à la documentation des données :

  • N'utilisez pas de jargon;
  • Définissez les termes et les acronymes;
  • Rendez la documentation lisible par une machine (éviter les caractères spéciaux).

 

Un exemple de contenu de LISEZ-MOI

Pour consulter le gabarit LISEZ-MOI de l'ÉTS consultez ce lien.

Pour plus d’information, consultez la section sur les fichiers LISEZ-MOI du présent guide.

 

LE PROCESSUS

Documentez votre travail au fur et à mesure, afin de ne perdre aucun détail. Si vous attendez la fin de votre projet, il se peut que vous ayez déjà perdu ou oublié des informations précieuses.

 

Vous pouvez créer un LISEZ-MOI en utilisant n'importe quel éditeur de texte (par exemple TextEdit, Notepad++, Atom.io, Sublime Text) ou traitement de texte (par exemple Word, LibreOffice).

Cependant, enregistrez votre LISEZ-MOI en tant que texte encodé UTF-8. L'utilisation de texte brut permet de préserver vos informations car elle s'appuie sur des normes durables et ouvertes plutôt que sur des formats propriétaires. Si vous utilisez GitHub, votre LISEZ-MOI doit être écrit en utilisant la syntaxe Markdown (readme.md).

Stockez le LISEZ-MOI au niveau supérieur du dossier du projet sur votre ordinateur, à côté des fichiers du projet.

 

Exercice 2 - Remplissez un LISEZ-MOI

 Téléchargez le gabarit LISEZ-MOI de l'ÉTS et choisissez un projet de données que vous réalisez en ce moment. Passez 5 à 7 minutes à le remplir.

Accordez une attention particulière à la liste des variables. Un ensemble de données sans variables nommées n'est pas utile. Comment vos pairs pourraient-ils savoir ce que signifie une variable nommée "Data.VF.1"  par exemple?

Bravo!

Vous êtes maintenant prêt à rédiger un bon fichier LISEZ-MOI afin que d'autres chercheurs puissent comprendre votre jeu de données sans problème !

Photo de RUT MIIT sur Unsplash

Références

Cette page est une traduction et adaptation du guide Introduction to Research Data Management : File Formats for Data Curation de UBC Library Research Commons partagé avec la licence CC BYLa gestion des données de recherche (GDR) : La gestion des données de recherche (GDR): Formats de fichiers propriétaires et formats de fichiers ouverts est sous licence CC BY par la bibliothèque de l'École de technologie supérieure.

Kristin Briney (2023).Chapter 2- Documentation. Dans The Research Data Management Workbook. Caltech Library. https://doi.org/10.7907/z6czh-7zx60

Alert icon. Icône repéré sur Flaticon:  <a href="https://www.flaticon.com/free-icons/alert" title="alert icons">Alert icons created by Pixel perfect - Flaticon</a>