Séminaires des données de la recherche (Séance 4) : Structurer les données de la recherche

Séminaire données de la recherche

Afin de faciliter les échanges d'information, il est nécessaire d'utiliser un langage commun pour structurer les données.

 

Titre : Structurer les données de la recherche

Intervenant (s)

Résumé : Afin de faciliter les échanges d'information, il est nécessaire d'utiliser un langage commun pour structurer les données. On parle alors de standards de métadonnées (metadata standard). Il existe différents types de standards de métadonnées : génériques, disciplinaires et technologiques. Nous étudierons le standard Dublin Core défini pour décrire de façon synthétique tout type de contenu et notamment les corpus de textes, les images et les enquêtes.

Nous présenterons le langage XML qui est un langage de balises permettant de décrire et structurer les données de la recherche. Après avoir détaillé quelques exemples de jeux de données structurés dans ce langage, des exercices permettront de mettre en pratique le langage XML et le standard Dublin Core sur des jeux de données de tests.

Nous aborderons les formats descriptifs notamment à travers des exemples de structuration de données, et nous montrerons comment baliser les données. Un TD sera mené sur trois types de données : corpus de textes, d'images, d'enquêtes.

Contact (s) : Joachim Schöpfel, Bernard Jacquemin, Eric Kergosien

 

Titre du cycle de séminaires : Les données de recherche dans les thèses de doctorat (DRTD)

Résumé du cycle de séminaires : Dans le cadre de sa politique pour la science ouverte, le Ministère de l’Enseignement supérieur, de la Recherche et de l’Innovation préconise l’ouverture et la structuration des données de recherche. Il recommande également la formation des doctorants aux bonnes pratiques de la gestion des données. Dans ce cadre, le Ministère a publié un guide de bonnes pratiques « sciences ouvertes » à destination des doctorants, qui contient la gestion des données[1], ainsi qu’un guide sur la formation à la science ouverte à l’usage des doctorale[2]. L’ANR de son côté, à l’instar de la Commission européenne, rend obligatoire la rédaction d’un plan de gestion de données pour chaque projet retenu. Il est donc nécessaire de former tous doctorants d’une façon systématique à la gestion des données de recherche, à partir de leurs propres données et avec le modèle du plan de gestion de l’ANR sur la plateforme DMP OPIDoR du CNRS. L’originalité du séminaire est l’approche scientifique et disciplinaire, dans une démarche de bottom-up, à partir de l’expérience et des compétences de la communauté scientifique des SHS (data community) et avec des formateurs scientifiques.

D’une durée de 20 heures, le séminaire a lieu en sept séances entre janvier et juin 2022.

L’équipe du séminaire propose un suivi personnalisé des plans individuels de gestion de données en dehors et au-delà des séances du séminaire.

A partir de l’expérience durant la période de confinement, nous allons organiser le séminaire en mode hybride, avec plusieurs séances en distanciel et d’autres en présentiel, en salle informatisée (campus Pont de Bois). Ce mode permettra également, en concertation avec l’ED SHS, d’ouvrir certaines séances à d’autres publics.

En même temps, nous proposons de construire cette année, à partir de l’expérience pluriannuelle de ce séminaire, avec les moyens mis à disposition par l’ED SHS et en mobilisant d’autres partenaires, un programme de formation à la science ouverte, en lien avec les recommandations du Ministère.