Séminaire des données de la recherche (Séance 4) : Structurer les données de la recherche

GERiiCO Séminaire données de la recherche
02 oct. 2020 14:00 - 17:00

Problématique du séminaire 

 

Le Plan national pour la science ouverte préconise l’ouverture et la structuration des données de recherche. Il recommande également la formation des doctorants aux bonnes pratiques de la gestion des données. A partir de l’AAPG 2020, l’ANR rend obligatoire la rédaction d’un plan de gestion de données pour chaque projet retenu. Pour ces trois raisons, il est nécessaire de former les doctorants à la gestion des données de recherche, à partir de leurs propres données et avec le modèle du plan de gestion de l’ANR sur la plateforme DMP OPIDoR du CNRS. L’originalité du séminaire est l’approche scientifique et disciplinaire, dans une démarche de bottom-up, à partir de l’expérience et des compétences de la communauté scientifique des SHS (data community) et avec des formateurs scientifiques. 

Le séminaire a lieu dans les locaux de la BU sciences humaines et sociales (Pont de Bois).

Séance 4 :

 

 

Afin de faciliter les échanges d'information, il est nécessaire d'utiliser un langage commun pour structurer les données. On parle alors de standards de métadonnées (metadata standard). Il existe différents types de standards de métadonnées : génériques, disciplinaires et technologiques. Nous étudierons le standard Dublin Core défini pour décrire de façon synthétique tout type de contenu et notamment les corpus de textes, les images et les enquêtes.

Nous présenterons le langage XML qui est un langage de balises permettant de décrire et structurer les données de la recherche. Après avoir détaillé quelques exemples de jeux de données structurés dans ce langage, des exercices permettront de mettre en pratique le langage XML et le standard Dublin Core sur des jeux de données de tests.

Nous aborderons les formats descriptifs notamment à travers des exemples de structuration de données, et nous montrerons comment baliser les données. Un TD sera mené sur trois types de données : corpus de textes, d'images, d'enquêtes.

Formateur : B.Jacquemin, E.Kergosien 

Lien vers la description complète 


Tweeter Facebook