Séminaire données de la recherche (séance 4) : Structurer les données de la recherche

GERiiCO Séminaire données de la recherche
EN MODE VISIO-CONFÉRENCE

Titre : Structurer les données de la recherche

Intervenant (s)

Résumé : Afin de faciliter les échanges d'information, il est nécessaire d'utiliser un langage commun pour structurer les données. On parle alors de standards de métadonnées (metadata standard). Il existe différents types de standards de métadonnées : génériques, disciplinaires et technologiques. Nous étudierons le standard Dublin Core défini pour décrire de façon synthétique tout type de contenu et notamment les corpus de textes, les images et les enquêtes.

Nous présenterons le langage XML qui est un langage de balises permettant de décrire et structurer les données de la recherche. Après avoir détaillé quelques exemples de jeux de données structurés dans ce langage, des exercices permettront de mettre en pratique le langage XML et le standard Dublin Core sur des jeux de données de tests.

Nous aborderons les formats descriptifs notamment à travers des exemples de structuration de données, et nous montrerons comment baliser les données. Un TD sera mené sur trois types de données : corpus de textes, d'images, d'enquêtes.

Contact

  • Bernard Jacquemin, maître de conférences, GERiiCO, Université de Lille (co-responsable) ;
  • Joachim Schöpfel, maître de conférences, GERiiCO, Université de Lille (co-responsable) ;
  • Éric Kergosien, maître de conférences, GERiiCO, Université de Lille.

 

Titre du cycle de séminaire : Les données de la recherche dans les thèses de doctorat 

Problématique du séminaire : Le Plan national pour la science ouverte préconise l’ouverture et la structuration des données de recherche. Il recommande également la formation des doctorants aux bonnes pratiques de la gestion des données. A partir de l’AAPG 2020, l’ANR rend obligatoire la rédaction d’un plan de gestion de données pour chaque projet retenu. Pour ces trois raisons, il est nécessaire de former les doctorants à la gestion des données de recherche, à partir de leurs propres données et avec le modèle du plan de gestion de l’ANR sur la plateforme DMP OPIDoR du CNRS. L’originalité du séminaire est l’approche scientifique et disciplinaire, dans une démarche de bottom-up, à partir de l’expérience et des compétences de la communauté scientifique des SHS (data community) et avec des formateurs scientifiques. 

D’une durée de 20 heures, le séminaire a lieu en sept séances entre janvier et juin 2020.

Le séminaire a lieu dans les locaux de la BU sciences humaines et sociales (Pont de Bois).


Partager sur X Partager sur Facebook