« Les données de la recherche dans les thèses de doctorat » École doctorale SHS - Année 2018 – 2019

Le séminaire est proposé comme séminaire « outils-méthodes ».

 

Après le séminaire tenu en 2014-2015 à la MESHS sur les données de la recherche dans les thèses de doctorat en sciences humaines et sociales et le Livre blanc qui en a résulté, le laboratoire GERiiCO organise depuis 2015 un séminaire doctoral « outils-méthodes » sur la gestion des données de la recherche. Le séminaire 2018-2019 poursuivra la démarche de formation commencée en 2014, avec deux objectifs : former les doctorants à la gestion des données, et créer un plan de gestion personnalisé avec chaque doctorant. Le séminaire se positionne dans le cadre de la nouvelle politique, nationale pour la science ouverte et ses préconisations en matière de de la gestion des données de la recherche (développement de nouvelles  compétences, intégration des plans de gestion dans le montage des projets de recherche, utilisation des dispositifs pour la conservation et diffusion des données).

Le séminaire s’appuie en particulier sur les projets de recherche du laboratoire GERiiCO dans les domaines des humanités numériques, en particulier sur le projet structurant franco-allemand D4Humanities (thèses de doctorats, données de la recherche, TDM…).

Le séminaire sera accompagné d’une table ronde avec des enseignants-chercheurs d’autres laboratoires sur la formation des jeunes chercheurs dans le domaine de la science ouverte et de la gestion des données de la recherche.

 

Contexte

L’Université de Lille mène une politique en faveur du libre accès à l’information et de la science ouverte. La mise en place d’un ensemble de services dans le domaine des données de la recherche en fait partie. Le séminaire DRTD est complémentaire à cette démarche, avec son expérience scientifique dans ce domaine et son ancrage disciplinaire.

 

Contenu du séminaire

- compétences scientifiques : à partir de leurs propres données (entretiens, statistiques, textes, images etc.), les doctorant(e)s apprendront à mettre en place un plan de gestion des données. Après un rappel des enjeux et du cycle de vie des données de la recherche, seront abordées successivement les étapes importantes en vue de l’archivage à long terme : la capture des données et leurs formats, la structuration des données, leur description et leur partage. Il s’agit également de prendre conscience des enjeux de l’open access et de l’open science pour la gestion des résultats scientifiques.

D’une durée de 20 heures, le séminaire est prévu sur 7 séances entre janvier et juin 2019.

- compétences transférables : montage d’un projet scientifique ; sécurisation des données de la recherche ; notions d’éthique scientifique ; préparation et création d’un plan de gestion des données, à l’aide d’un outil en ligne (DMP OPIDoR).

 

Responsables du séminaire et intervenants

Bernard Jacquemin, maître de conférences, GERiiCO, Université de Lille

Joachim Schöpfel, maître de conférences, GERiiCO, Université de Lille

Éric Kergosien, maître de conférences, GERiiCO, Université de Lille

Cécile Malleret, conservateur au SCD de l’Université de Lille

 

 

Programme

 

1ère séance : Introduction : Gérer les données de la recherche – pourquoi, comment ?

lundi 25 février 2019 – 14h00 -17h00

Salle de formation de la Bibliothèque Universitaire (Pont-de-Bois)

(C.Malleret, J.Schöpfel)

 

2ème séance : Créer un plan de gestion des données de la recherche

mardi 5 mars 2019 – 14h00 -17h00

Salle de formation de la Bibliothèque Universitaire (Pont-de-Bois)

(J.Schöpfel)

 

3ème séance : Le cycle de vie des données

lundi 18 mars 2019 – 14h00 -17h00

Salle de formation de la Bibliothèque Universitaire (Pont-de-Bois)

(C. Malleret, J.Schöpfel)

 

4ème séance : Décrire les données de la recherche

mardi 2 avril 2019 – 14h00 -17h00

Salle de formation de la Bibliothèque Universitaire (Pont-de-Bois)

(E.Kergosien)

 

5ème séance : Structurer les données de la recherche

mardi 30 avril 2019 – 14h00 -17h00

Salle de formation de la Bibliothèque Universitaire (Pont-de-Bois)

(E.Kergosien)

 

6ème séance : Conserver et partager des données

mardi 21 mai 2019 – 14h00 -17h00

Salle de formation de la Bibliothèque Universitaire (Pont-de-Bois)

(J.Schöpfel)

 

7ème séance : Bilan et évaluation

mardi 18 juin 2019 – 14h00 -16h00

Salle de formation de la Bibliothèque Universitaire (Pont-de-Bois)

(C. Malleret, J.Schöpfel)

 

« Les données de la recherche dans les thèses de doctorat » École doctorale SHS - Année 2017 – 2018

Le séminaire est proposé comme séminaire « outils-méthodes ».

 

Compétences scientifiques :
À partir de leurs propres données (entretiens, statistiques, textes, images etc.), les doctorant(e)s apprendront à mettre en place un plan de gestion des données. Après un rappel des enjeux et du cycle de vie des données de la recherche, seront abordées successivement les étapes importantes en vue de l’archivage à long terme : la capture des données et leurs formats, la structuration des données, leur description et leur partage.

 

Compétences transférables :
Préparation et création d’un plan de gestion des données, à l’aide d’un outil en ligne (DMP OPIDoR).

 

Objectifs et évaluation :
• Réalisation d’un plan de gestion de données complet
• Pertinence par rapport à la thématique (pas de plan standard)
• Cohérence globale du plan
• Prise en compte des principes FAIR

 

D’une durée de 20 heures, le séminaire a lieu en sept séances entre janvier et juin 2018.
Le séminaire a lieu en salle informatique, dans les locaux de la BU sciences humaines et sociales (Pont de Bois)

 

Responsables du séminaire :
- Bernard Jacquemin, maître de conférences, GERiiCO, Lille 3
- Joachim Schöpfel, maître de conférences, GERiiCO, Lille 3
Autres intervenants :
- Éric Kergosien, maître de conférences, GERiiCO, Lille 3
- Cécile Malleret, conservateur au SCD de l’Université de Lille SHS.

 

 

PROGRAMME

 

 

Séance 1 : Introduction : Gérer les données de la recherche – pourquoi, comment ?

Mardi 30 janvier 2018 de 14h00 à 17h00

C.Malleret, J.Schöpfel

Cette séance aura pour but de définir et cerner les enjeux des données de la recherche en distinguant les données brutes, les données dérivées et les jeux de données (ou dataset) et en rappelant le contexte (national et européen) de l’Open Science. Un second temps sera consacré aux pratiques et besoins identifiés des doctorants et des chercheurs de Lille 3 dans la gestion de leurs données de recherche et enfin à l’évaluation des acquis des doctorants sur cette question.  

 


Séance 2 : Créer un plan de gestion des données de la recherche

Mardi 20 février 2018 de 14h00 à 17h00

C.Malleret, J.Schöpfel

Le Plan de Gestion des Données des données (ou Data Management Plan) ne répond pas seulement à une obligation des financeurs mais se veut d’abord une aide à la conservation et, autant que possible, au partage des données de la recherche. L’objectif est donc d’abord de fournir un cadre qui permette, dans le processus de recherche, d’inclure la production et la collecte des données. Une partie de la séance sera consacrée à la formation à l’outil en ligne DMPOnline et au lancement des travaux individuels.  

 


Séance 3 : Le cycle de vie des données

Mardi 6 mars 2018 de 14h00 à 17h00

B.Jacquemin, J.Schöpfel

Les données de la recherche s'inscrivent dans le contexte plus large de la donnée numérique. Aussi est-il nécessaire d'étudier leur cycle de vie, depuis leur création jusqu'à leur archivage définitif, en prenant en compte deux propriétés essentielles que sont leur aspect digital d'une part, et leur lien à une activité de recherche de l'autre. Partant des besoins liés à l'archivage - et notamment l'archivage à long terme, qu'il s'agira d'identifier - nous étudierons donc l'identification et la description des données pour assurer leur (ré)utilisabilité à travers des jeux de métadonnées, les modèles existants pour la conservation et l'archivage des données numériques et les systèmes mis en place qui disposent des fonctionnalités nécessaires à un archivage efficace et pérenne. Un temps sera consacré à faire le point sur les plans de gestion des doctorants, par rapport à l’avancement de leurs propres projets de recherche.  

 


Séance 4 : Décrire les données de la recherche 

Mardi 3 avril 2018 de 14h00 à 17h00

B.Jacquemin, E.Kergosien

La description des données est une étape primordiale dans le plan de gestion. En effet, afin que les données de la recherche soient réutilisables, le contexte de leur production doit être documenté de manière précise et intelligible. Ainsi, il peut être décrit par :

- une documentation adéquate, sous la forme d'un fichier txt ou pdf qui rapporte des informations sur le projet (hypothèses, méthodologie, échantillonnage, instruments ...), sur les fichiers ou la base de données et sur les paramètres ;

- et des métadonnées (Metadata) : ensemble structuré de données qui servent à définir ou décrire une ressource quel que soit son support. Les métadonnées répondent aux questions suivantes : qui, que, où, quand, comment, pourquoi ? Avec les métadonnées, le fournisseur de données apporte aux utilisateurs des informations sur le contexte de production et la qualité de ses données, tandis que l'utilisateur peut découvrir des ressources et évaluer leur pertinence par rapport à ses besoins.

Nous profiterons de cette séance pour traiter les règles de nommage des documents, la notion d’identifiant pérenne pour les données de la recherche et la façon de lier vos données aux publications scientifiques résultantes des travaux scientifiques.  

 


Séance 5 : Structurer les données de la recherche 

Mardi 17 avril 2018 de 14h00 à 17h00

B.Jacquemin, E.Kergosien

Afin de faciliter les échanges d'information, il est nécessaire d'utiliser un langage commun pour structurer les données. On parle alors de standards de métadonnées (Metadata standard). Il existe différents types de standards de métadonnées : génériques, disciplinaires et technologiques. Nous étudierons le standard Dublin Core défini pour décrire de façon synthétique tout type de contenu et notamment les corpus de textes, les images et les enquêtes.

Nous présenterons le langage XML qui est un langage de balises permettant de décrire et structurer les données de la recherche. Après avoir détaillé quelques exemples de jeux de données structurés dans ce langage, des exercices permettront de mettre en pratique le langage XML et le standard Dublin Core sur des jeux de données de tests. Quels formats descriptifs ?  Montrer des exemples de structuration de données ; Comment baliser les données ; TD sur 3 types de données : corpus de textes, images, enquêtes.  

 


Séance 6 : Conserver et partager des données 

Mardi 29 mai 2018 de 14h00 à 17h00

C.Malleret, J.Schöpfel

Nous allons présenter un panorama des sites en ligne pour conserver et partager les données de la recherche, dans les domaines SHS. Nous allons aborder plusieurs aspects : comment trouver ces sites ? Comment déposer des données ? Comment les partager ? Une partie de la séance sera consacrée aux solutions pour les données des doctorants.  

 


Séance 7 : Bilan et évaluation

Mardi 5 juin 2018 de 14h00 à 16h00

B.Jacquemin, J.Schöpfel

La dernière séance du séminaire sera consacrée à l’évaluation des plans de gestion des doctorants et à un échange avec les participants au séminaire.

 

Programme 

« Les données de la recherche dans les thèses de doctorat » École doctorale SHS - Année 2016 – 2017

Faisant suite au séminaire tenu en 2015-2016 sur « les données de la recherche dans les thèses de doctorat en sciences humaines et sociales » financé par la MESHS (projet Partenariat) financé par la MESHS (projet Partenariat) et au Livre blanc[1] qui en a résulté, le laboratoire GERiiCO (Stéphane Chaudiron) et le SCD de Lille 3 (Isabelle Westeel) organisent un séminaire doctoral méthodologique sur la mise en place d’un plan de gestion des données de la recherche.

Contexte

Dans le mouvement des Humanités numériques, le libre accès aux publications scientifiques et aux données de la recherche est à l’ordre du jour. Les agences de financement (ANR, programme H2020 notamment) exigent de la part des porteurs de projets soumettant une demande de financement que soit explicitement prévu un plan de gestion des données qui seront recueillies et produites dans le cadre de la recherche. Pour répondre à cette exigence, des répertoires de données se mettent en place, en France (Nakala dans le cadre d’Huma-Num) et à l’étranger (par exemple le DANS aux Pays-Bas, HISTAT en Allemagne dans le domaine des statistiques historiques ou l’Archeology Data Service en Grande-Bretagne). Le registre des répertoires de données (re3data.org[2]) identifie plus de 1300 répertoires à ce jour, dans de multiples domaines.

Les enjeux liés à l’archivage et à l’accessibilité des données de la recherche sont nombreux : l’enjeu est d’abord de nature patrimoniale car décrire et archiver de manière pérenne les données permettra une réutilisation future par d’autres chercheurs. L’enjeu est ensuite de nature heuristique car il s’agit de permettre l’exploration des données (corpus textuels ou oraux, données brutes, images…) avec des techniques numériques (text mining, classification, cartographie, visualisation…) afin de construire un sens nouveau. Il répond enfin à une exigence en termes de politique scientifique car, imposé dans les programmes de financement, il est devenu un élément clé dans les réponses aux appels à projets.

 

Objectifs

 

À partir de trois exemples de données (entretiens, textes et images), les doctorant(e)s apprendront à mettre en place un plan de gestion des données. Après un rappel des enjeux et du cycle de vie des données de la recherche, seront abordées successivement les étapes importantes en vue de l’archivage à long terme : la capture des données et leurs formats, la structuration des données, leur description et leur partage.

D’une durée de 20 heures, le séminaire est prévu sur 7 séances entre janvier et juin 2017. Le programme est le suivant.

 

 

Programme

 

 

Séance 1 : Introduction : Gérer les données de la recherche – pourquoi, comment ?

Mardi 7 février 2017 de 14h00 à 17h00, salle B2.247

C.Malleret, J.Schöpfel

Cette séance aura pour but de définir et cerner les enjeux des données de la recherche en distinguant les données brutes, les données dérivées et les jeux de données (ou dataset) et en rappelant le contexte (national et européen) de l’Open Science. Un second temps sera consacré aux pratiques et besoins identifiés des doctorants et des chercheurs de Lille 3 dans la gestion de leurs données de recherche et enfin à l’évaluation des acquis des doctorants sur cette question.  

 


Séance 2 : Créer un plan de gestion des données de la recherche

Mardi 14 février 2017 de 14h00 à 17h00, salle B2.247

C.Malleret, J.Schöpfel

Le Plan de Gestion des Données des données (ou Data Management Plan) ne répond pas seulement à une obligation des financeurs mais se veut d’abord une aide à la conservation et, autant que possible, au partage des données de la recherche. L’objectif est donc d’abord de fournir un cadre qui permette, dans le processus de recherche, d’inclure la production et la collecte des données. Une partie de la séance sera consacrée à la formation à l’outil en ligne DMPOnline et au lancement des travaux individuels.  

 


Séance 3 : Le cycle de vie des données

Mardi 7 mars 2017 de 14h00 à 17h00, salle B2.247

B.Jacquemin, J.Schöpfel

Les données de la recherche s'inscrivent dans le contexte plus large de la donnée numérique. Aussi est-il nécessaire d'étudier leur cycle de vie, depuis leur création jusqu'à leur archivage définitif, en prenant en compte deux propriétés essentielles que sont leur aspect digital d'une part, et leur lien à une activité de recherche de l'autre. Partant des besoins liés à l'archivage - et notamment l'archivage à long terme, qu'il s'agira d'identifier - nous étudierons donc l'identification et la description des données pour assurer leur (ré)utilisabilité à travers des jeux de métadonnées, les modèles existants pour la conservation et l'archivage des données numériques et les systèmes mis en place qui disposent des fonctionnalités nécessaires à un archivage efficace et pérenne. Un temps sera consacré à faire le point sur les plans de gestion des doctorants, par rapport à l’avancement de leurs propres projets de recherche.  

 


Séance 4 : Décrire les données de la recherche 

Mardi 4 avril 2017 de 14h00 à 17h00, salle B2.468

B.Jacquemin, E.Kergosien

La description des données est une étape primordiale dans le plan de gestion. En effet, afin que les données de la recherche soient réutilisables, le contexte de leur production doit être documenté de manière précise et intelligible. Ainsi, il peut être décrit par : - une documentation adéquate, sous la forme d'un fichier txt ou pdf qui rapporte des informations sur le projet (hypothèses, méthodologie, échantillonnage, instruments ...), sur les fichiers ou la base de données et sur les paramètres ; - et des métadonnées (Metadata) : ensemble structuré de données qui servent à définir ou décrire une ressource quel que soit son support. Les métadonnées répondent aux questions suivantes : qui, que, où, quand, comment, pourquoi ? Avec les métadonnées, le fournisseur de données apporte aux utilisateurs des informations sur le contexte de production et la qualité de ses données, tandis que l'utilisateur peut découvrir des ressources et évaluer leur pertinence par rapport à ses besoins. Nous profiterons de cette séance pour traiter les règles de nommage des documents, la notion d’identifiant pérenne pour les données de la recherche et la façon de lier vos données aux publications scientifiques résultantes des travaux scientifiques.  

 


Séance 5 : Structurer les données de la recherche 

Mardi 16 mai 2017 de 14h00 à 17h00, salle B2.468

B.Jacquemin, E.Kergosien

Afin de faciliter les échanges d'information, il est nécessaire d'utiliser un langage commun pour structurer les données. On parle alors de standards de métadonnées (Metadata standard). Il existe différents types de standards de métadonnées : génériques, disciplinaires et technologiques. Nous étudierons le standard Dublin Core défini pour décrire de façon synthétique tout type de contenu et notamment les corpus de textes, les images et les enquêtes. Nous présenterons le langage XML qui est un langage de balises permettant de décrire et structurer les données de la recherche. Après avoir détaillé quelques exemples de jeux de données structurés dans ce langage, des exercices permettront de mettre en pratique le langage XML et le standard Dublin Core sur des jeux de données de tests. Quels formats descriptifs ?  Montrer des exemples de structuration de données ; Comment baliser les données ; TD sur 3 types de données : corpus de textes, images, enquêtes.  

 


Séance 6 : Conserver et partager des données 

Mardi 6 juin 2017 de 14h00 à 17h00, salle B2.468

C.Malleret, J.Schöpfel

Nous allons présenter un panorama des sites en ligne pour conserver et partager les données de la recherche, dans les domaines SHS. Nous allons aborder plusieurs aspects : comment trouver ces sites ? Comment déposer des données ? Comment les partager ? Une partie de la séance sera consacrée aux solutions pour les données des doctorants.  

 


Séance 7 : Bilan et évaluation

Mardi 13 juin 2017 de 14h00 à 16h00, salle B2.468

B.Jacquemin, J.Schöpfel

La dernière séance du séminaire sera consacrée à l’évaluation des plans de gestion des doctorants et à un échange avec les participants au séminaire.

 

Programme 

« Les données de la recherche dans les thèses de doctorat » École doctorale SHS - Année 2015 – 2016

Faisant suite au séminaire tenu en 2014-2015 sur « les données de la recherche dans les thèses de doctorat en sciences humaines et sociales » financé par la MESHS (projet Partenariat) financé par la MESHS (projet Partenariat) et au Livre blanc[1] qui en a résulté, le laboratoire GERiiCO (Stéphane Chaudiron) et le SCD de Lille 3 (Isabelle Westeel) organisent un séminaire doctoral méthodologique sur la mise en place d’un plan de gestion des données de la recherche.

Contexte

Dans le mouvement des Humanités numériques, le libre accès aux publications scientifiques et aux données de la recherche est à l’ordre du jour. Les agences de financement (ANR, programme H2020 notamment) exigent de la part des porteurs de projets soumettant une demande de financement que soit explicitement prévu un plan de gestion des données qui seront recueillies et produites dans le cadre de la recherche. Pour répondre à cette exigence, des répertoires de données se mettent en place, en France (Nakala dans le cadre d’Huma-Num) et à l’étranger (par exemple le DANS aux Pays-Bas, HISTAT en Allemagne dans le domaine des statistiques historiques ou l’Archeology Data Service en Grande-Bretagne). Le registre des répertoires de données (re3data.org[2]) identifie plus de 1300 répertoires à ce jour, dans de multiples domaines 

Les enjeux liés à l’archivage et à l’accessibilité des données de la recherche sont nombreux : l’enjeu est d’abord de nature patrimoniale car décrire et archiver de manière pérenne les données permettra une réutilisation future par d’autres chercheurs. L’enjeu est ensuite de nature heuristique car il s’agit de permettre l’exploration des données (corpus textuels ou oraux, données brutes, images…) avec des techniques numériques (text mining, classification, cartographie, visualisation…) afin de construire un sens nouveau. Il répond enfin à une exigence en termes de politique scientifique car, imposé dans les programmes de financement, il est devenu un élément clé dans les réponses aux appels à projets.

Objectifs

À partir de trois exemples de données (entretiens, textes et images), les doctorant(e)s apprendront à mettre en place un plan de gestion des données. Après un rappel des enjeux et du cycle de vie des données de la recherche, seront abordées successivement les étapes importantes en vue de l’archivage à long terme : la capture des données et leurs formats, la structuration des données, leur description et leur partage.

D’une durée de 20 heures, le séminaire est prévu sur 7 séances entre janvier et juin 2016. Le programme est le suivant.

 

Programme

 

 

Séance 1 : Pourquoi gérer les données de la recherche ?

18 janvier 2016, de 14h à 17h, salle B2.468

Intervenants : Cécile Malleret, Joachim Schöpfel

Cette séance aura d’abord pour but de définir et cerner les enjeux des données de la recherche en distinguant les données brutes, les données dérivées et les jeux de données (ou dataset) et en rappelant le contexte (national et européen) de l’Open Science. Un second temps sera consacré aux pratiques et besoins identifiés des doctorants et des chercheurs de Lille 3 dans la gestion de leurs données de recherche et enfin à l’évaluation des acquis des doctorants sur cette question.

 

Séance 2 : Créer un plan de gestion des données de la recherche

1 février 2016, de 14h à 17h, salle A1.419

Intervenants : Cécile Malleret, Joachim Schöpfel

Le Plan de Gestion des Données des données (ou Data Management Plan) ne répond pas seulement à une obligation des financeurs mais se veut d’abord une aide à l’archivage et, autant que possible, au partage des données de la recherche. L’objectif est donc d’abord de fournir un cadre qui permette, dans le processus de recherche, d’inclure la production et la collecte des données. Une grande partie de la séance sera consacrée à la méthodologie mise en œuvre au travers d’exemples.

 

Séance 3 : Le cycle de vie des données

14 mars 2016, de 14h à 17h, salle B2.460

Intervenants : Bernard Jacquemin

Les données de la recherche s'inscrivent dans le contexte plus large de la donnée numérique. Aussi est-il nécessaire d'étudier leur cycle de vie, depuis leur création jusqu'à leur archivage définitif, en prenant en compte deux propriétés essentielles que sont leur aspect digital d'une part, et leur lien à une activité de recherche de l'autre.

Partant des besoins liés à l'archivage - et notamment l'archivage à long terme, qu'il s'agira d'identifier - nous étudierons donc l'identification et la description des données pour assurer leur (ré)utilisabilité à travers des jeux de métadonnées, les modèles existants pour la conservation et l'archivage des données numériques et les systèmes mis en place qui disposent des fonctionnalités nécessaires à un archivage efficace et pérenne.

 

Séance 4 : Décrire les données de la recherche

21 avril 2016, de 14h à 17h, salle B2.472

Intervenants : Bernard Jacquemin, Eric Kergosien

La description des données est une étape primordiale dans le plan de gestion. En effet, afin que les données de la recherche soient réutilisables, le contexte de leur production doit être documenté de manière précise et intelligible. Ainsi, il peut être décrit par :

- Une documentation adéquate, sous la forme d'un fichier txt ou pdf qui rapporte des informations sur le projet (hypothèses, méthodologie, échantillonnage, instruments ...), sur les fichiers ou la base de données et sur les paramètres ;

- Et des métadonnées (Metadata) : ensemble structuré de données qui servent à définir ou décrire une ressource quel que soit son support. Les métadonnées répondent aux questions suivantes : qui, que, où, quand, comment, pourquoi ? Avec les métadonnées, le fournisseur de données apporte aux utilisateurs des informations sur le contexte de production et la qualité de ses données, tandis que l'utilisateur peut découvrir des ressources et évaluer leur pertinence par rapport à ses besoins.

Nous profiterons de cette séance pour traiter les règles de nommage des documents, la notion d’identifiant pérenne pour les données de la recherche et la façon de lier vos données aux publications scientifiques résultantes des travaux scientifiques.

 

Séance 5 : Structurer les données de la recherche,

23 mai 2016, de 14h à 17h, salle B2.472

Intervenants : Bernard Jacquemin, Eric Kergosien

Afin de faciliter les échanges d'information, il est nécessaire d'utiliser un langage commun pour structurer les données. On parle alors de standards de métadonnées (Metadata standard). Il existe différents types de standards de métadonnées : génériques, disciplinaires et technologiques. Nous étudierons le standard Dublin Core défini pour décrire de façon synthétique tout type de contenu et notamment les corpus de textes, les images et les enquêtes.

Nous présenterons le langage XML qui est un langage de balises permettant de décrire et structurer les données de la recherche. Après avoir détaillé quelques exemples de jeux de données structurés dans ce langage, des exercices permettront de mettre en pratique le langage XML et le standard Dublin Core sur des jeux de données de tests.

Quels formats descriptifs ?

Montrer des exemples de structuration de données ;

Comment baliser les données ;

TD sur 3 types de données : corpus de textes, images, enquêtes.

 

Séance 6 : Partager et réutiliser des données

6 juin 2016, de 14h à 17h, salle B2.472

Intervenants : Cécile Malleret, Joachim Schöpfel, Sofia Papastamkou

Nous allons présenter un panorama des sites en ligne pour conserver et partager les données de la recherche. Nous allons aborder plusieurs aspects : comment trouver ces sites ? Comment déposer des données ? Comment les partager ? Nous allons parler de différents types de sites (entrepôts), en montrant plusieurs exemples. Nous allons également évoquer quelques aspects éthiques et juridiques du partage, et nous allons finir par quelques alternatives, dont notamment les "data papers".

 

Séance 7 : Bilan du séminaire

Date à préciser

La dernière séance du séminaire sera consacrée à un échange avec les participants au séminaire.

 

 

Les intervenants

Stéphane Chaudiron, professeur, GERiiCO, Lille 3

Bernard Jacquemin, maître de conférences, GERiiCO, Lille 3

Éric Kergosien, maître de conférences, GERiiCO, Lille 3

Cécile Malleret, conservateur au Service commun de documentation de Lille 3

Sofia Papastamkou, MESHS Lille Nord de France

Joachim Schöpfel, maître de conférences, GERiiCO, Lille 3

Isabelle Westeel, directrice du Service commun de documentation de Lille 3

 

Bibliographie indicative

 

André, F., 2015. Déluge des données de la recherche ? In: Calderan, L., Laurent, P., Lowinger, H., Millet, J. (Eds.), Big data : nouvelles partitions de l'information. Actes du Séminaire IST Inria, octobre 2014. De Boeck; ADBS, Louvain-la-Neuve, pp. 77-95.
COMETS, 2015. Les enjeux éthiques du partage des données scientifiques. Comité éthique du CNRS, Paris.
URL http://www.cnrs.fr/comets/spip.php?article123

European Commission. Guidelines on Data Management in Horizon 2020(dec. 2013)
http://ec.europa.eu/research/participants/data/ref/h2020/grants_manual/hi/oa_pilot/h2020-hi-oa-data-mgt_en.pdf

European Commission. Guidelines on Open Access to Scientific Publications and Research Data in Horizon 2020 (dec. 2013)
http://ec.europa.eu/research/participants/data/ref/h2020/grants_manual/hi/oa_pilot/h2020-hi-oa-pilot-guide_en.pdf

 

Gaillard, R., 2014. De l'Open data à l'Open research data : quelle(s) politique(s) pour les données de recherche ? Master's thesis, ENSSIB, Villeurbanne.
URL http://eprints.rclis.org/22746/
Kindling, M., 2013. Doctoral theses' research data and metadata documentation. In: ETD 2013 Hong Kong 16th International Symposium on Electronic Theses and Dissertations 25 September 2013.
URL http://lib.hku.hk/etd2013/presentation/Maxi-ETD-20130925.pdf
Kuipers, T., van der Hoeven, J., 2009. Insight into digital preservation of research output in europe. survey report. PARSE insight, n/a.
URL http://www.parse-insight.eu/downloads/PARSE-Insight_D3-4_SurveyReport_final_hq.pdf

Les données de la recherche dans les appels à projets Horizon 2020 : Produire un Data Management Plan, Université Paris Diderot, Université Paris Descartes, Université Paris Sorbonne
http://www.isore.cnrs.fr/IMG/pdf/2014_ANF_5-2.pdf

 

Naegelen, P., 2015. Données de la recherche : quel positionnement et quels rôles pour les bibliothèques ? In: Données en partage : enjeux et acteurs des données de la recherche. URFIST Toulouse, 15 juin 2015.
URL http://fr.slideshare.net/pierrenaegelen/donnes-de-la-recherche-quel-positionnement-et-quels-rles-pour-les-bibliothques

Principes et lignes directrices de l’OCDE pour l’accès aux données de la recherche financée sur fonds publics(2007)
http://www.oecd.org/fr/science/sci-tech/38500823.pdf

 

Prost, H., Schöpfel, J., 2015. Les données de la recherche en SHS. une enquête à l'Universitéde lille 3. rapport final. Université de Lille 3, Villeneuve d'Ascq. 
URL http://hal.univ-lille3.fr/hal-01198379v1

Special issue on “Data Sharing, Data Publication and Data Citation.” Journal of Librarianship and Scholarly Communications, Volume 3 - Issue 2, 22 sep 2015
Site : http://jlsc-pub.org/10/volume/3/issue/2/

 

Tenopir, C., Dalton, E. D., Allard, S., Frame, M., Pjesivac, I., Birch, B., Pollock, D., Dorsett, K., Aug. 2015. Changes in data sharing and data reuse practices and perceptions among scientists worldwide. PLoS ONE 10 (8), e0134826+.
URL http://dx.doi.org/10.1371/journal.pone.0134826