« Les données de la recherche dans les thèses de doctorat » École doctorale SHS - Année 2018 – 2019

Le séminaire est proposé comme séminaire « outils-méthodes ».

 

Après le séminaire tenu en 2014-2015 à la MESHS sur les données de la recherche dans les thèses de doctorat en sciences humaines et sociales et le Livre blanc qui en a résulté, le laboratoire GERiiCO organise depuis 2015 un séminaire doctoral « outils-méthodes » sur la gestion des données de la recherche. Le séminaire 2018-2019 poursuivra la démarche de formation commencée en 2014, avec deux objectifs : former les doctorants à la gestion des données, et créer un plan de gestion personnalisé avec chaque doctorant. Le séminaire se positionne dans le cadre de la nouvelle politique, nationale pour la science ouverte et ses préconisations en matière de de la gestion des données de la recherche (développement de nouvelles  compétences, intégration des plans de gestion dans le montage des projets de recherche, utilisation des dispositifs pour la conservation et diffusion des données).

Le séminaire s’appuie en particulier sur les projets de recherche du laboratoire GERiiCO dans les domaines des humanités numériques, en particulier sur le projet structurant franco-allemand D4Humanities (thèses de doctorats, données de la recherche, TDM…).

Le séminaire sera accompagné d’une table ronde avec des enseignants-chercheurs d’autres laboratoires sur la formation des jeunes chercheurs dans le domaine de la science ouverte et de la gestion des données de la recherche.

 

Contexte

L’Université de Lille mène une politique en faveur du libre accès à l’information et de la science ouverte. La mise en place d’un ensemble de services dans le domaine des données de la recherche en fait partie. Le séminaire DRTD est complémentaire à cette démarche, avec son expérience scientifique dans ce domaine et son ancrage disciplinaire.

 

Contenu du séminaire

- compétences scientifiques : à partir de leurs propres données (entretiens, statistiques, textes, images etc.), les doctorant(e)s apprendront à mettre en place un plan de gestion des données. Après un rappel des enjeux et du cycle de vie des données de la recherche, seront abordées successivement les étapes importantes en vue de l’archivage à long terme : la capture des données et leurs formats, la structuration des données, leur description et leur partage. Il s’agit également de prendre conscience des enjeux de l’open access et de l’open science pour la gestion des résultats scientifiques.

D’une durée de 20 heures, le séminaire est prévu sur 7 séances entre janvier et juin 2019.

- compétences transférables : montage d’un projet scientifique ; sécurisation des données de la recherche ; notions d’éthique scientifique ; préparation et création d’un plan de gestion des données, à l’aide d’un outil en ligne (DMP OPIDoR).

 

Responsables du séminaire et intervenants

Bernard Jacquemin, maître de conférences, GERiiCO, Université de Lille

Joachim Schöpfel, maître de conférences, GERiiCO, Université de Lille

Éric Kergosien, maître de conférences, GERiiCO, Université de Lille

Cécile Malleret, conservateur au SCD de l’Université de Lille

 

 

Programme

 

1ère séance : Introduction : Gérer les données de la recherche – pourquoi, comment ?

lundi 25 février 2019 – 14h00 -17h00

Salle de formation de la Bibliothèque Universitaire (Pont-de-Bois)

(C.Malleret, J.Schöpfel)

 

2ème séance : Créer un plan de gestion des données de la recherche

mardi 5 mars 2019 – 14h00 -17h00

Salle de formation de la Bibliothèque Universitaire (Pont-de-Bois)

(J.Schöpfel)

 

3ème séance : Le cycle de vie des données

lundi 18 mars 2019 – 14h00 -17h00

Salle de formation de la Bibliothèque Universitaire (Pont-de-Bois)

(C. Malleret, J.Schöpfel)

 

4ème séance : Décrire les données de la recherche

mardi 2 avril 2019 – 14h00 -17h00

Salle de formation de la Bibliothèque Universitaire (Pont-de-Bois)

(E.Kergosien)

 

5ème séance : Structurer les données de la recherche

mardi 30 avril 2019 – 14h00 -17h00

Salle de formation de la Bibliothèque Universitaire (Pont-de-Bois)

(E.Kergosien)

 

6ème séance : Conserver et partager des données

mardi 21 mai 2019 – 14h00 -17h00

Salle de formation de la Bibliothèque Universitaire (Pont-de-Bois)

(J.Schöpfel)

 

7ème séance : Bilan et évaluation

mardi 18 juin 2019 – 14h00 -16h00

Salle de formation de la Bibliothèque Universitaire (Pont-de-Bois)

(C. Malleret, J.Schöpfel)

 

 

« Les données de la recherche dans les thèses de doctorat » École doctorale SHS - Année 2017 – 2018

Le séminaire est proposé comme séminaire « outils-méthodes ».

 

Compétences scientifiques :
À partir de leurs propres données (entretiens, statistiques, textes, images etc.), les doctorant(e)s apprendront à mettre en place un plan de gestion des données. Après un rappel des enjeux et du cycle de vie des données de la recherche, seront abordées successivement les étapes importantes en vue de l’archivage à long terme : la capture des données et leurs formats, la structuration des données, leur description et leur partage.

 

Compétences transférables :
Préparation et création d’un plan de gestion des données, à l’aide d’un outil en ligne (DMP OPIDoR).

 

Objectifs et évaluation :
• Réalisation d’un plan de gestion de données complet
• Pertinence par rapport à la thématique (pas de plan standard)
• Cohérence globale du plan
• Prise en compte des principes FAIR

 

D’une durée de 20 heures, le séminaire a lieu en sept séances entre janvier et juin 2018.
Le séminaire a lieu en salle informatique, dans les locaux de la BU sciences humaines et sociales (Pont de Bois)

 

Responsables du séminaire :
- Bernard Jacquemin, maître de conférences, GERiiCO, Lille 3
- Joachim Schöpfel, maître de conférences, GERiiCO, Lille 3
Autres intervenants :
- Éric Kergosien, maître de conférences, GERiiCO, Lille 3
- Cécile Malleret, conservateur au SCD de l’Université de Lille SHS.

 

 

PROGRAMME

 

 

Séance 1 : Introduction : Gérer les données de la recherche – pourquoi, comment ?

Mardi 30 janvier 2018 de 14h00 à 17h00

C.Malleret, J.Schöpfel

Cette séance aura pour but de définir et cerner les enjeux des données de la recherche en distinguant les données brutes, les données dérivées et les jeux de données (ou dataset) et en rappelant le contexte (national et européen) de l’Open Science. Un second temps sera consacré aux pratiques et besoins identifiés des doctorants et des chercheurs de Lille 3 dans la gestion de leurs données de recherche et enfin à l’évaluation des acquis des doctorants sur cette question.  

 


Séance 2 : Créer un plan de gestion des données de la recherche

Mardi 20 février 2018 de 14h00 à 17h00

C.Malleret, J.Schöpfel

Le Plan de Gestion des Données des données (ou Data Management Plan) ne répond pas seulement à une obligation des financeurs mais se veut d’abord une aide à la conservation et, autant que possible, au partage des données de la recherche. L’objectif est donc d’abord de fournir un cadre qui permette, dans le processus de recherche, d’inclure la production et la collecte des données. Une partie de la séance sera consacrée à la formation à l’outil en ligne DMPOnline et au lancement des travaux individuels.  

 


Séance 3 : Le cycle de vie des données

Mardi 6 mars 2018 de 14h00 à 17h00

B.Jacquemin, J.Schöpfel

Les données de la recherche s'inscrivent dans le contexte plus large de la donnée numérique. Aussi est-il nécessaire d'étudier leur cycle de vie, depuis leur création jusqu'à leur archivage définitif, en prenant en compte deux propriétés essentielles que sont leur aspect digital d'une part, et leur lien à une activité de recherche de l'autre. Partant des besoins liés à l'archivage - et notamment l'archivage à long terme, qu'il s'agira d'identifier - nous étudierons donc l'identification et la description des données pour assurer leur (ré)utilisabilité à travers des jeux de métadonnées, les modèles existants pour la conservation et l'archivage des données numériques et les systèmes mis en place qui disposent des fonctionnalités nécessaires à un archivage efficace et pérenne. Un temps sera consacré à faire le point sur les plans de gestion des doctorants, par rapport à l’avancement de leurs propres projets de recherche.  

 


Séance 4 : Décrire les données de la recherche 

Mardi 3 avril 2018 de 14h00 à 17h00

B.Jacquemin, E.Kergosien

La description des données est une étape primordiale dans le plan de gestion. En effet, afin que les données de la recherche soient réutilisables, le contexte de leur production doit être documenté de manière précise et intelligible. Ainsi, il peut être décrit par :

- une documentation adéquate, sous la forme d'un fichier txt ou pdf qui rapporte des informations sur le projet (hypothèses, méthodologie, échantillonnage, instruments ...), sur les fichiers ou la base de données et sur les paramètres ;

- et des métadonnées (Metadata) : ensemble structuré de données qui servent à définir ou décrire une ressource quel que soit son support. Les métadonnées répondent aux questions suivantes : qui, que, où, quand, comment, pourquoi ? Avec les métadonnées, le fournisseur de données apporte aux utilisateurs des informations sur le contexte de production et la qualité de ses données, tandis que l'utilisateur peut découvrir des ressources et évaluer leur pertinence par rapport à ses besoins.

Nous profiterons de cette séance pour traiter les règles de nommage des documents, la notion d’identifiant pérenne pour les données de la recherche et la façon de lier vos données aux publications scientifiques résultantes des travaux scientifiques.  

 


Séance 5 : Structurer les données de la recherche 

Mardi 17 avril 2018 de 14h00 à 17h00

B.Jacquemin, E.Kergosien

Afin de faciliter les échanges d'information, il est nécessaire d'utiliser un langage commun pour structurer les données. On parle alors de standards de métadonnées (Metadata standard). Il existe différents types de standards de métadonnées : génériques, disciplinaires et technologiques. Nous étudierons le standard Dublin Core défini pour décrire de façon synthétique tout type de contenu et notamment les corpus de textes, les images et les enquêtes.

Nous présenterons le langage XML qui est un langage de balises permettant de décrire et structurer les données de la recherche. Après avoir détaillé quelques exemples de jeux de données structurés dans ce langage, des exercices permettront de mettre en pratique le langage XML et le standard Dublin Core sur des jeux de données de tests. Quels formats descriptifs ?  Montrer des exemples de structuration de données ; Comment baliser les données ; TD sur 3 types de données : corpus de textes, images, enquêtes.  

 


Séance 6 : Conserver et partager des données 

Mardi 29 mai 2018 de 14h00 à 17h00

C.Malleret, J.Schöpfel

Nous allons présenter un panorama des sites en ligne pour conserver et partager les données de la recherche, dans les domaines SHS. Nous allons aborder plusieurs aspects : comment trouver ces sites ? Comment déposer des données ? Comment les partager ? Une partie de la séance sera consacrée aux solutions pour les données des doctorants.  

 


Séance 7 : Bilan et évaluation

Mardi 5 juin 2018 de 14h00 à 16h00

B.Jacquemin, J.Schöpfel

La dernière séance du séminaire sera consacrée à l’évaluation des plans de gestion des doctorants et à un échange avec les participants au séminaire.

 

Programme 

« Les données de la recherche dans les thèses de doctorat » École doctorale SHS - Année 2016 – 2017

Faisant suite au séminaire tenu en 2015-2016 sur « les données de la recherche dans les thèses de doctorat en sciences humaines et sociales » financé par la MESHS (projet Partenariat) financé par la MESHS (projet Partenariat) et au Livre blanc[1] qui en a résulté, le laboratoire GERiiCO (Stéphane Chaudiron) et le SCD de Lille 3 (Isabelle Westeel) organisent un séminaire doctoral méthodologique sur la mise en place d’un plan de gestion des données de la recherche.

Contexte

Dans le mouvement des Humanités numériques, le libre accès aux publications scientifiques et aux données de la recherche est à l’ordre du jour. Les agences de financement (ANR, programme H2020 notamment) exigent de la part des porteurs de projets soumettant une demande de financement que soit explicitement prévu un plan de gestion des données qui seront recueillies et produites dans le cadre de la recherche. Pour répondre à cette exigence, des répertoires de données se mettent en place, en France (Nakala dans le cadre d’Huma-Num) et à l’étranger (par exemple le DANS aux Pays-Bas, HISTAT en Allemagne dans le domaine des statistiques historiques ou l’Archeology Data Service en Grande-Bretagne). Le registre des répertoires de données (re3data.org[2]) identifie plus de 1300 répertoires à ce jour, dans de multiples domaines.

Les enjeux liés à l’archivage et à l’accessibilité des données de la recherche sont nombreux : l’enjeu est d’abord de nature patrimoniale car décrire et archiver de manière pérenne les données permettra une réutilisation future par d’autres chercheurs. L’enjeu est ensuite de nature heuristique car il s’agit de permettre l’exploration des données (corpus textuels ou oraux, données brutes, images…) avec des techniques numériques (text mining, classification, cartographie, visualisation…) afin de construire un sens nouveau. Il répond enfin à une exigence en termes de politique scientifique car, imposé dans les programmes de financement, il est devenu un élément clé dans les réponses aux appels à projets.

 

Objectifs

 

À partir de trois exemples de données (entretiens, textes et images), les doctorant(e)s apprendront à mettre en place un plan de gestion des données. Après un rappel des enjeux et du cycle de vie des données de la recherche, seront abordées successivement les étapes importantes en vue de l’archivage à long terme : la capture des données et leurs formats, la structuration des données, leur description et leur partage.

D’une durée de 20 heures, le séminaire est prévu sur 7 séances entre janvier et juin 2017. Le programme est le suivant.

 

 

Programme

 

 

Séance 1 : Introduction : Gérer les données de la recherche – pourquoi, comment ?

Mardi 7 février 2017 de 14h00 à 17h00, salle B2.247

C.Malleret, J.Schöpfel

Cette séance aura pour but de définir et cerner les enjeux des données de la recherche en distinguant les données brutes, les données dérivées et les jeux de données (ou dataset) et en rappelant le contexte (national et européen) de l’Open Science. Un second temps sera consacré aux pratiques et besoins identifiés des doctorants et des chercheurs de Lille 3 dans la gestion de leurs données de recherche et enfin à l’évaluation des acquis des doctorants sur cette question.  

 


Séance 2 : Créer un plan de gestion des données de la recherche

Mardi 14 février 2017 de 14h00 à 17h00, salle B2.247

C.Malleret, J.Schöpfel

Le Plan de Gestion des Données des données (ou Data Management Plan) ne répond pas seulement à une obligation des financeurs mais se veut d’abord une aide à la conservation et, autant que possible, au partage des données de la recherche. L’objectif est donc d’abord de fournir un cadre qui permette, dans le processus de recherche, d’inclure la production et la collecte des données. Une partie de la séance sera consacrée à la formation à l’outil en ligne DMPOnline et au lancement des travaux individuels.  

 


Séance 3 : Le cycle de vie des données

Mardi 7 mars 2017 de 14h00 à 17h00, salle B2.247

B.Jacquemin, J.Schöpfel

Les données de la recherche s'inscrivent dans le contexte plus large de la donnée numérique. Aussi est-il nécessaire d'étudier leur cycle de vie, depuis leur création jusqu'à leur archivage définitif, en prenant en compte deux propriétés essentielles que sont leur aspect digital d'une part, et leur lien à une activité de recherche de l'autre. Partant des besoins liés à l'archivage - et notamment l'archivage à long terme, qu'il s'agira d'identifier - nous étudierons donc l'identification et la description des données pour assurer leur (ré)utilisabilité à travers des jeux de métadonnées, les modèles existants pour la conservation et l'archivage des données numériques et les systèmes mis en place qui disposent des fonctionnalités nécessaires à un archivage efficace et pérenne. Un temps sera consacré à faire le point sur les plans de gestion des doctorants, par rapport à l’avancement de leurs propres projets de recherche.  

 


Séance 4 : Décrire les données de la recherche 

Mardi 4 avril 2017 de 14h00 à 17h00, salle B2.468

B.Jacquemin, E.Kergosien

La description des données est une étape primordiale dans le plan de gestion. En effet, afin que les données de la recherche soient réutilisables, le contexte de leur production doit être documenté de manière précise et intelligible. Ainsi, il peut être décrit par : - une documentation adéquate, sous la forme d'un fichier txt ou pdf qui rapporte des informations sur le projet (hypothèses, méthodologie, échantillonnage, instruments ...), sur les fichiers ou la base de données et sur les paramètres ; - et des métadonnées (Metadata) : ensemble structuré de données qui servent à définir ou décrire une ressource quel que soit son support. Les métadonnées répondent aux questions suivantes : qui, que, où, quand, comment, pourquoi ? Avec les métadonnées, le fournisseur de données apporte aux utilisateurs des informations sur le contexte de production et la qualité de ses données, tandis que l'utilisateur peut découvrir des ressources et évaluer leur pertinence par rapport à ses besoins. Nous profiterons de cette séance pour traiter les règles de nommage des documents, la notion d’identifiant pérenne pour les données de la recherche et la façon de lier vos données aux publications scientifiques résultantes des travaux scientifiques.  

 


Séance 5 : Structurer les données de la recherche 

Mardi 16 mai 2017 de 14h00 à 17h00, salle B2.468

B.Jacquemin, E.Kergosien

Afin de faciliter les échanges d'information, il est nécessaire d'utiliser un langage commun pour structurer les données. On parle alors de standards de métadonnées (Metadata standard). Il existe différents types de standards de métadonnées : génériques, disciplinaires et technologiques. Nous étudierons le standard Dublin Core défini pour décrire de façon synthétique tout type de contenu et notamment les corpus de textes, les images et les enquêtes. Nous présenterons le langage XML qui est un langage de balises permettant de décrire et structurer les données de la recherche. Après avoir détaillé quelques exemples de jeux de données structurés dans ce langage, des exercices permettront de mettre en pratique le langage XML et le standard Dublin Core sur des jeux de données de tests. Quels formats descriptifs ?  Montrer des exemples de structuration de données ; Comment baliser les données ; TD sur 3 types de données : corpus de textes, images, enquêtes.  

 


Séance 6 : Conserver et partager des données 

Mardi 6 juin 2017 de 14h00 à 17h00, salle B2.468

C.Malleret, J.Schöpfel

Nous allons présenter un panorama des sites en ligne pour conserver et partager les données de la recherche, dans les domaines SHS. Nous allons aborder plusieurs aspects : comment trouver ces sites ? Comment déposer des données ? Comment les partager ? Une partie de la séance sera consacrée aux solutions pour les données des doctorants.  

 


Séance 7 : Bilan et évaluation

Mardi 13 juin 2017 de 14h00 à 16h00, salle B2.468

B.Jacquemin, J.Schöpfel

La dernière séance du séminaire sera consacrée à l’évaluation des plans de gestion des doctorants et à un échange avec les participants au séminaire.

 

Programme 

« Les données de la recherche dans les thèses de doctorat » École doctorale SHS - Année 2015 – 2016

Faisant suite au séminaire tenu en 2014-2015 sur « les données de la recherche dans les thèses de doctorat en sciences humaines et sociales » financé par la MESHS (projet Partenariat) financé par la MESHS (projet Partenariat) et au Livre blanc[1] qui en a résulté, le laboratoire GERiiCO (Stéphane Chaudiron) et le SCD de Lille 3 (Isabelle Westeel) organisent un séminaire doctoral méthodologique sur la mise en place d’un plan de gestion des données de la recherche.

Contexte

Dans le mouvement des Humanités numériques, le libre accès aux publications scientifiques et aux données de la recherche est à l’ordre du jour. Les agences de financement (ANR, programme H2020 notamment) exigent de la part des porteurs de projets soumettant une demande de financement que soit explicitement prévu un plan de gestion des données qui seront recueillies et produites dans le cadre de la recherche. Pour répondre à cette exigence, des répertoires de données se mettent en place, en France (Nakala dans le cadre d’Huma-Num) et à l’étranger (par exemple le DANS aux Pays-Bas, HISTAT en Allemagne dans le domaine des statistiques historiques ou l’Archeology Data Service en Grande-Bretagne). Le registre des répertoires de données (re3data.org[2]) identifie plus de 1300 répertoires à ce jour, dans de multiples domaines 

Les enjeux liés à l’archivage et à l’accessibilité des données de la recherche sont nombreux : l’enjeu est d’abord de nature patrimoniale car décrire et archiver de manière pérenne les données permettra une réutilisation future par d’autres chercheurs. L’enjeu est ensuite de nature heuristique car il s’agit de permettre l’exploration des données (corpus textuels ou oraux, données brutes, images…) avec des techniques numériques (text mining, classification, cartographie, visualisation…) afin de construire un sens nouveau. Il répond enfin à une exigence en termes de politique scientifique car, imposé dans les programmes de financement, il est devenu un élément clé dans les réponses aux appels à projets.

Objectifs

À partir de trois exemples de données (entretiens, textes et images), les doctorant(e)s apprendront à mettre en place un plan de gestion des données. Après un rappel des enjeux et du cycle de vie des données de la recherche, seront abordées successivement les étapes importantes en vue de l’archivage à long terme : la capture des données et leurs formats, la structuration des données, leur description et leur partage.

D’une durée de 20 heures, le séminaire est prévu sur 7 séances entre janvier et juin 2016. Le programme est le suivant.

 

Programme

 

 

Séance 1 : Pourquoi gérer les données de la recherche ?

18 janvier 2016, de 14h à 17h, salle B2.468

Intervenants : Cécile Malleret, Joachim Schöpfel

Cette séance aura d’abord pour but de définir et cerner les enjeux des données de la recherche en distinguant les données brutes, les données dérivées et les jeux de données (ou dataset) et en rappelant le contexte (national et européen) de l’Open Science. Un second temps sera consacré aux pratiques et besoins identifiés des doctorants et des chercheurs de Lille 3 dans la gestion de leurs données de recherche et enfin à l’évaluation des acquis des doctorants sur cette question.

 

Séance 2 : Créer un plan de gestion des données de la recherche

1 février 2016, de 14h à 17h, salle A1.419

Intervenants : Cécile Malleret, Joachim Schöpfel

Le Plan de Gestion des Données des données (ou Data Management Plan) ne répond pas seulement à une obligation des financeurs mais se veut d’abord une aide à l’archivage et, autant que possible, au partage des données de la recherche. L’objectif est donc d’abord de fournir un cadre qui permette, dans le processus de recherche, d’inclure la production et la collecte des données. Une grande partie de la séance sera consacrée à la méthodologie mise en œuvre au travers d’exemples.

 

Séance 3 : Le cycle de vie des données

14 mars 2016, de 14h à 17h, salle B2.460

Intervenants : Bernard Jacquemin

Les données de la recherche s'inscrivent dans le contexte plus large de la donnée numérique. Aussi est-il nécessaire d'étudier leur cycle de vie, depuis leur création jusqu'à leur archivage définitif, en prenant en compte deux propriétés essentielles que sont leur aspect digital d'une part, et leur lien à une activité de recherche de l'autre.

Partant des besoins liés à l'archivage - et notamment l'archivage à long terme, qu'il s'agira d'identifier - nous étudierons donc l'identification et la description des données pour assurer leur (ré)utilisabilité à travers des jeux de métadonnées, les modèles existants pour la conservation et l'archivage des données numériques et les systèmes mis en place qui disposent des fonctionnalités nécessaires à un archivage efficace et pérenne.

 

Séance 4 : Décrire les données de la recherche

21 avril 2016, de 14h à 17h, salle B2.472

Intervenants : Bernard Jacquemin, Eric Kergosien

La description des données est une étape primordiale dans le plan de gestion. En effet, afin que les données de la recherche soient réutilisables, le contexte de leur production doit être documenté de manière précise et intelligible. Ainsi, il peut être décrit par :

- Une documentation adéquate, sous la forme d'un fichier txt ou pdf qui rapporte des informations sur le projet (hypothèses, méthodologie, échantillonnage, instruments ...), sur les fichiers ou la base de données et sur les paramètres ;

- Et des métadonnées (Metadata) : ensemble structuré de données qui servent à définir ou décrire une ressource quel que soit son support. Les métadonnées répondent aux questions suivantes : qui, que, où, quand, comment, pourquoi ? Avec les métadonnées, le fournisseur de données apporte aux utilisateurs des informations sur le contexte de production et la qualité de ses données, tandis que l'utilisateur peut découvrir des ressources et évaluer leur pertinence par rapport à ses besoins.

Nous profiterons de cette séance pour traiter les règles de nommage des documents, la notion d’identifiant pérenne pour les données de la recherche et la façon de lier vos données aux publications scientifiques résultantes des travaux scientifiques.

 

Séance 5 : Structurer les données de la recherche,

23 mai 2016, de 14h à 17h, salle B2.472

Intervenants : Bernard Jacquemin, Eric Kergosien

Afin de faciliter les échanges d'information, il est nécessaire d'utiliser un langage commun pour structurer les données. On parle alors de standards de métadonnées (Metadata standard). Il existe différents types de standards de métadonnées : génériques, disciplinaires et technologiques. Nous étudierons le standard Dublin Core défini pour décrire de façon synthétique tout type de contenu et notamment les corpus de textes, les images et les enquêtes.

Nous présenterons le langage XML qui est un langage de balises permettant de décrire et structurer les données de la recherche. Après avoir détaillé quelques exemples de jeux de données structurés dans ce langage, des exercices permettront de mettre en pratique le langage XML et le standard Dublin Core sur des jeux de données de tests.

Quels formats descriptifs ?

Montrer des exemples de structuration de données ;

Comment baliser les données ;

TD sur 3 types de données : corpus de textes, images, enquêtes.

 

Séance 6 : Partager et réutiliser des données

6 juin 2016, de 14h à 17h, salle B2.472

Intervenants : Cécile Malleret, Joachim Schöpfel, Sofia Papastamkou

Nous allons présenter un panorama des sites en ligne pour conserver et partager les données de la recherche. Nous allons aborder plusieurs aspects : comment trouver ces sites ? Comment déposer des données ? Comment les partager ? Nous allons parler de différents types de sites (entrepôts), en montrant plusieurs exemples. Nous allons également évoquer quelques aspects éthiques et juridiques du partage, et nous allons finir par quelques alternatives, dont notamment les "data papers".

 

Séance 7 : Bilan du séminaire

Date à préciser

La dernière séance du séminaire sera consacrée à un échange avec les participants au séminaire.

 

 

Les intervenants

Stéphane Chaudiron, professeur, GERiiCO, Lille 3

Bernard Jacquemin, maître de conférences, GERiiCO, Lille 3

Éric Kergosien, maître de conférences, GERiiCO, Lille 3

Cécile Malleret, conservateur au Service commun de documentation de Lille 3

Sofia Papastamkou, MESHS Lille Nord de France

Joachim Schöpfel, maître de conférences, GERiiCO, Lille 3

Isabelle Westeel, directrice du Service commun de documentation de Lille 3

 

Bibliographie indicative

 

André, F., 2015. Déluge des données de la recherche ? In: Calderan, L., Laurent, P., Lowinger, H., Millet, J. (Eds.), Big data : nouvelles partitions de l'information. Actes du Séminaire IST Inria, octobre 2014. De Boeck; ADBS, Louvain-la-Neuve, pp. 77-95.
COMETS, 2015. Les enjeux éthiques du partage des données scientifiques. Comité éthique du CNRS, Paris.
URL http://www.cnrs.fr/comets/spip.php?article123

European Commission. Guidelines on Data Management in Horizon 2020(dec. 2013)
http://ec.europa.eu/research/participants/data/ref/h2020/grants_manual/hi/oa_pilot/h2020-hi-oa-data-mgt_en.pdf

European Commission. Guidelines on Open Access to Scientific Publications and Research Data in Horizon 2020 (dec. 2013)
http://ec.europa.eu/research/participants/data/ref/h2020/grants_manual/hi/oa_pilot/h2020-hi-oa-pilot-guide_en.pdf

 

Gaillard, R., 2014. De l'Open data à l'Open research data : quelle(s) politique(s) pour les données de recherche ? Master's thesis, ENSSIB, Villeurbanne.
URL http://eprints.rclis.org/22746/
Kindling, M., 2013. Doctoral theses' research data and metadata documentation. In: ETD 2013 Hong Kong 16th International Symposium on Electronic Theses and Dissertations 25 September 2013.
URL http://lib.hku.hk/etd2013/presentation/Maxi-ETD-20130925.pdf
Kuipers, T., van der Hoeven, J., 2009. Insight into digital preservation of research output in europe. survey report. PARSE insight, n/a.
URL http://www.parse-insight.eu/downloads/PARSE-Insight_D3-4_SurveyReport_final_hq.pdf

Les données de la recherche dans les appels à projets Horizon 2020 : Produire un Data Management Plan, Université Paris Diderot, Université Paris Descartes, Université Paris Sorbonne
http://www.isore.cnrs.fr/IMG/pdf/2014_ANF_5-2.pdf

 

Naegelen, P., 2015. Données de la recherche : quel positionnement et quels rôles pour les bibliothèques ? In: Données en partage : enjeux et acteurs des données de la recherche. URFIST Toulouse, 15 juin 2015.
URL http://fr.slideshare.net/pierrenaegelen/donnes-de-la-recherche-quel-positionnement-et-quels-rles-pour-les-bibliothques

Principes et lignes directrices de l’OCDE pour l’accès aux données de la recherche financée sur fonds publics(2007)
http://www.oecd.org/fr/science/sci-tech/38500823.pdf

 

Prost, H., Schöpfel, J., 2015. Les données de la recherche en SHS. une enquête à l'Universitéde lille 3. rapport final. Université de Lille 3, Villeneuve d'Ascq. 
URL http://hal.univ-lille3.fr/hal-01198379v1

Special issue on “Data Sharing, Data Publication and Data Citation.” Journal of Librarianship and Scholarly Communications, Volume 3 - Issue 2, 22 sep 2015
Site : http://jlsc-pub.org/10/volume/3/issue/2/

 

Tenopir, C., Dalton, E. D., Allard, S., Frame, M., Pjesivac, I., Birch, B., Pollock, D., Dorsett, K., Aug. 2015. Changes in data sharing and data reuse practices and perceptions among scientists worldwide. PLoS ONE 10 (8), e0134826+.
URL http://dx.doi.org/10.1371/journal.pone.0134826

« Valoriser et diffuser les données de la recherche »

Organisé par Joachim Schöpfel, Stéphane Chaudiron, Bernard Jacquemin, Eric Kergosien et Florence Thiault.

Le libre accès aux résultats de la recherche est une question qui s’adresse à tous les chercheurs et notamment aux doctorants, mais aussi aux bibliothécaires et documentalistes. Alors que la diffusion des thèses et autres publications scientifiques en open access ne pose plus de problème avec le développement des entrepôts d’archives ouvertes (HAL en France), la question des données de la recherche reste posée.  

Les données de la recherche sont de petits ensembles de données (small data) produits dans le cadre de projets de recherche, et notamment par les doctorants : des annexes, du matériel audio-visuel, des tableaux et bases de données, des résultats bruts d’enquêtes etc. Hier déposé comme matériel complémentaire avec un exemplaire de la thèse dans les bibliothèques universitaires, aujourd’hui, avec la mise en place des dispositifs de thèses électroniques, ce matériel peut être diffusé sur des serveurs et plateformes documentaires. Source potentiellement riche d’information dans tous les domaines scientifiques, ce matériel est pourtant peu exploité à ce jour. Un intérêt particulier est la nature non commerciale et publique de la plupart de ces résultats. Dans le domaine des sciences humaines et sociales, au-delà de la seule numérisation de données de la recherche, l’enjeu est de nature heuristique. Il s’agit en effet de permettre l’exploration des données (corpus textuels ou oraux, données brutes, images,…) avec des techniques numériques (text and data mining, cartographie, visualisation…) afin de construire un sens nouveau.

Comment déposer, conserver et structurer les données déposées avec les thèses électroniques ? Comment articuler les thèses avec les matériaux qui ont servi à la recherche doctorale d’une part et avec les différentes données jointes en annexe du mémoire proprement dit ? Comment rédiger et déposer les thèses pour rendre les résultats exploitables, notamment pour la veille scientifique ? Comment diffuser les données, et sous quelles conditions ?

Ces questions s’adressent à tous les doctorants en SHS qui sont appelés à recueillir des données (entretiens, questionnaires, captures de traces numériques, corpus d’images, de vidéos,…), notamment en sciences du langage, sociologie, psychologie, histoire, sciences de l’éducation, sciences de l’information et de la communication… En particulier, le séminaire a pour objectif d’aider les doctorants à mieux gérer et valoriser leurs données, y compris pour établir un plan de gestion des données, en vue de leur diffusion et conservation.

Le séminaire, organisé par le laboratoire GERiiCO avec le soutien de la MESHS, de l’École doctorale SHS et de l’ANRT, propose trois journées d’études qui feront le point sur les enjeux, techniques, juridiques, organisationnels, et apporteront des réponses concrètes aux doctorants, et tous les chercheurs en SHS, qui se posent cette question :

 

2 février 2015 : « Valoriser les données de la recherche en SHS »

10 mars 2015 : « Maîtriser les droits et obligations »

21 avril 2015 : « Maîtriser les technologies pour valoriser les données »

 

Le séminaire a été ouvert par Martine Benoit (directrice de la MESHS), Catherine Maignant (directrice de l'Ecole Doctorale SHS) et Stephane Chaudiron (directeur de GERiiCO).

 

 

 

https://geriico-recherche.univ-lille3.fr/index.php?page=synthese-journee-3

Journée du 2 février 2015 : « Valoriser les données de la recherche en SHS »

Lieu : MESHS (salle 2), 2 rue des Canonniers, 59000 Lille

    Entretiens, questionnaires, expérimentations, corpus de texte structuré ou non, sondages, pistes audio et vidéo, fichiers de logs… Les activités de recherche amènent tous ses acteurs à recueillir et à traiter quantité de données que la diversité des domaines scientifiques, des thématiques visées, des méthodologies de collecte et des habitudes personnelles rendent particulièrement disparates. En particulier, les activités menées au cours des stages de recherche en Master et tout au long des thèses de doctorat sont particulièrement prolifiques en données de la recherche, tout en étant singulièrement peu propices à envisager leur préservation à des fins de valorisation.

Cette journée vise à observer les initiatives prises essentiellement dans les disciplines des sciences humaines et sociales pour envisager une gestion constructive et pérenne de ces données, quelle que soit la thématique de recherche et quelle que soit la nature des données considérées, de manière à les rendre compréhensibles et exploitables pour de nouvelles actions.

 

   Interviews, questionnaires, experiments, structured or unstructured text corpus, surveys, audio and video tracks, log files... Research activities bring all actors to collect and process large amounts of data, with a great diversity of scientific areas, topics, collection methodologies and personal approaches. In particular, the activities carried out in research internships in Master and throughout doctoral theses produce many research data that are often poorly managed, without a plan for the preservation and dissemination for reuse.

This event will introduce the question of data management, particularly in social sciences and humanities to foster a consistent and sustainable management of these data, whatever the research topic and whatever the nature of the data considered, in order to make them understandable and reusable for further research.

 

Coordination : Bernard Jacquemin, maître de conférences en SIC, directeur FCEP Lille 3

 


 

Matinée : Conférences


Maxi Kindling (chercheuse en SiC, Humboldt-Universität zu Berlin), Research Data Management at Humboldt-Universität zu Berlin. Status Quo and Perspectives

 

Présentation
   Maxi Kindling a présenté les travaux réalisés à la « Berlin School of Library and Information Science » par son groupe de travail qui est engagé dans un projet pilote s’intéressant à l’ensemble des données numériques produites par les doctorants de l’université de Humboldt. Constatant à partir de sondages électroniques réalisés au sein de l’université que les doctorants souhaitaient partager leurs données de recherche mais qu’ils ne savaient pas comment procéder, elle a montré comment son équipe essaie de proposer une structure de stockage et une documentation adaptée apportant une assistance technique et un soutien sur les questions juridiques. Les perspectives de ces travaux concernent les dynamiques et les obstacles rencontrés par le partage de données, la prise en compte de la sensibilité des chercheurs vis-à-vis de la diffusion de leurs données, la description des métadonnées, la documentation, la data curation, la conservation à long terme, la construction de banque de données et l’utilisation d’autres services.

 

 

Matinée : Conférences


Maxi Kindling (chercheuse en SiC, Humboldt-Universität zu Berlin), Research Data Management at Humboldt-Universität zu Berlin. Status Quo and Perspectives

 

Présentation
 Maxi Kindling a présenté les travaux réalisés à la « Berlin School of Library and Information Science » par son groupe de travail qui est engagé dans un projet pilote s’intéressant à l’ensemble des données numériques produites par les doctorants de l’université de Humboldt. Constatant à partir de sondages électroniques réalisés au sein de l’université que les doctorants souhaitaient partager leurs données de recherche mais qu’ils ne savaient pas comment procéder, elle a montré comment son équipe essaie de proposer une structure de stockage et une documentation adaptée apportant une assistance technique et un soutien sur les questions juridiques. Les perspectives de ces travaux concernent les dynamiques et les obstacles rencontrés par le partage de données, la prise en compte de la sensibilité des chercheurs vis-à-vis de la diffusion de leurs données, la description des métadonnées, la documentation, la data curation, la conservation à long terme, la construction de banque de données et l’utilisation d’autres services.

 Discussions

   Les discussions ont d’abord porté sur la façon de réunir des informations propres à concevoir des dépôts répondant aux spécificités des données issues de la recherche en partant du constat que dans certaines disciplines de tels dépôts existaient déjà depuis longtemps et étaient bien établis. Le débat a porté sur la façon dont l’information peut traverser les clivages disciplinaires et l’identification des obstacles entre les diverses communautés. Max Kindling a précisé alors que son équipe travaille dans cette direction et que les travaux présentés s’appuient sur des dépôts existants, sur des sondages, sur des entretiens et sur l’organisation de workshops. Elle a précisé également que les dépôts déjà constitués ne s’affichaient généralement pas comme étant des dépôts réunissant des données de recherche, et que d’autres dépôts sont quant à eux totalement méconnus. Elle considère que son groupe de travail pourrait avoir vocation à fournir aux communautés les informations collectées à propos des savoir-faire et laisse donc entendre qu’il pourrait jouer très utilement un rôle de relais. Plus particulièrement, la question de la réutilisation des données et de la conception des métadonnées a été abordée, et la difficulté de concevoir des métadonnées capables de couvrir la diversité des usages, des types de données et des standards propres à chaque discipline a été pointée. 


Françoise Genova (directrice du Centre de Données Astronomiques CDS, Observatoire de Strasbourg), Le partage des données de la recherche : un changement de paradigme.

 

Présentation

  Françoise Genova a présenté des exemples de modalités de partage des données de la recherche à partir des infrastructures numériques de recherche. Elle a souligné l’importance des enjeux que le partage soulève car il ouvre vers de nouvelles recherches et fait l’objet de discussions à des niveaux politiques interétatiques tels que le G8.  En s’appuyant sur le cas de l’astronomie, de diverses infrastructures de recherche et sur le constat que les métadonnées se trouvent au coeur de l’interopérabilité, elle montre que les sciences humaines et sociales n’ont pas pris de retard dans ce domaine car elles possèdent une infrastructure de données disciplinaire, Huma-Num, et des standards qui permettent par exemple de conserver les annotations. Elle a insisté par ailleurs sur l’importance du rôle que jouent les documentalistes dans ces infrastructures et cela quelle que soit la discipline concernée.

 

Discussions
   Les discussions se sont engagées sur la question du lien entre la structuration institutionnelle et les communautés. A ce propos l’importance d’une démarche « bottom-up » et d’une articulation entre différents niveaux ont été soulignées - la standardisation opérant à grande échelle, au niveau européen par exemple, et les consortiums en tant que lieux de réflexion disciplinaire ou de concertation collective par les communautés, au niveau local. Un concept de « documentalist embeded » a été rapporté pour répondre à la nécessité de s’imprégner de la culture de chaque discipline dans la conception d’un système d’information. Le dynamisme d’une nouvelle organisation qui prend son essor depuis 2013, la Research Data Alliance, a été mis en avant. Elle réunit en effet déjà 2500 participants issus de 92 pays et s’intéresse aux acteurs de la recherche, aux communautés, et au partage des données entre les Etats et au-delà des frontières disciplinaires. Elle vise à distinguer les bonnes pratiques dans le référencement des données de recherche et dans leur gestion, et se focalise en outre sur la longue traîne et les infrastructures. Contrairement au W3C, elle se limite à des recommandations.


Après-midi : Ateliers pratiques

 Modérateur : Florence Thiault

 

Hélène Prost (Inist-CNRS, GERiiCO) et Cécile Malleret (SCD, Université de Lille 3), Les données de la recherché dans
les thèses en SHS de l’Université de Lille 3

 

Présentation
 Dans leur communication, Hélène Prost et Cécile Malleret ont présenté des données se trouvant dans les annexes des thèses remises à la bibliothèque universitaire de Lille 3. Leur corpus se compose de 283 thèses, 195 imprimées et 88 au format électronique.Pour montrer la volonté de partage des doctorants, elles ont attiré l’attention sur la qualité des annexes et leur volume. Mais, elles ont aussi mis en garde devant la perte de cette richesse à cause d’une inaccessibilité due à leur hétérogénéité et à celle de leurs supports : CD, papiers, textes, tableaux, images, schémas. Pour faciliter une possible valorisation dans un environnement marqué par une telle diversité, elles formulent des recommandations quant à la structuration des annexes et la description des données qu’elles renferment. Elles suggèrent ainsi de rassembler un maximum de données dans les annexes, de paginer ces dernières, de veiller à la pérennité de leur accès et de décrire précisément les données à la fois en termes de contenu et de condition de recueil, et de préciser qui en est à l’origine.

 

Discussions
   Lors des échanges, il a été signalé que la question de la publication des annexes des thèses rencontre celles des droits. Cela a permis aux intervenantes de préciser qu’au format papier, la thèse est consultable sur place, tandis qu’en ligne, il existe deux versions : une version d’archivage qui contient l’ensemble des données, et une de diffusion qui respecte les règles de droits de diffusion. D’un point de vue pratique, les discussions ont fait aussi ressortir la possibilité depuis octobre 2014 de déposer plusieurs fichiers sous une même référence sur HAL et TEL. Il a aussi été fait mention que lors des dépôts électroniques, les métadonnées des thèses sont normalisées et que les mots clés sont choisis avec le doctorant. La question de la mise en place d’un guide pour inciter les doctorants à déposer sous forme électronique reste ouverte.

 


Marie-Madeleine Géroudet et Coline Blanpain (SCD, Université de Lille 1) : Quelle place pour les données de la recherche liées aux thèses dans le projet Open Access de l'université Lille 1 ?

 

Présentation
   Dans leur communication, Marie-Madeleine Géroudet et Coline Blanpain ont interrogé le rôle d’un service commun de documentation dans la gestion et la diffusion de données liées aux thèses. Elles ont présenté à cette fin le projet d’archives ouvertes de publications de l’université Lille 1 qui relient les entrepôts de données extérieurs à cette université, tels que HAL, aux entrepôts déjà réalisés par une partie de ses chercheurs. Elles ont rappelé que ce projet recoupe des enjeux touchant au partage des données de la recherche, à leur diffusion et à leur conservation, et doit faire face par exemple au départ des chercheurs, au peu de temps qu’ils disposent pour se consacrer à la documentation et à la nécessité de prendre en compte les diverses sensibilités des laboratoires. Elles ont aussi décrit le projet de mise en place de l’infrastructure d’archives ouvertes à Lille 1 qui comprend les modalités de désignations de laboratoires partenaires, une prospection des entrepôts existants, un audit de données, la conception d’une offre cohérente de services, une réflexion sur l’accompagnement des chercheurs dans le dépôt de leurs données et les moyens dont un service de documentation peut disposer, notamment les compétences particulières que requerrait un bibliothécaire qui serait spécialisé dans la curation de ce type de données.

 

Discussions
   Les discussions ont permis de soulever la question de la collaboration et de ses modes entre les universités de Lille 1, 2 et 3. Il a été affirmé que l’implication des laboratoires était indispensable, que des approches « top down » mèneraient à l’échec et que les directeurs de thèse seraient difficiles à intégrer dans un processus de publication en ligne étant donné leur sensibilité parfois faible aux possibilités offertes par les outils électroniques. Le choix de passer par des laboratoires pilotes a donc été conforté. Des questions sont restées ouvertes, comme l’incapacité à fournir des réponses génériques qui conviendraient à tout type de données.


Nicolas Larrousse (Huma-Num-NAKALA) : Les données de la recherche à Huma-Num : les services Nakala

 

Présentation
   Cette présentation s’est centrée sur Huma-Num, une infrastructure de recherche dédiée à l’archivage et à la conservation à très long terme de données déjà recueillies par des chercheurs en SHS, qui fournit à cette fin des outils, comme des licences logicielles, et des services, tels que l’hébergement de données. Pour faire face à la fragilité des données numériques due à l’usure de leur support et à l’obsolescence de leur format, mais aussi à l’oubli numérique, oubli de leur existence ou de la façon de les utiliser, Huma-Num établit des liens entre différents outils et plateformes comme le CINES, les archives nationales, les entrepôts OAI ou encore triple store. Elle propose aussi un outil, Nakala, qui favorise le partage de données en les exposant au moyen d’un identifiant, d’un accès permanent à la source et d’une description reprenant des métadonnées standardisées. Globalement, il a été souligné que Nakala déchargeait son utilisateur de la gestion des données sur des durées indéterminées en assurant leur partage et leur interopérabilité ; en les dissociant de leur outil d’utilisation ; et en préparant leur entrée dans Isidore. Ainsi, il a été affirmé que Nakala facilitait le processus d’archivage à long terme.

 

Discussions
   Les discussions ont d’abord concerné la participation des institutions de recherche à des groupes de recherche internationaux au sein de DARIAH, une infrastructure de recherche européenne, puis elles se sont tournées vers les modalités de prise de contact avec Huma-Num. Nicolas Larrousse a précisé qu’elle se réalisait en posant directement des questions par mail sans passer par un formulaire. Enfin, il a été aussi rapporté qu’Huma-Num avait vocation à soutenir de nombreuses initiatives et à organiser chaque année une école d’été.

 

Synthèse par Geoffroy Gawin, Doctorant en SIC. Laboratoire GERiiCO. Université de Lille 3

Journée du 10 mars 2015 : « Maîtriser les droits et obligations »

  Les thèses de doctorat sont protégées par le droit d’auteur. Et qu’en est-il des données scientifiques ? Quels droits s’appliquent aux résultats de la recherche ? Quelles sont les obligations du chercheur ? Comment protéger des données personnelles ? Comment diffuser des tableaux et bases de données sur Internet ? Sous quelle licence ?

   La deuxième journée du séminaire « Les données de la recherche dans les humanités numériques » fera le point et répondra aux questions des chercheurs. Les conférences du matin donneront une vue d’ensemble des droits et obligations liés à la valorisation et diffusion des données de la recherche, avec des approches américaines et françaises. L’atelier de l’après-midi sera l’occasion d’aller plus loin dans l’analyse et la discussion de certains aspects, y compris à partir des cas concrets des participants.

   La journée s’adresse en particulier aux doctorants et jeunes chercheurs qui souhaitent diffuser et valoriser leurs résultats et/ou qui sont obligés de préparer un plan de gestion des données (data management plan) dans le cadre d’un projet H2020, ANR etc.

 

   Doctoral theses are protected by copyright. And what about the research data? What rights apply to the scientific results? What are the obligations of the researcher? How to protect personal data (privacy)? How to publish spreadsheets and databases on the Internet? Under which license?

   The second day of the seminar "The research data in digital humanities" will assess the situation and answer questions from the researchers. The morning keynotes will give an overview of the rights and obligations related to the use and dissemination of research data, with US and French perspectives. The workshop in the afternoon will be the opportunity to go further in the analysis and discussion of aspects, including from real cases of participants.

   The event is scheduled for PhD students and young researchers who wish to disseminate and exploit their results and/or who have to prepare a data management plan as part of a project in the H2020 program or for the French National Research Agency ANR.

 

Coordination : Joachim Schöpfel, maître de conférences en SIC, directeur ANRT

Retrouvez son intervention sur la Web-Tv de l'université Lille 3 : http://live3.univ-lille3.fr/video-recherche/les-donnees-de-la-recherche-droits-et-obligations.html

 

Synthèse de la journée 2

   La seconde journée du séminaire « Les données de la recherche dans les humanités numériques » a orienté son débat, ses réflexions et ses approches sur la question des droits, des obligations et  des dispositions juridiques à prendre en considération par les chercheurs en sciences humaines et sociales, lors de la collecte et de la réutilisation des données. L'accès, l'ouverture, la diffusion, le choix des jeux de données, les conditions de collecte, les restrictions et les exceptions juridiques de leur réutilisation, les différents types de licences, la définition et l'étude des critères de distinction entre une donnée de recherche, une donnée sensible et une donnée personnelle ont été les principaux axes d'intervention des conférencières invitées.

 

Matinée : conférences

Suzanne Vergnolle (Etalab, Secrétariat Général pour la Modernisation de l'action publique) : La politique d'ouverture des données publiques

 

Présentation

   Dans sa présentation, l'intervenante met l'accent sur l'ouverture des données publiques qui figurent comme l'un des principaux objectifs de création de la mission Etalab. Elle démontre que la volonté de rendre les données administratives transparentes et accessibles au public n'est pas récente. C'est une disposition abordée dans l'article 15 de la déclaration des droits de l'homme (1789) et sur laquelle se fonde la loi du 17 juillet 1978, visant l'organisation d'accès du public aux documents administratifs. L'innovation de la recherche et la modernisation de l'action publique, ciblant le décloisonnement de l’administration, sont les seconds pendants de l'Open Data. Suzanne Vergnolles définit par la suite le document administratif à travers la définition de la Commission d'accès aux documents administratifs. Elle insiste sur la notion du service public quelle que soit la forme du support, la date et le lieu du stockage. Elle cherche par ailleurs à démontrer que la démocratisation d'accès préserve aussi certaines libertés et principes dont celle du secret de la défense nationale mais permet aussi des dérogations d'accès aux institutions de la recherche, de l'enseignement et les établissements à caractère culturel. Pour conclure elle justifie le choix de la licence libre Etalab inspirée des Creative Commons qui permet la gratuité, la protection des données, l'accès, la large diffusion et la souplesse dans la réutilisation des données. Elle insiste surtout sur le fait que cette licence est parfaitement compatible avec le droit français, ce qui figure comme un atout non négligeable.

 

Discussion

   L'enrichissement, la protection des données, le modèle économique (donnée gratuite ou propriétaire), les exceptions du droit d'auteur, le format des données sont les principales questions posées lors du débat. Pour répondre, l'intervenante a bien précisé que les données qui se trouvent sur la plateforme data.gouv.fr sont des données publiques, gratuites, réutilisable sous différents types de formats. Elle précise que seuls les détenteurs des jeux de données sont en mesure de convertir le type format de publication de leurs données et qu'ils pourraient très bien les publier en RDF s'ils le souhaitent. En ce qui concerne le format propriétaire de certaines données, Suzanne Vergnolles mentionne que la mission Etalab cherche à amoindrir les redevances réglementées par le CADA pour certains types de données en faisant la promotion de la gratuité.

 

Retrouvez son intervention sur la Web-Tv de l'université Lille 3 : http://live3.univ-lille3.fr/video-recherche/la-politique-douverture-des-donnees-publiques.html

 

Nathalie Morcrette (INRA, Directrice de l’Unité Contrats et Propriété Intellectuelle) : Production, diffusion et utilisation des données de la recherche

 

Présentation

   Cette intervention s'est focalisée dans un premier temps sur la définition de la donnée de la recherche selon l'OCDE et l'Association des Archivistes Français. Par la suite, l'intervenante a mis l'accent sur le processus de création, de traitement, de diffusion et de réutilisation des données. On part de données brutes pour aboutir à une nouvelle donnée, différente de celle du départ. Elle précise aussi que les données en soi ne bénéficient pas du droit de propriété intellectuelle quand elles sont générées par une machine. Ce qui est réellement protégé, se sont les bases de données. Par ailleurs, toute donnée originale (dans sa forme ou l'idée qu'elle présente) est soumise au droit d'auteur. À cette règle, on relève certaines exceptions comme le droit à la courte citation. Dans le cadre du textmining, il est indispensable de recourir aux autorisations des auteurs des textes afin de procéder à la fouille et l'analyse des données de manière légale. L'accès aux données à caractère personnel, permettant l'identification de personnes physiques, n'est pas autorisé. Pour y parvenir, il faudrait une double autorisation, de la personne concernée et de la CNIL. La présentation a distingué les différents cas de propriété intellectuelle pour les chercheurs et l'agent public. L'intervenante précise que lorsqu'il y a invention de processus, le droit de propriété est attribué au chercheur mais si ce dernier développe un dispositif la loi CADA relègue le droit de propriété à l'institution. Durant sa présentation, elle évoque la notion du secret et mentionne les nouveaux types de données qu'on pourrait bien exploiter, dont celles de l'environnement comme les données géographiques (gérées par la directive européenne INSPIRE) et environnementales. Vers la fin de son intervention, Nathalie Morcrette évoque les précautions à prendre lors de la réutilisation des données. Elle insiste sur la provenance et la nature de la donnée. Elle évoque aussi les types de licences permettant la protection et la réutilisation des données comme l'Open Data Base Licence et Etalab (qui est plus adaptée au droit français contrairement à ODBL).

 

Discussion

   Le débat a été très riche. On a évoqué la question de l'exploitation des données recueillis lors du textmining sur des personnages politiques et l'intervenante a précisé qu'il ya un double problème, celui du droit d'auteur des textes et l'autorisation d'accès aux données personnelles. Elle précise que, même si ces données sont rendues publiques, cela ne veut pas forcément dire qu'elles sont libres de droit et c'est la raison pour laquelle elle invite la personne à vérifier les conditions d'utilisation. D'autres questions sur le secret d'affaires, la non-identification des personnes dans une base de données, le droit de propriété des données de corpus ont été abordées. À ces questions, l'intervenante a précisé qu'il est difficile de se prononcer sur le secret d'affaires contrairement à ce qui se passe aux États-Unis, dans la mesure où il n’existe pas encore en France une véritable réglementation gérant une telle problématique. En ce qui concerne la réexploitation des corpus d'enquêtes et leur libre exploitation par un laboratoire de recherche, elle précise qu'il faudra procéder au cas par cas en fonction afin de déterminer la gratuité ou non de chaque type de donnée.

 

Retrouvez son intervention sur la Web-Tv de l'université Lille 3 : http://live3.univ-lille3.fr/video-recherche/production-diffusion-et-utilisation-des-donnees-de-la-recherche.html

 

Après-midi : Ateliers pratiques

Modérateur : Joachim Schöpfel

 

Audrey Ego (juriste, CRDP, Université de Lille 2) : Propriété intellectuelle et données de la recherche

 

Présentation

   La propriété intellectuelle, sa définition, sa réglementation, son contexte d'utilisation, les critères de son attribution et la manière selon laquelle elle permet la protection des données, sont les principaux axes de cette présentation. Lors de cet atelier, l'intervenante précise que le droit de la propriété intellectuelle français s'appuie sur la directive européenne de 2001, en cours de révision. Elle relève l'existence d'une double problématique à laquelle sont confrontés les chercheurs et les réutilisateurs des données : le libre accès et la protection des données. Pour définir cette propriété intellectuelle, l'intervenante précise qu’il s’agit de l’« l'ensemble des droits exclusifs octroyés à l'auteur pour une création intellectuelle ». Elle précise que la propriété intellectuelle est formée d'une « propriété artistique » qui ne nécessite aucun dépôt légal puisqu'elle est régie par le droit d'auteur et une « propriété industrielle » nécessitant ce dépôt auprès de l'INPIE afin d'assurer la protection de la marque déposée. Elle rappelle la définition du droit d'auteur en insistant sur les droits moraux permettant la divulgation des données et les droits patrimoniaux favorisant leur protection et leur réexploitation. Elle revient sur les exceptions, dont la notion de courte citation et l'exception pédagogique et de recherche, permettant la réutilisation d’œuvres protégées par le droit d'auteur dans le cadre de l'enseignement et de la recherche. Cette prérogative a été signée dans le cadre de trois accords sectoriels entre le ministère de l'enseignement supérieur, le CFC (pour le droit de la copie), le CNC (pour les œuvres   cinématographiques) et le CCN (pour les œuvres musicales). Pour conclure, elle évoque le droit des bases de données et insiste sur le fait que si la base de données n'est pas soumise au droit d’auteur faute d'originalité, elle serait  protégée par le droit « Sui Generis » qui attribue le droit d'auteur au producteur.

 

Discussion

   Le débat s'est centré sur la question du dépôt légal pour la protection de l’authenticité d'une base de données et sur la propriété intellectuelle du doctorant pour ses travaux de recherche ; si oui ou non ce dernier pouvait être titulaire de la paternité de ses œuvres ou si c'est le laboratoire de recherche auquel il est affecté qui bénéficie de ce droit. La réponse c'est qu'un doctorant est considéré comme le principal auteur de son œuvre sauf s'il est soumis à des conditions spécifiques de diffusion de son travail dans le cadre d'un cahier des charges. La protection du logiciel a aussi été évoquée et l'intervenante précise que cette protection s'effectue par le biais du code source et de la documentation adéquate. Enfin on a posé une question sur la brevetabilité d'un code source et la réponse a été qu'en France on n'attribue pas de brevet pour un logiciel dans un environnement de création mais si vous êtes dans un environnement numérique c'est le droit du pays de l’hébergement qu'on applique.

 

Retrouvez son intervention sur la Web-Tv de l'université Lille 3 : http://live3.univ-lille3.fr/video-recherche/propriete-intellectuelle-et-donnees-de-la-recherche.html

 

Émilie Masson (juriste, service Informatique et Libertés, CNRS) : La protection des données personnelles

 

Présentation

   La dernière présentation a mis en exergue les lois permettant le libre accès aux documents administratifs (loi CADA 1978) et celle permettant la protection des personnes physiques et non morales à savoir la loi informatique et libertés. Elle précise que dans le cadre de la transparence et de la protection des données, la CNIL a désigné un « Correspondant informatique » chargé de traiter les enregistrements de l’institution en la matière. Puis l'intervenante définit les données personnelles et les données sensibles en mentionnant que les premières ne se limitent pas aux noms et aux prénoms des individus mais les dépassent pour tout indice permettant l'identification d'une personne physique y compris les avatars. Elle mentionne que les données sensibles sont relatives aux opinions, à l'appartenance ethnique, aux croyances, etc. La notion de fichier est importante dans la mention de la donnée personnelle. Tant que cette dernière n'est pas archivée dans un fichier de manière chronologique, alphabétique, etc. on ne peut pas la considérer comme personnelle, elle le serait, dans le cas contraire. Elle revient aussi sur la notion d'exception pour la mention des données à caractère personnel en déclarant que ces dernières peuvent être dévoilées dans un cadre professionnel, par exemple lorsqu'on soumet ses congés à l'avance pour assister à certaines fêtes religieuses. Elle précise que le numéro de sécurité sociale est par excellence la donnée à ne jamais dévoiler car il fait partie des données sensibles. Elle mentionne par ailleurs quelques précautions à prendre lors du traitement des données personnelles. Deux critères sont mentionnés, l'objectif et la finalité, c'est à dire qu'il faudrait justifier la collecte de telles données en mentionnant leur adéquation avec la recherche. Le second critère est la durée limitée de sauvegarde des données. En effet, si la recherche est publiée, il faudrait supprimer toutes les données personnelles car on estime que leur existence n'est plus pertinent en dehors du cadre de la recherche.

 

Discussion

   Lors des débats, on s'est demandé si la loi de la préservation des données personnelles s'appliquait aux personnes décédées et la réponse était de dire que si votre corpus est composé uniquement de personnes décédées alors la loi ne peut pas s'appliquer. Par ailleurs, si dans ce corpus vous êtes confrontés à des auteurs décédés et d'autres vivants, alors la loi s'applique. On a aussi abordé la question de la date de naissance, sujet très polémique dans le milieu des bibliothèques car certains auteurs exigent son retrait. Certains professionnels ne comprennent pas cette attitude des auteurs alors que ces derniers affichent ce critère dans les réseaux sociaux ou leur curriculum vitae et la réponse est que si les auteurs mettent en ligne leur date de naissance, cela ne veut pas dire qu'elle soit exploitable et libre de droit. Dans ce cas, on applique l'exception de la pertinence des données pour l'expression littéraire et scientifique du signalement et les notices bibliographiques rentrent dans cette exception. On ne peut pas mettre l'année de naissance mais l'institution de rattachement. Enfin, pour les problèmes que pourraient poser les contenus de certaines thèses en ligne, il serait prudent de retirer la thèse en question et de rediriger les personnes qui réclament ce droit de retrait aux auteurs.

 

Synthèse par Kaouther Azouz, Doctorante en SIC. Laboratoire GERiiCO. Université de Lille 3

Journée du 21 avril 2015 : « Maîtriser les technologies pour valoriser les données »

Lieu : MESHS (salle 2), 2 rue des Canonniers, 59000 Lille 

Cette troisième journée du séminaire « Les données de la recherche dans les humanités numériques » s’attache à la découverte et à l’analyse de différentes technologies numériques qui, peuvent ou pourraient permettre de valoriser les données de la recherche en Sciences Humaines et Sociales. L’ensemble des présentations ne portent pas obligatoirement sur des usages de ces technologies dans un contexte d’ « Humanités numériques » mais permettent de réfléchir à la place de ces «  outils »  dans la production, le traitement, la pérennisation et la valorisation des « données » de la recherche en Sciences Humaines et Sociales.  

Le matin, deux conférences magistrales ont présenté le développement et l’usage de technologies de traitement automatique des textes et des langues dans des cadres extérieurs aux SHS : celui du traitement et de la valorisation de corpus documentaires de la recherche en chimie, et celui de la fouille textuelle au service d’une analyse des besoins et des opinions dans un cadre marketing. L’atelier de l’après-midi a permis de dialoguer avec un ingénieur de recherche,  un informaticien et une chercheuse en SIC sur les technologies de partage et de valorisation des « données » de la recherche.

Plusieurs enjeux surgissent clairement à la lecture du programme et lors de la présentation de cette journée par Joachim Schöpfel, maître de conférence en Sic et directeur de l’ANRT et  Stéphane Chaudiron, professeur en SIC et directeur du laboratoire GERiiCO.

  • Que faire pour valoriser les données produites par les doctorants au moment de la thèse ? Dans l’environnement numérique,  il y aurait le potentiel d’exploiter autrement ces données plutôt que de les mettre de côté, de les stocker.  Les deux premières journées ont déjà permis de réfléchir sur le type de données, le matériel récolté,  sur la propriété intellectuelle, sur la protection des données personnelles. Il s’agit ici de faire le point sur ce qui est partageable, exploitable et valorisable. Et surtout par quels moyens.

  • Quelles sont les potentialités scientifiques de  technologies comme la fouille textuelle ou la cartographie ?

  • Quel partage entre les fonctions de production, de traitement, de partage et de valorisation dans l’usage des technologies numériques en SHS ?

  • En quoi ces technologies peuvent favoriser un libre accès aux données scientifiques ? Quel(s) sens et quels usages peut avoir le libre accès aux donnée en SHS ? ?  Il sera intéressant de faire le lien avec l’enquête lancée à Lille 3 auprès des enseignants-chercheurs et doctorants sur le partage des données de la recherche.

  • En quoi ces technologies permettent de répondre aux besoins des laboratoires en SHS ?

   

Face à toutes ces questions, cette journée vise à apporter des réponses concrètes pou savoir comment ces technologies peuvent aider à stocker, conserver, rendre interopérables les données de la recherche.

 

  1. Une journée européenne

Cette journée a été conçue comme une journée européenne. Ce choix s’explique  par le renforcement récent, en Europe, de cette question de la publication des données de la recherche en SHS. Comme nous le rappellent Peter Murray Rust de l’Open Knowledge Foundation et Kees Waterman du  Data Archiving and Networked Services à La Haye, la publication des données de la recherche s’inscrit dans deux mouvements qui, ici, se rejoignent, même s’ils n’ont pas les mêmes logiques.

Le premier est celui du Libre Accès, qui, depuis les premiers développements techniques d’archives ouvertes et la conférence de Budapest en 2002, n’a cessé de prendre de l’ampleur et d’assoir son projet social de partage des connaissances à l’échelle mondiale. Si le modèle du libre accès est désormais très présent dans le cadre des publications scientifiques, même s’il reste en concurrence avec celui des logiques éditoriales et évaluatrices de la revue, il en est encore à ses débuts pour ce qui est des données de la recherche.

Le deuxième est celui, sous l’impulsion, entre autres,  de directives européennes, d’une volonté de développer une efficience de la recherche en sciences sociales. Cette efficience, retour sur investissement de l’argent public, s’inscrit dans une logique où les SHS répondraient avant tout à la demande sociale croissante d’expertise  par le partage du réservoir de connaissances que seraient les « données » de la recherche en SHS et par l’extension du principe de vérifiabilité des sciences dites dures à l’enquête en SHS.

 

  1. Les intervenants

La diversité des intervenants a permis de nourrir le débat sur la portée des technologies numériques en SHS lorsqu’il s’agit de gérer, conserver, valoriser, partager les données de la recherche. Il est visible que pour l’instant la publication des données de la recherche reste très ancrée dans le modèle des sciences de l’expérimentation. Mais en même temps des approches comme la terminologie et la cartographie sont, elles,  profondément relié à l’analyse des discours, scientifiques ou non.

Peter Murray-Rust est chimiste. Il est actuellement maître de conférence en informatique moléculaire à l’Université de Cambridge et Senior Research Fellow au Churchill College. Il est surtout connu comme supporter du mouvement du libre accès. En tant que tel, il est membre du conseil consultatif de l’Open Knowledge Foundation et auteur des Panton Principles for open scientific data.

Charles Huot est PDG de la société TEMIS et président du GFII (Groupement Français de l’Industrie de l’Information). TEMIS est une entreprise spécialisée dans la fouille textuelle (text mining) et plus généralement dans le traitement automatique des textes et les big data textuelles. Elle a pour clients des acteurs de l’édition scientifique, des agences de presse, des entreprises pharmaceutiques, des organismes de la sécurité ou de la défense et toute entreprise désirant mieux connaître ses relations avec ses clients, ses fournisseurs en gérant mieux les données personnelles.

Kees Waterman est gestionnaire de données senior au Data Archiving and Networked Services à La Haye. Le DANS a été créé par l’Académie néerlandaise royale des Sciences (KNAW) et l’Organisation néerlandaise pour la Recherche scientifique (NWO). Il a pour but d’offrir un accès numérique permanent aux données de la recherche et de le promouvoir.

Mathieu Roche est chercheur en informatique (HDR)  au sein de l’UMR TETIS à Montpellier et du CIRAD, et  membre associé du LIRMM. Ses domaines de recherche sont la fouille de texte, la recherche d’information, le Traitement Automatique du Langage Naturel et les systèmes d’information. Le CIRAD est un organisme de recherche agronomique et de coopération pour le développement durable des régions tropicales et méditerranéennes. L’UMR TETIS («Territoires, environnement, télédétection et information spatiale»)  « constitue un pôle de recherche appliquée de dimension européenne en approches spatiales, télédétection et information géographique pour l’environnement, l’agriculture et les territoires ». Dans ce cadre, il développé des outils de traitement des corpus scientifiques.

Marta Severo est maître de conférence en SIC au laboratoire GERiiCO à l’Université de Lille 3. Ses axes de recherches sont « Médias et territoires », « Représentations du territoire par les données Internet », « Traces numériques et méthodes numériques pour les SHS », « Net-activisme », « Ville numérique ». Dans le cadre de ses recherches, elle a développé une réflexion sur l’usage de la cartographie en SIC.

 

Coordination : Joachim Schöpfel, maître de conférences en SIC, directeur ANRT

 

Matinée : Conférences

Peter Murray-Rust (Open Knowledge Foundation, Cambridge),« Issues in electronic theses and open research data »

 

Présentation

   Le préambule de la conférence de Peter Murray-Rust l’inscrit  clairement dans un militantisme du libre accès. Autour du slogan « Change the world », l’ambition de Peter Murray-Rut est de participer, avec sa fondation, à la création de communautés pour changer le monde de la publication scientifique. Pour lui, les jeunes chercheurs doivent être les plus impliqués dans ces changements. Ce changement serait du même ordre que celui de la Révolution Française battant en brèche la domination des églises. Les citoyens, dans les universités et ailleurs, doivent, faire valoir leur droit à une société ouverte. Le Libre (Open) c’est utiliser, réutiliser, modifier, redistribuer. Au-delà des controverses, il faut faire avec la connaissance ce qui a été fait avec les logiciels. En prenant la main, les communautés universitaires vont pouvoir échapper à l’emprise des sociétés commerciales sur les usages du réseau : citons Facebook, Academia.edu, Thomson, Researchgate ou Google Scholar. Il faut rapidement, dans les universités, construire des technologies que l’on maîtrise. La liberté de publications doit s’ancrer dans l’héritage des encyclopédistes, ou dans celui du Free Speech Movement à Berkeley en 1966. On peut même parler de « Lumières numériques » (digital enlightments), mouvement dans lequel sont impliqués de nombreux jeunes chercheurs.

En même temps on constate la nécessité de mieux partager l’information pour améliorer l’action publique. La publication universitaire est un échec face à cette nécessité. Un exemple fameux est le manque de circulation des connaissances expertes dans le développement de la dernière grande épidémie d’Ebola. Et pourtant le Libéria était connu comme une zone à risque depuis 1982.

L’idée est alors de construire  un système de découverte (« Discovery System ») tourné vers l’idée de la connaissance comme bien public. D’ailleurs HAL, service public, est  très performant. Il semble aberrant de payer deux fois le financement de la recherche et le rachat de ces résultats auprès d’entreprises. L’idée est de faire dans les sciences ce que fait Openstreetmap pour la cartographie.  Pour s’orienter dans l’ensemble des publications scientifiques, la fouille textuelle semble un  moyen de relier et donc de cartographier une grande quantité de documents : « The Right to Read is the Right to Mine » / « Le Droit de Lire est le Droit de Fouiller ».

Peter Murray-Rust et son équipe ont donc développé un outil de recherche et de cartographie des publications scientifiques en chimie. Le lien entre un million de documents se fait par ce que Peter Murray-Rust qualifie de « faits » scientifiques. La technologie de fouille de contenu (Content Mining) permet d’extraire des « faits » de la littérature scientifique. Chaque document est indexé par ces « faits » scientifiques et ce traitement est complété par des métadonnées classiques. Qu’entend-t-on par contenu ? Est considéré comme contenu les cartes, les textes, les schémas, les formules, les tableaux etc. Une telle fouille de contenu n’est possible qu’avec des publications scientifiques formatées selon la logique de la publication scientifique en science dite dure où l’enchaînement hypothèses, matériels et méthodes, résultats est quasi systématique et où les règles de rédaction des schémas, figures et tableaux sont standardisées. Voici alors  les étapes : récolte sur le Web ➔ survol automatique des documents ➔repérage des  formats de publication ➔ format normalisés avec extraction des diagrammes et OCR ➔ HTML ➔ Indexation et transformation  (CAT-alogue Index) ➔ redistribuer les articles et les faits extraits des textes. Les techniques d’extraction s’appuient sur la régularité de paquets de mots, des graphiques,  et le repérage des expressions régulières (en tenant compte de leur fréquence d’occurrence) qui ont toujours le même sens dans les publications en chimie. Par exemple la préposition « in » signifie un lien entre des molécules. L’outil de recherche se nomme Cottagelabs.

 

Discussions

   Suite à quelques échanges avec les auditeurs, il semblerait nécessaire, pour pouvoir étendre ce mouvement et développer ces outils, en sciences comme en SHS,  de normaliser les formes sémantiques, de lutter contre la mauvaise qualité des images et des graphiques et de totalement standardiser les formes de l’écriture scientifique : quelques essais ont été faits en économie où il est possible d’extraire les diagrammes et les statistiques mais la fluidité de l’écriture en sciences sociales semble peu convenir à ce genre de technologies. Par contre,  le format XML est très pertinent pour développer l’extraction de contenu.

 

(pour voir sa présentation, suivez ce lien : http://live3.univ-lille3.fr/video-recherche/seminaire-drtd-shs-peter-murray-rust.html )

 

Charles Huot (PDG TEMIS, président du GFII), « Les technologies du Big data au service de la recherche »

 

Présentation

Le but d’une entreprise comme TEMIS est de pouvoir faire de la fouille sur tout type de texte. Il s’agit de dépasser les fantasmes sur le quantitatif et les Big Data pour plutôt s’appuyer sur les complémentarités entre une bonne expérience en Text Mining et le Data Mining. Il n’y pas de génération miraculeuse de connaissances à partir des données.

Le Data Mining, depuis 2005-2006, est surtout très utile et très utilisé dans le cadre médical : diagnostic, modèles épidémiologiques. Il est également utilisé pour exploiter des données structurées pour faire du profilage client et notamment anticiper le risque d’un départ du client.

Avec le Text Mining, il s’agit aussi de structurer du texte non structuré pour pouvoir après faire des extractions. Actuellement, on considère que les données sont à 20 % structurées (dans des bases de données) et à 80 % non structurées (comme dans des forums en ligne par exemple, mais aussi dans des bases de données).  Il s’agit donc de structurer ces données pour faire des extractions, agréger les données et produire des métadonnées. Ce processus participe au développement d’un Web sémantique au service de la veille ou de la gestion des connaissances.

Et donc au final, TEMIS va coupler des informations structurées avec des informations non structurées en traitant des résultats d’enquêtes d’opinion, des appels téléphoniques, des méls clients, des méls internes, des contrats, des rapports de maintenances, des informations techniques, des articles, des essais cliniques, des blogs, des forums etc. « Dépression et mobilité » est un exemple de projet Big data mené par TEMIS exploitant à la fois des données structurées (fiche patient) et des données non structurées (forums).

Pour traiter ces différents types de données, le principe clé de TEMIS est celui des 3V : volume, vitesse et variété.  Il faut pouvoir normaliser les textes à partir de formats et de langues multiples.  Voici le processus de base.

  1. Données textuelles libres ➔2.  Structuration et enrichissement ➔3. Exploitation de contenu 

Ou encore  

  1. Collecter, gérer les formats ➔2.  Normalisation des documents, analyse morphosyntaxique, extraction d’information (connaissance, métadonnées), catégorisation/clustering ➔ 3. Navigation, graphiques, fichiers, classification etc.

De tels processus combinent des technologies linguistiques, statistiques et informatiques. Et il faut être capable de contextualiser les données en plus de la combinaison de ces compétences.

  • Exemple 1 : on utilise un modèle de classement catégorique des données préexistant et la machine doit alors classer dans ce système préexistant (après apprentissage) les données.

  • Exemple 2 : c’est l’analyse des documents qui permet de générer des catégories de classement et après avoir dégagé ce cluster, la machine y range les données.

Pour cela, on combine des méthodes statistiques et sémantiques : vecteurs de termes, concepts sémantiques proches. Au cœur du système de traitement des données (Luxid), il y a un module logiciel d’étiquetage morphosyntaxique (Xelda) qui procède en 5 étapes : identification de la langue, tokenisation (mots, mots composés, ponctuation, expressions numériques etc.), segmentation (identifier les phrases : identifier fin / début de phrases selon la qualité de structuration de l’entrée : balises HTML etc.) , analyse morphologique (quelle est la forme normalisée ?), désambiguïsation grammaticale (modèle markovien, apprentissage de la machine en fonction de la position du mot dans la phrase). Pour mener à bien une telle analyse, il est nécessaire que la machine soit « nourrie » de « cartouches de connaissances » où sont engrangés les lexiques et règles morphologiques d’un métier, d’un domaine de connaissance, d’un objet d’études.

Deux exemples : mesurer l’égalité des décisions de justice en faisant le lien entre données chiffrées (indemnités) et données textuelles (contenus des arrêts) ; mesurer le niveau d’émotion des appels clients d’EDF qui passe par des outils de transcription puis de fouille textuelle (projet Voxfactory).

 

Discussions
   Deux questions ont été abordées dans la discussion. Celle des outils de transcription et de leurs modalités d’apprentissages : l’apprentissage des langues se fait entre autres par le différentiel entre son usage dans Wikipédia et le modèle de référence de la langue classique. Celle de la protection des données personnelles : pour une entreprise comme TEMIS, il s’agit surtout de protéger les employés de l’entreprise cliente.

 

(pour voir sa présentation, suivez ce lien : http://live3.univ-lille3.fr/video-recherche/seminaire-drtd-shs-charles-huot.html)

 

 

Après-midi : Ateliers pratiques

 Modérateur : Eric Kergosien

 

Kees Waterman (Senior Datamanager, Data Archiving and Networked Services, La Haye), « Research data management, data archiving and dissemination and the roles of a Trustworthy Digital Repository (TDR): The case of DANS »

 

Présentation 

   Le projet de DANS s’ancre dans la volonté d’étendre la confiance envers la communauté pour la publication des ressources. Il s’agit de développer l’usage d’une banque de dépôts des données de la recherche avec comme objectif de créer, traiter, analyser, conserver, donner accès et réutiliser les données de la recherche, notamment en SHS.  Trois services s’articulent : EASY pour le dépôt et l’accès aux données, Dutch Dataverse Network pour gérer les données en court de projet (cours et moyen terme) et PERSID pour assurer la génération des identifiants uniques et donc le moissonnage des métadonnées.

Actuellement, dans EASY, 30000 paquets de données sont archivés avec pour l’essentiel des données en biologie, médecine, sciences sociales, études culturelles et sciences comportementales. Chaque ensemble de données est référencé par des métadonnées géographiques, des métadonnées Dublin Core et une gestion des publics et des accès. Lors du dépôt, sont exigées au minimum les informations nécessaires à l’exploitation des données : problématique de la recherche, méthodologie, modes de récolte des données – questionnaires, protocoles d’observation, variables de l’expérience, etc. certains formats sont recommandés.

Les dépôts explosent quantitativement avec un accroissement clair depuis 2009.  La question se pose alors d’essayer d’en mesurer la réutilisation. Cette mesure se fait pour l’instant par le nombre de téléchargements.

Ce projet est plus large que celui du partage des donnée : il s’agit aussi d’asurer leur conservation en fournissant un support technique aux chercheurs, de développer une infrastructure des données aux Pays-Bas, de mettre en place une certification des données (on voit bien ici l’empreinte du modèle de vérifiabilité de l’expérience propre aux sciences dures) et enfin de construire des relations entre les universités.  Le projet s’articule avec d’autres projets néerlandais ou européens : surveydata.nl , EHRI (études sur l’holocauste), ARIADNE (normalisation des métadonnées), EUDAT (European Data Services) et CARARE (projet pour la visualisation des données).

 

Discussions 

   Lors de la discussion, il apparaît que le projet se diversifie concrètement par des accords avec des organisations pour le dépôt de leurs données, par le développement de dépôts disciplinaires (archéologie). Le plus dur est de lutter contre la méfiance des chercheurs à partager leurs données. Une des solutions préconisées par Kees Waterman, face à cette méfiance, est de former les universitaires à la gestion des données, de valoriser les dépôts sécurisés, de développer un modèle financier et gestionnaire pour supporter le développement de ces archives.  Il faut être transparent et engagé. C’est pourquoi a été mise en place une norme en 2012 : la norme ISO TDR (Trust Digital Repository). Dans une enquête auprès de 30 institutions de recherche sur une politique de données, les critères par ordre d’importance sont l’intégrité, la conservation, le contrôle des accès et la récupération. Plus qu’un partage des données il semblerait surtout qu’il s’agisse d’une conservation des données pour les équipes déjà constituées.  

La mesure de la réutilisation reste d’ailleurs assez pauvre. Les téléchargements ne sont pas significatifs d’une réutilisation et de quelle réutilisation. Malgré des enquêtes, il ‘a pas été possible à DANS de savoir si les chercheurs ont réutilisé des données qui n’étaient pas les leurs soit pour publier des résultats soit pour comparer des méthodologies de travail ou les contextes de recherche.  

DANS reste essentiellement un projet néerlandais articulé au dépôt de littérature grise des Pays-Bas (H2020) et à quelques projets européens ; la langue est essentiellement le néerlandais avec une part d’anglais. Et enfin la recherche se fait sur les métadonnées pas sur les données primaires.

 

(pour voir sa présentation, suivez ce lien : http://live3.univ-lille3.fr/video-recherche/seminaire-drtd-shs-kees-waterman.html )

 

Mathieu Roche (CIRAD, TETIS et LIRMM) : « Fouiller les données textuelles issues de la recherche : approches et nouveaux défis »

 

Présentation

   Mathieu Roche a présenté des projets d’extraction terminologique dont les méthodes sont très proches du travail de TEMIS.

  • Projet 1

Il s’agit de traiter les données de la recherche du CIRAD, laboratoire en agronomie, avec comme défi, celui des 3 V des BIg Data : vitesse, volume, variété. La fouille textuelle permet d’étiqueter des documents avec des mots-clés et de les assembler ou de les séparer (donc les classer) en fonction de la similarité ou de la différence de ces mots-clés.   Voilà le processus : acquisition ➔ corpus brut ➔ nettoyage / formatage ➔ corpus nettoyé ➔ étiquetage grammatical : corpus étiqueté (difficulté avec des textes non structurés de  type tweet et sms) ➔ extraction des termes ➔ liste de termes.

A partir des corpus étiqueté, on extrait des candidats termes, puis on pondère ces descripteurs selon leur caractère discriminant ou non, et leur combinaison avec d’autres termes. Il s’agit d’expérimenter une solidification des données entre les publications et les données « brutes » de la recherche.  En effet les documents publiés par les chercheurs du CIRAD sont eux indexés par des documentalistes avec le thésaurus Agrovoc et des noms géographiques. Il va donc y avoir une confrontation entre cette indexation humaine et les résultats de la fouille de texte.  Il s’agit entre autres de vérifier la cohérence entre le thésaurus et les données de la recherche pour enrichir les uns et les autres. Et ainsi cartographier les thématiques de recherche et faire surgir les thèmes émergents.

Ce projet a pour but essentiel de rendre visible le réseau de la recherche en reliant les thèmes,  les données spatiales et les auteurs des recherches dans une carte de ces recherches.  Pour cela  a été réutilisés les outils du laboratoire LIRMM, développés pour des données biomédicales. Le corpus est constitué d’abstracts des publications, des outils Biotex et Gentex. On utilise la méthode développée par Juan Antonio Lossio pour enrichir les ontologies biomédicales en France : le logiciel Biotex est un étiqueteur grammatical avec un thésaurus biomédical intégré et un outillage linguistique pour le français, l’anglais et l’espagnol.  Il s’agit d’extraire des termes simples et composés et les valider automatiquement d’après un thésaurus déjà existant. A l’intersection des extractions et du thésaurus Agrovoc, il a été possible de vérifier que les termes composés sont les plus pertinents pour indexer les données de la recherche ; 140 ont été listés ; et une carte des publications par lieu (pays, ville) a été établie.

  • Projet 2, 3, 4 : les 2 V du Big Data

  • Volume : analyse réseaux sociaux et SMS dans le projet Polop et sur les communautés politiques en France

  • Vélocité : veille épidémiologique

  • Variété : mise en relation des données hétérogènes pour le projet sur le lac Porjte à Madagascar

D’autres V  seraient possibles lorsque l’on parle de Big Data : véracité, valorisation etc.

 

Discussions
   La discussion a porté sur l’extraction terminologique dans Biotex. Biotex est un outil qui utilise la technologie un peu ancienne du Treetagger. Malgré cette critique, Mathieu Roche considère que cela reste un outil performant notamment pour travailler les « patrons » terminologiques. Il continue de privilégier la méthode statistique et la confrontation des résultats à des thésaurus déjà existants. Biotex étant en ligne, il serait possible d’utiliser les apports des usagers. Mais cela s’est peu fait.  La question finale reste celle de l’intérêt d’un travail d’extraction sur des corpus scientifiques alors que les chercheurs indexent leurs travaux avec pertinence.  Pour Mathieu Roche, l’intérêt d’un tel travail reste l’apparition de termes composés rares significatifs des thèmes émergents de la recherche : ces termes apparaissant surtout dans la comparaison, d’une année sur l’autre, des extractions.  

 

 

Marta Severo (GERiiCO, Université de Lille 3) : comment cartographier les données de la recherche

 

Présentation

Cette présentation vise à expliquer l’usage en SIC des outils de cartographie Web.  Marta Severo insiste sur le fait que le terme de cartographie ne doit pas être pris au pied de la lettre. Il s’agit avant tout d’un outil de représentation des liens hypertextuels, s’appuyant sur l’idée que les liens hypertextuels sont des liens signifiants. Le logiciel utilisé dans ces cartographies est GEPHI, logiciel libre et gratuit. Le but est de rendre visible le lien entre les «données » en s’appuyant sur la théorie des graphes en informatique. On qualifie de nœud le mot et de lien la co-occurrence de ce mot. Le graphe est orienté quand ce couple noeud-lien est concrétisé par un lien hypertextuel.

Deux méthodes sont possibles pour construire les corpus : soit manuellement selon les choix des chercheurs (avec un logiciel comme Navicrawler), soit par une collecte automatisée à l’aide de logiciels comme Issuecrawler. Avec Navicrawler, pour chaque page, est généré une liste de liens et je décide manuellement des liens pertinents ou non. Cet apport manuel permet de choisir dans la multiplicité des liens dans le web. Cela permet de définir les limites du corpus : ce choix se fera en fonction du cadre analyse. Avec un outil automatique, on lui donne une liste de sites web et il cherche automatiquement les liens  avec le risque de récolter un corpus très hétérogène.  

L’étape suivante est la qualification de ces liens d’après son cadre de recherche : ces liens sont des liens thématiques des liens d’acteurs, des liens communautaires etc.  Marta Severo a par exemple utilisé cette cartographie pour visualiser les  relations entre acteurs dans le patrimoine immatériel en Europe.  L’outil a permis de repérer des acteurs dominants.  C’est bien l’étape de qualification des nœuds et des liens qui va donner du sens à ces cartographies  et orienter la structuration des données.

Comment  se déroulent cette structuration des données dans Gephi ? Un  tableau des nœuds et un tableau des relations  sont constitués.  Chaque noeud doit avoir un identifiant, les relations couplent origine et destination du lien. Donc on choisit des étiquettes aux nœuds, ce qui va qualifier les données.

Comment alors  lire des graphes des hyperliens ? Que cela nous dit-il en plus ?

On peut lire trois éléments et les combiner :

  1. La proximité

  2. On peut réfléchir sur les classements, changer la taille de noeuds en proportion de l’autorité du site par exemple.

  3. On peut identifier des communautés discursives ? Chercher des univers sémantiques, chercher des relations entre acteurs, des liens entre opinions etc.

Le but est souvent d’analyser les ponts qui relient différentes sous-communautés. Plusieurs projets d’analyse des communautés politiques, des opinions, des relations discursives sont cités.

Il nous reste l’étape finale de la spatialisation pour visualiser les données. Cette spatialisation est contrainte par les algorithmes disponibles avec soit une mise en avant des divisions, soit une mise en avant des complémentarités, soit une optique de classement, soit une répartition géographique. On connaît mal les algorithmes, ils sont mal documentés.

 

Discussions

   Dans la discussion il apparaît alors deux complexités méthodologiques à l’usage de la cartographie : le premier est l’absence de maîtrise des algorithmes de spatialisation, le deuxième est la qualification des nœuds et relations par leur catégorisation et leur degré d’autorité. Cette qualification est du ressort du chercheur, tout en étant parfois déduite du « travail » de collecte des liens par le logiciel. Il semblerait nécessaire de clarifier si ces catégorisations et ce poids accordé à certains nœuds plutôt que d’autres vient d’un travail préalable d’analyse du corpus, du cadre de recherche, ou des premiers résultats de la collecte.

Pour l’instant les outils traitent une quantité relative de données mais  des progrès sont en cours sur les volumes traitables.

(pour voir sa présentation, suivez ce lien : http://live3.univ-lille3.fr/video-recherche/seminaire-drtd-shs-marta-severo.html)

 

 

Conclusion

Comme le rappelle Joachim Schöpfel ; cette journée s’inscrit dans un projet plus large de Lille 3 et de la MESHS devant aboutir à un livre blanc de recommandations pour le traitement et le partage des données de la recherche.

Trois technologies avec trois logiques différentes ont été présentées :

  • celle du dépôt et du partage des données de la recherche avec un travail de désignation de ces archives par des métadonnées ;

  • celle de l’extraction des contenus et des termes pour relier, analyser, cartographier des « données » ;

  • et celle de la cartographie Web pour catégoriser et visualiser les relations entre différentes «données » en ligne.

La première semble extensible, dans des conditions de confiance, à tous les domaines de la recherche. Il semble par contre difficile de mesurer le réel usage de ces données de la recherche, en dehors des équipes d’origine. Et de tels outils semblent pour l’instant surtout répondre aux exigences d’un management de la recherche et à l’extension des principes de la vérifiabilité des expériences au-delà des sciences dures.

La deuxième permet de relier et de qualifier/décrire des données mais dans des contextes qui, pour les exemples vus, ne sont pas exactement ceux des SHS. D’un côté, en chimie et en agronomie, il y aurait l’idée que les textes scientifiques donnent directement accès à des « faits » scientifiques. Et du côté du marketing et des enquêtes d’opinion, il y aurait l’idée que des fragments textuels, isolés et restructurés seront des indicateurs transparents des émotions ou des opinions. Il apparaît néanmoins chez TEMIS comme dans les travaux de Mathieu Roche que le contexte social de la recherche ou de l’enquête marketing est un paramètre essentiel à la compréhension de ces « données ».  Il n’en resterait pas moins que pour l’instant le Big Data serait surtout affaire d’épidémiologie et qu’enquêtes d’opinion plus que de recherches en SHS.

La troisième, qui aurait mérité plus de temps d’exposition peut-être, pose, comme cela a été évoqué dans la discussion, la question du couplage méthodologique entre un cadre de recherche forgé par les équipes de chercheurs en SHS et un outil dont les technologies informatiques complexes ne sont pas complètement connus des chercheurs.

Dans tous les cas, pour que ces technologies deviennent pleinement des outils de la recherche en SHS, il semble urgent d’éclaircir les notions de  « données », de « faits » en SHS et surtout  l’idée que ces « données » et ces « faits » existeraient directement dans les textes. La meilleure piste de réflexion est sans doute cette belle exigence du DANS qui oblige les chercheurs à déposer avec leurs « données », leur projet, leur question et leur méthodologie.

 

(voir la conclusion : http://live3.univ-lille3.fr/video-recherche/seminaire-drtd-shs-conclusion.html )

 

Synthèse par Béatrice Micheau Doctorante, Laboratoire GERiiCO, Université de Lille 3, Université Lille nord de France