Open Science et données de la recherche
Un article de Wiki URFIST.
Version du 8 juin 2017 à 07:06 (modifier) MRG (Discuter | Contributions) (→[http://www.doranum.fr/le-depot-des-donnees-en-5-questions/ le dépôt des données sur DoRANum]) ← Différence précédente |
Version du 14 octobre 2017 à 16:22 (modifier) (défaire) MRG (Discuter | Contributions) Différence suivante → |
||
Ligne 4 : | Ligne 4 : | ||
<center>[[Image:Science-nav.png|200px]]</center> | <center>[[Image:Science-nav.png|200px]]</center> | ||
+ | <center>[http://ec.europa.eu/research/openscience/index.cfm?pg=home§ion=monitor Open Science Monitor]</center> | ||
Version du 14 octobre 2017 à 16:22
Alors que la problématique de l'accès ouvert aux publications scientifiques (Open Access) a une vingtaine d'années, on parle aujourd'hui de l'accès aux données elles-mêmes, du partage des données de la recherche. Quelles sont les raisons de ce glissement d'échelle et quels sont ses enjeux? Enjeux scientifiques mais aussi enjeux économiques et juridiques. Mais d'abord de quoi parle-t-on? Qu'est-ce au juste que les données de la recherche ? Nous verrons qu'il en existe de plusieurs sortes qui posent chacune des questions spécifiques. Enfin on envisagera les conséquences de cette nouvelle problématique pour l'activité du chercheur lui-même et la question des Plan de Gestion des Données (DMP).

Prise de contact: une recherche et ses données
étude de cas (Atelier d'Yvette Lafosse et Françoise Cosserat)
Qu'est-ce que "les données de la recherche"?
définitions (données et validation)
"les « données de la recherche » sont définies comme des enregistrements factuels (chiffres, textes, images et sons), qui sont utilisés comme sources principales pour la recherche scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider des résultats de recherche. Un ensemble de données de recherche constitue une représentation systématique et partielle du sujet faisant l’objet de la recherche.
Ce terme ne s’applique pas aux éléments suivants : carnets de laboratoire, analyses préliminaires et projets de documents scientifiques, programmes de travaux futurs, examens par les pairs, communications personnelles avec des collègues et objets matériels (par exemple, les échantillons de laboratoire, les souches bactériennes et les animaux de laboratoire tels que les souris). L’accès à tous ces produits ou résultats de la recherche est régi par d’autres considérations que celles abordées ici."
Celle de l'Australian National Data Service:
"Research Data: Data are facts, observations or experiences on which an argument, theory or test is based. Data may be numerical, descriptive or visual. Data may be raw or analysed, experimental or observational. Data includes: laboratory notebooks; field notebooks; primary research data (including research data in hardcopy or in computer readable form); questionnaires; audiotapes; videotapes; models; photographs; films; test responses."
"A minima, on s’accorde implicitement sur l’idée suivante : quand on évoque « les données de la recherche », on désigne des chiffres, relevés, mesures, résultats d’expérience, réponses à des enquêtes, statistiques, comptages, et autres donnés quantitatives sur la base desquels va s’élaborer une hypothèse, et/ou qui serviront à infirmer ou valider cette hypothèse… bref essentiellement du quantitatif, que l’on pourra traiter, trier, exploiter, visualiser de manière homogène. La publication de telles données fait déjà partie, dans certaines disciplines du moins, des canons de la rédaction d’un article scientifique (par exemple, la partie « Materials and methods » dans les recommandations pour la rédaction d’articles dans des revues médicales)."
les différents types de données
de la publication aux données: embedded data, underlying data, raw data...:
finalités du partage des données de la recherche
- validation
- réutilisation
le dépôt des données sur DoRANum
Enjeux et contexte:
- retour sur la formation Science 2.0
Open Science / "Science ouverte"
“Open science is the idea that scientific knowledge of all kinds should be openly shared as early as is practical in the discovery process.”
concepts parents
- "sciences"
- e-science: la science électronique / numérique
- "documentation électronique" (cf. open access)
- questions de granularité
- informatisation de l'activité scientifique (cf. big data): "ideas like recursion, parallelism and abstraction taken from computer science will redefine modern science. Implicit in the idea of a fourth paradigm is the ability, and the need, to share data. In sciences like physics and astronomy, the instruments are so expensive that data must be shared. Now the data explosion and the falling cost of computing and communications are creating pressure to share all scientific data." (John Markoff)
- "documentation électronique" (cf. open access)
- open access [ fr ]
- Science 2.0
- Open Science [ fr ]
- e-science: la science électronique / numérique
- data
- Open data
- Big data
- The end of privacy?
- Web squared? / Tim O'Reilly and John Battelle (2009) (cf. Fred Cavazza)
- The end of theory / Chris Anderson (2008): "The new availability of huge amounts of data, along with the statistical tools to crunch these numbers, offers a whole new way of understanding the world. Correlation supersedes causation, and science can advance even without coherent models, unified theories, or really any mechanistic explanation at all. "
- The end of privacy?
- Web of data / Linked Data /Web sémantique): The first step is putting data on the Web in a form that machines can naturally understand, or converting it to that form. This creates what I call a Semantic Web – a web of data that can be processed directly or indirectly by machines. Tim Berners-Lee (2000) (via)
Open Science
[Open Science Monitor http://ec.europa.eu/research/openscience/index.cfm?pg=home§ion=monitor]
crise de la validation
- un exemple: le Watergate du clonage
- un constat: La fraude scientifique est plus répandue qu’on le croit
- science expérimentale et validation
- > Balibar
"La règle est de décrire ses travaux avec suffisamment de précision pour que quelqu’un d’autre puisse les comprendre dans tous leurs détails, les reproduire, les vérifier, les confirmer ou les réfuter."
contexte juridique et réglementaire
> Ouverture des données de la recherche: Guide d'analyse du cadre juridique en France
Quel cadre réglementaire suivre ?
"Il existe beaucoup de textes de différentes formes (loi, circulaire, directive, etc.) qui régissent les données qui peuvent être produites par la recherche :
- Texte principal : Loi n°78‐753 du 17.07.1978 dite « loi CADA » modifié par la loi du 28/12/15 relative à la gratuité et aux modalités de réutilisation des informations du secteur public,
- Code de la recherche : article L112‐1 « e) L'organisation de l'accès libre aux données scientifiques »,
- A venir : le projet de loi Lemaire pour une république numérique,
- Autres textes : loi Informatique et Libertés, circulaire pour la Protection du Patrimoine Scientifique et Technique, code de l’environnement (ex art L124‐ 2), directive Inspire, etc.
Est-ce que je produis des documents administratifs ? Oui si mon employeur est public
- Tout ce que je fais dans le cadre de ma mission peut être considéré comme un document administratif
- Attention ! Pour les doctorants : si la thèse est cofinancée ou réalisée en collaboration avec un partenaire de l’employeur => il faut se reporter au contrat
- Cas particulier : je suis chercheur ou enseignant-chercheur: mes écrits, cartes, photographies, plans qui sont originaux et donc soumis au droit d’auteur m’appartiennent (exception – loi DADVSI 2006-961). Mais le reste appartient bien à mon employeur."
l'affaire de l'API d'Elsevier
cf. Data Mining : quand Elsevier écrit sa propre loi… / Pierre-Carl Langlais (février 2014)
Accord Couperin / Elsevier: "Tous les contenus accessibles et souscrits sur ScienceDirect dans le cadre de cet accord seront utilisables à des fins de data et text mining via une interrogation des données par une API connectée à la plateforme ScienceDirect. Les modalités appliquées seront celle du cadre juridique défini par Elsevier pour ce type de service."
"La licence Elsevier comprend trois conditions. Tout élément (output) issu de l’extraction :
- peut comprendre des extraits de 200 caractères au maximum du texte original.
- doit être publié sous une licence non commercial (CC-BY-NC)
- doit inclure un lien DOI vers le contenu original."
déclinaisons disciplinaires
En gros (très gros) en SHS la finalité "réutilisation" l'emporte sur la finalité "validation" > TDM
les Humanités numériques
- Huma-Num: "Huma-Num est une très grande infrastructure de recherche (TGIR) visant à faciliter le tournant numérique de la recherche en sciences humaines et sociales."
- Text mining : quand le texte devient donnée Emeline Mercier (2015)
- un exemple: Mapping the Republic of Letters
http://web.stanford.edu/group/toolingup/rplviz/
- Linkurious et les "Panama Papers"
cultures disciplinaires (quelques exemples)
Gérer et partager ses données
> Faut-il partager ses données?
DMP / PGD
- Les plans de gestion de données
- Organisation et description
- Stockage et conservation
- Partage et diffusion
et les doctorants?
- déposer la thèse / déposer les données: Les données de la recherche dans les thèses de doctorat - Livre blanc: "les thèses appartiennent à l’enseignement supérieur, hors tout circuit commercial, et elles ont, du fait de leur nombre, leur richesse et qualité mais aussi leur représentativité, un grand intérêt pour la veille et l’innovation."
- cf. supra "cadre législatif"
retour sur l'étude de cas
Seconde Partie (ED niçoises): Gérer et diffuser ses données : principes et bonnes pratiques / Mathieu Saby (BU UNS)
Support sur Jalon: Gérer et diffuser ses données : principes et bonnes pratiques