Open Science and research data

Un article de Wiki URFIST.

(Différences entre les versions)
Version du 12 juin 2020 à 08:38 (modifier)
Cercamon (Discuter | Contributions)
(Nouvelle page : Category:formationCategory:MRCategory:en coursCategory:données de la recherche While the issue of open access to scientific publications (Open Access) is about twen...)
← Différence précédente
Version du 12 juin 2020 à 09:34 (modifier) (défaire)
Cercamon (Discuter | Contributions)

Différence suivante →
Ligne 5 : Ligne 5 :
<center>[[Image:Science-nav.png|200px]]</center> <center>[[Image:Science-nav.png|200px]]</center>
<center>[http://ec.europa.eu/research/openscience/index.cfm?pg=home&section=monitor Open Science Monitor]</center> <center>[http://ec.europa.eu/research/openscience/index.cfm?pg=home&section=monitor Open Science Monitor]</center>
- 
=== First approach: a research and its data === === First approach: a research and its data ===
Ligne 11 : Ligne 10 :
:-> [http://www.inist.fr/?-Tutoriels-multimedias-H2020- '''Tutoriels « Le libre accès aux résultats de la recherche dans le cadre d’Horizon 2020 »'''] :-> [http://www.inist.fr/?-Tutoriels-multimedias-H2020- '''Tutoriels « Le libre accès aux résultats de la recherche dans le cadre d’Horizon 2020 »''']
-=== Qu'est-ce que "les données de la recherche"? ===+=== What is "research data"? ===
::> '''[https://donneesshs.hypotheses.org/39 Noëmie Rosemberg, "De la définition des données de la recherche," in ''En quête des données'', le 30/09/2015] ::> '''[https://donneesshs.hypotheses.org/39 Noëmie Rosemberg, "De la définition des données de la recherche," in ''En quête des données'', le 30/09/2015]
Ligne 32 : Ligne 31 :
"At the very least, we implicitly agree on the following idea: when we talk about "research data", we mean figures, readings, measurements, results of experiments, responses to surveys, statistics, counts, and other quantitative data on the basis of which a hypothesis will be developed, and/or which will be used to invalidate or validate this hypothesis... in short, essentially quantitative data, which can be processed, sorted, exploited, visualized in a homogeneous manner. The publication of such data is already part, at least in some disciplines, of the canons of scientific article writing (for example, the "Materials and methods" section in the recommendations for writing articles in medical journals)". "At the very least, we implicitly agree on the following idea: when we talk about "research data", we mean figures, readings, measurements, results of experiments, responses to surveys, statistics, counts, and other quantitative data on the basis of which a hypothesis will be developed, and/or which will be used to invalidate or validate this hypothesis... in short, essentially quantitative data, which can be processed, sorted, exploited, visualized in a homogeneous manner. The publication of such data is already part, at least in some disciplines, of the canons of scientific article writing (for example, the "Materials and methods" section in the recommendations for writing articles in medical journals)".
-==== les différents types de données ====+==== the different types of data ====
-de la publication aux données: ''embedded data'', ''underlying data'', ''raw data''...:+from the publication to the data: embedded data, underlying data, raw data... (reverse engineering): embedded data > underlying data > raw data...:
[[Media:Schema DR 170120.pdf]] [[Media:Schema DR 170120.pdf]]
Ligne 42 : Ligne 41 :
[[Image:Donnees recherche Francis Andre.png|500px]] [[Image:Donnees recherche Francis Andre.png|500px]]
-==== finalités du partage des données de la recherche ====+==== purposes of sharing research data ====
-* '''validation''' (science reproductible)+* '''validation''' (reproducible science)
-* '''réutilisation''' (science cumultaive)+* '''reuse''' (cumulative science)
==== [http://doranum.fr/depot-des-donnees-en-5-questions/ le dépôt des données sur DoRANum] ==== ==== [http://doranum.fr/depot-des-donnees-en-5-questions/ le dépôt des données sur DoRANum] ====
- 
[[Image:Depot données.png|500px]] [[Image:Depot données.png|500px]]
-=== Enjeux et contexte: ===+=== Issues and Context: ===
-* retour sur la formation '''[[Science 2.0]]+* back to training '''[[Science 2.0]]'''
-'''+ 
-==== ''Open Science'' / "Science ouverte" ====+==== Open Science ====
* [https://www.fosteropenscience.eu/ Foster] * [https://www.fosteropenscience.eu/ Foster]
Ligne 61 : Ligne 59 :
:[http://michaelnielsen.org/blog/open-science-2/ Michael Nielsen] :[http://michaelnielsen.org/blog/open-science-2/ Michael Nielsen]
-===== concepts parents =====+===== parent concepts =====
* "sciences" * "sciences"
-** ''[https://en.wikipedia.org/wiki/E-Science e-science]'': la science électronique / numérique+** ''[https://en.wikipedia.org/wiki/E-Science e-science]'': e-science / digital
-*** "documentation électronique" (cf. ''[https://en.wikipedia.org/wiki/Open_access open access]'')+*** "e-documentation" (cf. ''[https://en.wikipedia.org/wiki/Open_access open access]'')
-**** questions de granularité+**** granularity issues
-*** informatisation de l'activité scientifique (cf. ''big data''): ''"ideas like recursion, parallelism and abstraction taken from computer science will redefine modern science. Implicit in the idea of a fourth paradigm is the ability, and the need, to share data. In sciences like physics and astronomy, the instruments are so expensive that data must be shared. Now the data explosion and the falling cost of computing and communications are creating pressure to share all scientific data."'' ([http://www.nytimes.com/2009/12/15/science/15books.html John Markoff])+*** computerization of scientific activity (cf. ''big data''): ''"ideas like recursion, parallelism and abstraction taken from computer science will redefine modern science. Implicit in the idea of a fourth paradigm is the ability, and the need, to share data. In sciences like physics and astronomy, the instruments are so expensive that data must be shared. Now the data explosion and the falling cost of computing and communications are creating pressure to share all scientific data."'' ([http://www.nytimes.com/2009/12/15/science/15books.html John Markoff])
** ''[https://en.wikipedia.org/wiki/Open_access open access]'' [ [https://fr.wikipedia.org/wiki/Libre_acc%C3%A8s_%28%C3%A9dition_scientifique%29 fr] ] ** ''[https://en.wikipedia.org/wiki/Open_access open access]'' [ [https://fr.wikipedia.org/wiki/Libre_acc%C3%A8s_%28%C3%A9dition_scientifique%29 fr] ]
** ''[https://en.wikipedia.org/wiki/Science_2.0 Science 2.0]'' ** ''[https://en.wikipedia.org/wiki/Science_2.0 Science 2.0]''
** ''[https://en.wikipedia.org/wiki/Open_science Open Science]'' [ [https://fr.wikipedia.org/wiki/Open_data fr] ] ** ''[https://en.wikipedia.org/wiki/Open_science Open Science]'' [ [https://fr.wikipedia.org/wiki/Open_data fr] ]
-* ''data''+* data
** ''[https://en.wikipedia.org/wiki/Open_data Open data]'' ** ''[https://en.wikipedia.org/wiki/Open_data Open data]''
*** [https://fr.wikipedia.org/wiki/Libert%C3%A9_d%27acc%C3%A8s_aux_documents_administratifs libération des données publiques] ([http://www.cada.fr/l-acces-aux-documents-administratifs,1.html Loi CADA]) *** [https://fr.wikipedia.org/wiki/Libert%C3%A9_d%27acc%C3%A8s_aux_documents_administratifs libération des données publiques] ([http://www.cada.fr/l-acces-aux-documents-administratifs,1.html Loi CADA])
Ligne 92 : Ligne 90 :
[[Image:Science-nav.png|500px]] [[Image:Science-nav.png|500px]]
-==== crise de la validation ====+==== validation crisis ====
-* un exemple: [http://www.sciencepresse.qc.ca/actualite/2006/01/09/watergate-clonage le Watergate du clonage]+* an exemple: [http://www.sciencepresse.qc.ca/actualite/2006/01/09/watergate-clonage le Watergate du clonage]
-* un constat: [http://passeurdesciences.blog.lemonde.fr/2012/10/03/la-fraude-scientifique-est-plus-repandue-recherche/ La fraude scientifique est plus répandue qu’on le croit]+* a constat: [http://passeurdesciences.blog.lemonde.fr/2012/10/03/la-fraude-scientifique-est-plus-repandue-recherche/ La fraude scientifique est plus répandue qu’on le croit]
-* science expérimentale et validation+* experimental science and validation:> [http://raconterlavie.fr/collection/chercheur-au-quotidien/#.Vp6Aaud3eYVSébastien Balibar]
-:> [http://raconterlavie.fr/collection/chercheur-au-quotidien/#.Vp6Aaud3eYVSébastien Balibar]+
[[Image:69730b52558050bbdc3d1c69c982f764.jpg]] [[Image:69730b52558050bbdc3d1c69c982f764.jpg]]
-<big>"La règle est de décrire ses travaux avec suffisamment de précision pour que quelqu’un d’autre puisse les comprendre dans tous leurs détails, les reproduire, les vérifier, les confirmer ou les réfuter."</big>+<big>"The rule is to describe one's work with sufficient precision so that someone else can understand it in all its details, reproduce it, verify, confirm or refute it."</big>
 +<small>
==== contexte juridique et réglementaire ==== ==== contexte juridique et réglementaire ====
Ligne 129 : Ligne 127 :
# peut comprendre des extraits de 200 caractères au maximum du texte original. # peut comprendre des extraits de 200 caractères au maximum du texte original.
# doit être publié sous une licence non commercial (CC-BY-NC) # doit être publié sous une licence non commercial (CC-BY-NC)
-# doit inclure un lien DOI vers le contenu original."+# doit inclure un lien DOI vers le contenu original."</small>
-==== déclinaisons disciplinaires ====+==== disciplinary variations ====
-En gros (très gros) en SHS la finalité "réutilisation" l'emporte sur la finalité "validation" > [https://fr.wikipedia.org/wiki/Fouille_de_textes '''TDM''']+Roughly speaking (very roughly) in Humanities and Social Sciences the purpose "reuse" outweighs the purpose "validation". > [https://en.wikipedia.org/wiki/Text_mining '''Text mining''']
-===== les Humanités numériques =====+===== Digital Humanities =====
* [http://www.huma-num.fr/la-tgir-en-bref Huma-Num]: "Huma-Num est une très grande infrastructure de recherche (TGIR) visant à faciliter le tournant numérique de la recherche en sciences humaines et sociales." * [http://www.huma-num.fr/la-tgir-en-bref Huma-Num]: "Huma-Num est une très grande infrastructure de recherche (TGIR) visant à faciliter le tournant numérique de la recherche en sciences humaines et sociales."
** [https://fr.wikipedia.org/wiki/Plateforme_Isidore Isidore][ [http://www.rechercheisidore.fr/ lien] ] ** [https://fr.wikipedia.org/wiki/Plateforme_Isidore Isidore][ [http://www.rechercheisidore.fr/ lien] ]
* [http://archinfo41.hypotheses.org/571 Text mining : quand le texte devient donnée] Emeline Mercier (2015) * [http://archinfo41.hypotheses.org/571 Text mining : quand le texte devient donnée] Emeline Mercier (2015)
-* un exemple: [http://web.stanford.edu/group/toolingup/rplviz/ Mapping the Republic of Letters]+* an exemple: [http://web.stanford.edu/group/toolingup/rplviz/ Mapping the Republic of Letters]
[[Image:Mapping the Republic of Letters.png|400px]] [[Image:Mapping the Republic of Letters.png|400px]]
Ligne 147 : Ligne 145 :
* [https://www.maddyness.com/technologie/2016/04/07/panamapapers-linkurious/ Linkurious] et les "Panama Papers" * [https://www.maddyness.com/technologie/2016/04/07/panamapapers-linkurious/ Linkurious] et les "Panama Papers"
-===== cultures disciplinaires (quelques exemples) =====+===== disciplinary cultures (some exemples) =====
* [http://www.homo-numericus.net/article314.html#nb5 histoire] * [http://www.homo-numericus.net/article314.html#nb5 histoire]
Ligne 158 : Ligne 156 :
* [http://www.cairn.info/revue-management-2006-3-page-199.htm gestion] * [http://www.cairn.info/revue-management-2006-3-page-199.htm gestion]
-=== Gérer et partager ses données ===+=== Managing and sharing our data ===
> [https://data.hypotheses.org/1016 Faut-il partager ses données?] > [https://data.hypotheses.org/1016 Faut-il partager ses données?]
-===== DMP / PGD =====+===== DMP =====
:-> [http://www.inist.fr/?-Tutoriels-multimedias-H2020- '''Tutoriels « Le libre accès aux résultats de la recherche dans le cadre d’Horizon 2020 »'''] :-> [http://www.inist.fr/?-Tutoriels-multimedias-H2020- '''Tutoriels « Le libre accès aux résultats de la recherche dans le cadre d’Horizon 2020 »''']
-* Les plans de gestion de données+* The Data Management Plan
-* Organisation et description+* Organazing and describing
-* Stockage et conservation+* Storage and conservation
-* Partage et diffusion+* Sharing and dissemination
===== et les doctorants? ===== ===== et les doctorants? =====
Ligne 174 : Ligne 172 :
* cf. supra "cadre législatif" * cf. supra "cadre législatif"
-==== retour sur l'étude de cas ====+==== back to the exemple case ====
- +
- +
-----+
- +
-=== Seconde Partie (ED niçoises): Gérer et diffuser ses données : principes et bonnes pratiques / Mathieu Saby (BU UNS) ===+
- +
-Support sur Jalon: '''[http://jalon.unice.fr/cours/msaby/Cours-msaby-20160517105450 Gérer et diffuser ses données : principes et bonnes pratiques]'''+
- +
- +
-----+
- +
-===[https://groups.diigo.com/group/bsn9-donnes-de-la-recherche Syndication]===+
-<rss desc=off>https://groups.diigo.com/group/bsn9-donnes-de-la-recherche/rss</rss>+

Version du 12 juin 2020 à 09:34


While the issue of open access to scientific publications (Open Access) is about twenty years old, today we are talking about access to the data themselves, about sharing research data. What are the reasons for this shift in scale and what are the issues at stake? Scientific issues, but also economic and legal issues. But first, what are we talking about? What exactly are research data? We will see that there are several kinds, each of which raises specific questions. Finally, we will consider the consequences of this new issue for the researcher's own activity and the question of Data Management Plans (DMP).

Open Science Monitor

Sommaire

First approach: a research and its data

case study (Workshop by Yvette Lafosse and Françoise Cosserat)

-> Tutoriels « Le libre accès aux résultats de la recherche dans le cadre d’Horizon 2020 »

What is "research data"?

> Noëmie Rosemberg, "De la définition des données de la recherche," in En quête des données, le 30/09/2015

definitions (data and validation)

That of the OCDE:

"In the context of these Principles and Guidelines, “research data” are defined as factual records (numerical scores, textual records, images and sounds) used as primary sources for scientific research, and that are commonly accepted in the scientific community as necessary to validate research findings. A research data set constitutes a systematic, partial repre-sentation of the subject being investigated.

This term does not cover the following: laboratory notebooks, pre-liminary analyses, and drafts of scientific papers, plans for future research, peer reviews, or personal communications with colleagues or physical objects (e.g. laboratory samples, strains of bacteria and test animals such as mice). Access to all of these products or outcomes of research is governed by different considerations than those dealt with here.

These Principles and Guidelines are principally aimed at research data in digital, computer-readable format. It is indeed in this format that the greatest potential lies for improvements in the efficient distribution of data and their application to research because the marginal costs of transmitting data through the Internet are close to zero.These Principles and Guidelinescould also apply to analogue research data in situations where the marginal costs of giving access to such data can be kept reasonably low."

Celle de l'Australian National Data Service:

"Research Data: Data are facts, observations or experiences on which an argument, theory or test is based. Data may be numerical, descriptive or visual. Data may be raw or analysed, experimental or observational. Data includes: laboratory notebooks; field notebooks; primary research data (including research data in hardcopy or in computer readable form); questionnaires; audiotapes; videotapes; models; photographs; films; test responses."

Sylvie Fayet:

"At the very least, we implicitly agree on the following idea: when we talk about "research data", we mean figures, readings, measurements, results of experiments, responses to surveys, statistics, counts, and other quantitative data on the basis of which a hypothesis will be developed, and/or which will be used to invalidate or validate this hypothesis... in short, essentially quantitative data, which can be processed, sorted, exploited, visualized in a homogeneous manner. The publication of such data is already part, at least in some disciplines, of the canons of scientific article writing (for example, the "Materials and methods" section in the recommendations for writing articles in medical journals)".

the different types of data

from the publication to the data: embedded data, underlying data, raw data... (reverse engineering): embedded data > underlying data > raw data...:

Media:Schema DR 170120.pdf

purposes of sharing research data

  • validation (reproducible science)
  • reuse (cumulative science)

le dépôt des données sur DoRANum

Issues and Context:

Open Science

“Open science is the idea that scientific knowledge of all kinds should be openly shared as early as is practical in the discovery process.”

Michael Nielsen
parent concepts
  • "sciences"
    • e-science: e-science / digital
      • "e-documentation" (cf. open access)
        • granularity issues
      • computerization of scientific activity (cf. big data): "ideas like recursion, parallelism and abstraction taken from computer science will redefine modern science. Implicit in the idea of a fourth paradigm is the ability, and the need, to share data. In sciences like physics and astronomy, the instruments are so expensive that data must be shared. Now the data explosion and the falling cost of computing and communications are creating pressure to share all scientific data." (John Markoff)
    • open access [ fr ]
    • Science 2.0
    • Open Science [ fr ]
  • data

Image:LOD Cloud 2014.svg.png[1]

Open Science

[Open Science Monitor http://ec.europa.eu/research/openscience/index.cfm?pg=home&section=monitor]

validation crisis

Image:69730b52558050bbdc3d1c69c982f764.jpg

"The rule is to describe one's work with sufficient precision so that someone else can understand it in all its details, reproduce it, verify, confirm or refute it."

contexte juridique et réglementaire

> Ouverture des données de la recherche: Guide d'analyse du cadre juridique en France

Quel cadre réglementaire suivre ?

"Il existe beaucoup de textes de différentes formes (loi, circulaire, directive, etc.) qui régissent les données qui peuvent être produites par la recherche :

  • Texte principal : Loi n°78‐753 du 17.07.1978 dite « loi CADA » modifié par la loi du 28/12/15 relative à la gratuité et aux modalités de réutilisation des informations du secteur public,
  • Code de la recherche : article L112‐1 « e) L'organisation de l'accès libre aux données scientifiques »,
  • A venir : le projet de loi Lemaire pour une république numérique,
  • Autres textes : loi Informatique et Libertés, circulaire pour la Protection du Patrimoine Scientifique et Technique, code de l’environnement (ex art L124‐ 2), directive Inspire, etc.

Est-ce que je produis des documents administratifs ? Oui si mon employeur est public

  • Tout ce que je fais dans le cadre de ma mission peut être considéré comme un document administratif
  • Attention ! Pour les doctorants : si la thèse est cofinancée ou réalisée en collaboration avec un partenaire de l’employeur => il faut se reporter au contrat
  • Cas particulier : je suis chercheur ou enseignant-chercheur: mes écrits, cartes, photographies, plans qui sont originaux et donc soumis au droit d’auteur m’appartiennent (exception – loi DADVSI 2006-961). Mais le reste appartient bien à mon employeur."
l'affaire de l'API d'Elsevier

cf. Data Mining : quand Elsevier écrit sa propre loi… / Pierre-Carl Langlais (février 2014)

Accord Couperin / Elsevier: "Tous les contenus accessibles et souscrits sur ScienceDirect dans le cadre de cet accord seront utilisables à des fins de data et text mining via une interrogation des données par une API connectée à la plateforme ScienceDirect. Les modalités appliquées seront celle du cadre juridique défini par Elsevier pour ce type de service."

"La licence Elsevier comprend trois conditions. Tout élément (output) issu de l’extraction :

  1. peut comprendre des extraits de 200 caractères au maximum du texte original.
  2. doit être publié sous une licence non commercial (CC-BY-NC)
  3. doit inclure un lien DOI vers le contenu original."

disciplinary variations

Roughly speaking (very roughly) in Humanities and Social Sciences the purpose "reuse" outweighs the purpose "validation". > Text mining

Digital Humanities

http://web.stanford.edu/group/toolingup/rplviz/

disciplinary cultures (some exemples)

Managing and sharing our data

> Faut-il partager ses données?

DMP
-> Tutoriels « Le libre accès aux résultats de la recherche dans le cadre d’Horizon 2020 »
  • The Data Management Plan
  • Organazing and describing
  • Storage and conservation
  • Sharing and dissemination
et les doctorants?
  • déposer la thèse / déposer les données: Les données de la recherche dans les thèses de doctorat - Livre blanc: "les thèses appartiennent à l’enseignement supérieur, hors tout circuit commercial, et elles ont, du fait de leur nombre, leur richesse et qualité mais aussi leur représentativité, un grand intérêt pour la veille et l’innovation."

Image:Capture d’écran 2016-01-20 à 12.06.05.png

  • cf. supra "cadre législatif"

back to the exemple case