Une Formation sur les Données Ouvertes et leur Réutilisation à l’Université d’Antananarivo.

Grâce à un partenariat entre CODATA, le Ministère de l’Environnement, de l’Ecologie et des Forêts, le Ministère des Postes, des télécommunications et du Développement Numérique, du Ministère de l’Enseignement Supérieur et de la recherche Scientifique, Madagascar a accueilli une délégation formée de scientifiques de haut niveau africains, asiatiques, européens et américains. Ils ont participé et animé une rencontre de haut niveau avec les décideurs nationaux, un workshop pour faire le point sur les situations en matière de données ouvertes et de données massives (Big Data) dans le monde et à Madagascar.

CODATA est un organisme international issu de l’International Council for Science (ICSU). CODATA existe pour promouvoir une collaboration mondiale pour améliorer la disponibilité et la facilité d’utilisation des données pour tous les domaines de recherche. CODATA soutient le principe selon lequel les données produites par la recherche et susceptibles d’être utilisées pour la recherche devraient être aussi ouvertes que possible et aussi fermées que nécessaire. CODATA travaille également à améliorer l’interopérabilité et la convivialité de ces données : les données de recherche doivent être intelligemment ouvertes ou FAIR (Findable, Accessible, Interoperable, Reusable). En promouvant les changements politiques, technologiques et culturels essentiels pour rendre les données de recherche plus largement disponibles et plus utilisables, CODATA contribue à faire progresser la mission de l’ICSU de renforcer la science internationale au bénéfice de la société.
Du 07 au 08 septembre 2017, une formation sur les données ouvertes et leur réutilisation a lieu à l’Université d’Antananarivo, dans les locaux de la Bibliothèque. Une trentaine de personnes participent à cette formation.

Les paragraphes qui suivent expliquent plus en détail la situation des données ouvertes et des big data, ainsi que les actions de CODATA. Ils sont tirés de la version courte du texte de l’Accord International sur « Les Données Ouvertes dans un Monde de Données massives » par Boulton, Babini, Hodson, Li, Marwala, Musoke, Uhlir, &Wyatt (2015).

Rakotondraompiana Solofo
Institut & Observatoire de Géophysique d’Antananarivo (IOGA)

Le monde du Big Data

La révolution numérique de ces dernières décennies constitue un événement historique de l’ampleur de l’invention de l’imprimerie, qu’elle surpasse même par sa généralisation. Cette révolution est marquée par une explosion de nos capacités à acquérir, stocker, manipuler et transmettre instantanément de gros volumes de données. Elle a eu et a encore des impacts énormes pour la science, mais aussi pour nos vies de tous les jours. En 2003, les scientifiques ont fini de cartographier le génome humain après 10 ans d’effort pour un coût de 1 milliard de dollars. Aujourd’hui, la même opération ne nécessite que quelques jours et 1.000 US$. Les moteurs de la révolution numérique sont essentiellement les Big Data et les « données enrichies » (Broad Data), le lien sémantique entre de nombreux ensembles de données pour générer un nouveau contenu plus enrichi encore.

Cette révolution touche tous les domaines scientifiques ; sciences naturelles, sociales et humaines. Toutes les possibilités offertes sont loin d’être complètement explorées jusqu’à maintenant. Parmi ces domaines, citons la prévision météorologique et la climatologie, le fonctionnement du cerveau, la démographie, l’analyse historique, l’environnement, les maladies infectieuses, etc.

Les enjeux

Toutes ces nouvelles possibilités bouleversent la manière dont la science est menée, la manière dont la science s’organise. Et les Données Ouvertes (Open data) sont leur dénominateur commun.

Le rôle fondamental de la recherche financée par les fonds publics (à prendre dans son sens le plus large) est de contribuer à la connaissance et la compréhension nécessaires au jugement, à l’innovation et au bien-être personnel et général. La règle par défaut doit être que des données ayant bénéficié de subventions publiques deviennent accessibles et réutilisables, une fois le projet de recherche mené à terme.

La transparence des preuves soutenant une affirmation scientifique est ce qui permet les avancées scientifiques. Elle permet d’examiner la logique d’un argument, de tester la reproductibilité d’observations ou d’expériences, de corroborer ou réfuter des affirmations. Afin de renforcer et protéger l’indispensable évaluation par les pairs, la publication des conclusions d’une étude doit se doubler de l’accès aux données utilisées dans la démonstration, aux métadonnées et aux codes informatiques ayant permis les traitements. En effet, de nombreuses enquêtes menées dans différentes disciplines ont mis en lumière de fort taux de non reproductibilité des résultats publiés. La transparence cependant ne suffit pas. L’accès aux données doit se faire de manière intelligente. Les données doivent être FAIR (Findable, Accessible, Interoperable and Reusable – Trouvable, accessible, interopérable et réutilisable).
Avec les données massives, plusieurs des relations complexes que nous cherchons à saisir dépassent les capacités d’analyse des méthodes statistiques traditionnelles. Elles requièrent des méthodes différentes incluant l’analyse automatique (machine analysis) et l’apprentissage automatique (machine learning).

L’ouverture des données soulève cependant des questions éthiques. On peut considérer qu’elle contrevient aux intérêts des chercheurs producteurs des données au point que de nouveaux moyens de reconnaitre leurs travaux et de les récompenser doivent être développés. L’anonymat des sujets dit aussi être protégé. Mais si les pays en développement ou mêmes les pays les moins avancés (PMA) ne participent pas dès maintenant aux recherches reposant sur les données massives et ouvertes, le fossé qui les séparent des autres pays ne fera que s’agrandir encore davantage dans les prochaines années. Ils ne pourront tirer profit des recherches mondiales. De plus en plus de communautés de chercheurs découvrent les bienfaits du partage des données dans des domaines aussi variés que la linguistique, la bio-informatique, la cristallographie.
Des responsabilités particulières incombent également aux organismes internationaux tels le Committee on Data for Sciences and Technology (CODATA), le World data System (WDS) ou le Research Data Alliance (RDA).