Les enregistrements des séances sont disponibles sur Canal U (Séance 3, 4 et 5 en cours de traitement).
Présentation de Émilien Schultz (médialab), Mathieu Morey (Datactivist) et Antoine Blanchard (Datactivist), Des notebooks Jupyter pour découvrir les usages de Python pour les SHS - pourquoi ? comment ? pour quel résultat ?
Dans cette présentation, Emilien revient sur le processus de développement conjoint entre Huma-Num Lab (Stéphane Pouyllau et Nicolas Sauret) et Datactivist (Mathieu Morey et Antoine Blanchard) de démonstrateurs de l'utilisation du machine learning pour les SHS sous la forme de Notebooks Jupyter écrits en Python. Ce projet qui a donné naissance à 5 Notebooks pédagogiques et exécutables vise à poser la question des outils actuellement utilisés par les communautés scientifiques en SHS, et les supports nécessaires à leur transmission. Rendus disponibles sur la plateforme IO hébergée sur la forge d'Huma-Num, ces démonstrateurs ont pour objectif d'être utilisés comme point de départ pour expérimenter, enseigner ou développer de nouvelles solutions.
Présentation de Matthias Bussonnier (dev. open source & open science à QuanSight), Recommandations pour la programmation scientifique par un contributeur open source à la science ouverte
Dans cette présentation, Matthias revient sur son expérience d'abord de chercheur en biophysique, puis comme contributeur à l'écosystème open source de la programmation scientifique en Python (notamment dans le projet Jupyter). En revenant sur la particularité de ce qu'est "programmer" pour un scientifique, il souligne l'importance de l'automatisation et de la formalisation du traitement des données numériques, qui participe en retour à améliorer la qualité du travail de recherche. Il revient aussi sur la genèse et la philosophie des notebooks Jupyter, tout en insistant que les bonnes pratiques de la programmation scientifique en Python dépassent la question du langage lui-même et concernent un ensemble d'outils, notamment la gestion des versions. Cette présentation est une introduction au lien entre science ouverte et open source.
Présentation de Margherita Parigini (Université de Genève), Mettre en oeuvre une stratégie de traitement automatique de la langue en littérature : fine tuning d'un modèle BERT pour la détection du doute dans les écrits de Italo Calvino
Dans cette présentation, Margherita est revenue sur le processus la conduisant à se saisir les outils de traitement automatique de la langue, et plus particulièrement les modèles BERT avec SpaCy pour réaliser de la détection d'entités nommées, au service de sa réflexion inscrite en littérature. Réalisant une thèse sur l'auteur italien Italo Calvino, elle a eu l'occasion de constituer un corpus annoté de passages caractéristiques du style de l'auteur. Souhaitant explorer une autre stratégie d'analyse, elle s'est formée à la programmation scientifique en Python et a utilisé ce corpus pour entraîner un modèle de détection de ces passages. Cela lui a permis d'interroger différemment les corpus étudiés, d'étendre sa réflexion à d'autres corpus, et de mettre en discussion la nature de ces passages au croisement entre interprétation et formalisation. Dans sa présentation, elle insiste aussi sur les difficultés qu'elle a rencontré mais aussi sur l'importance du traitement des données antérieur à l'entraînement du modèle. Cette expérience lui a aussi permis d'initier de nouvelles collaborations, et à publier son analyse dans une conférence d'humanités numériques.
Présentation de Max Béligné (Université Lyon 2), Répondre au défi de la reproductibilité d'une recherche en humanité numérique par la création d'une interface Web
Dans cette présentation, Max Béligné revient dans le processus initié pendant sa thèse en épistémologie de la géographie de construire une interface web. En effet, ses analyses portaient sur des données qu'il ne pouvait directement rendre disponible en raison d'une convention signée. Pour permettre cette mise en publication mais aussi faciliter ses propres traitements, il a développé une interface avec le processus Django. Dans cette communication, il revient sur les différentes étapes de cette expérience, son apprentissage progressif des bons réflexes, et les enseignements qu'il en tire pour ses futurs travaux. Cette interface est devenue interdépendante de son travail de thèse, ce qui souligne la place de l'instrumentation numérique en sciences humaines et sociales.
Présentation de Célya Gruson-Daniel (Inno3), Claire Lemercier (Sciences Po) et Emilien Schultz (Medialab), La traduction de R vers Python : enjeux pratiques et épistémiques
Dans cette présentation à trois voix par Célya Gruson-Daniel (Inno3, COSTECH/UTC), Claire Lemercier (CNRS, CSO/SciencesPo) et Emilien Schultz (Medialab/SciencesPo), les intervenantes reviennent sur le traitement des données d'un questionnaire conduit dans le projet Décliner la science ouverte. Cette analyse a d'abord été conduite avec un tableur et les outils de R, puis dans un second temps une démarche de reproductibilité a été initiée avec Python. Ce cheminement pose la question de la stabilisation progressive des résultats et les conditions de la reproductibilité, notamment dans la mesure où les bibliothèques R et Python diffèrent. Cela pose en retour des questions épistémologiques sur l'instrumentation numérique utilisée dans nos recherches.
Présentation de Maya Anderson-Gonzalez et Célya Gruson-Daniel de Inno3 Python en code et no-code pour la cartgographie de réseaux
Pour cette quatrième séance, Maya et Célya font un retour d'expérience de deux projets menés au sein du cabinet de conseil en innovation ouverte Inno3 sur la cartographie de réseaux. La mise en comparaison de ces deux projets, l'un recourrant à un script écrit en Python pour la collecte des données, l'autre par un outil déjà existant, permet de réflechir sur de nombreuses dimensions : le choix d'une solution impliquant de la programmation vs. un logiciel déjà existant ; l'intégration d'une expertise extérieure dans une équipe pour développer le morceau de code nécessaire pour la collecte et la mise en forme des données ; les stratégies différentes de documentation des étapes de traitement des données.
Présentation de Lucie Loubère Utilisation de scripts Python en amont d'Iramuteq pour l'analyse textuelle
Pour cette troisième séance, Lucie montre ses pratiques peu visibles de transformation des données, en amont de l'usage d'un logiciel spécialisé (dans ce cas, Iramuteq). La programmation en langage Python permet d'avoir une forte flexibilité pour collecter les données et constituer différents corpus textuels qui respectent les formats attendus par le logiciel.
Présentation de Mariannig Le Béchec et Emilien Schultz Reproductibilité de l'enquête SOSP - State of Open Science Practices in France
Pour cette deuxième séance, Mariannig est revenue sur l'enquête collective qu'elle a coordonné sur les pratiques de science ouverte des chercheurs et de leurs usages d'outils numériques, dont les données ont été rendues disponibles. Puis Emilien a présenté le Notebook Jupyter de reproduction des analyses qu'ils ont construit sur la base de ces données pour approfondir certains résultats avec les outils disponibles de l'écosystème Python. Il a insisté sur les forces et les faiblesses (actuelles) des outils pour le traitement statistique en sciences sociales, et les tours de main qu'il utilise.
- Le résumé de l'intervention
- Les slides de la présentation de l'enquête
- Le dépôt des données de la réanalyse
Présentation de Tristan Salord Pois-chiche et "Franken-Code" - Verrouillage technologique et alimentation durable: le cas des légumineuses
Pour cette première séance, Tristan est revenu sur la stratégie qu'il a développé pour rendre vivantes des données d'ingrédients afin d'éclairer l'usage des légumineuses dans l'alimentation. Pour cela, il a rendu visible l'ensemble des opérations nécessaires pour passer de l'idée générale à sa décomposition en problèmes pouvant donner lieu à automatisation. Il a aussi partagé des éclairages et des expériences de sa pratique.