Aller au contenu principal

Intelligence artificielle en GDR

Introduction : l’intelligence artificielle et les algorithmes de traitement des données

Avec l’augmentation de l’utilisation des intelligences artificielles génératives (IAG), nous constatons également le potentiel de son déploiement dans le domaine très spécialisé de la gestion des données de recherche. Les algorithmes d’intelligence artificielle (IA) plus traditionnels visent principalement l’analyse, la classification, la prédiction et l’automatisation des tâches en fonction des données existantes. Leur rôle dans la GDR est d’améliorer l’efficacité, la qualité, la sécurité ou l’accessibilité des données qui existent déjà. L’IAG est capable de créer de nouvelles données (données synthétiques) et d’aider les processus de gestion des données tels que le nettoyage, la génération de métadonnées et la rédaction de plans de gestion des données (PGD). 

Les applications issues de l’IAG spécifiquement applicables à la GDR sont peu nombreuses et en développement progressif. Elles visent principalement à automatiser des tâches liées aux jeux de données, comme le moissonnage, l’analyse et le nettoyage, de même que liées aux plans de gestion de données (contesté par Bishop, 2023), notamment leur création et la génération de métadonnées. À l’inverse, étant donné que plusieurs algorithmes de l’IA dépendent des données massives, on constate dernièrement un apport accru des compétences et technologies liées à la gestion des données de recherche au développement des intelligences artificielles. Les données de type « synthétique », avec des précautions adéquates, permettraient notamment de favoriser l’apprentissage machine, améliorer les technologies d’anonymisation ainsi que de fournir des opportunités de simulations d’impacts. 

Avantages et limites de l’IA pour la GDR

L’IA comporte des avantages indéniables au niveau de la GDR : capacités d’extraction de l’information d’un nombre et d’une variété élevée de fichiers, augmentation de la productivité au niveau de la gestion du stockage, renforcement de la cybersécurité, automatisation et donc accélération des tâches ainsi que la diminution des erreurs. L’IA n’est plus un simple « outil », elle devient même un collaborateur ou un réutilisateur. Toutefois, cette technologie apporte également son lot d’enjeux. On connait depuis longtemps celui lié à l’introduction de biais influençant le fonctionnement de l’IA générative. Ces biais sont présents en raison des décisions des développeurs, via les algorithmes et les données d’apprentissage choisies notamment provenant du Web. L'IA réplique ce qu’elle a apprise. Également, le niveau d’anonymisation des données soulève des préoccupations, notamment par la possibilité de ré-identifier les participants par l’emploi de l’IA. En effet, celle-ci peut établir facilement des liens entre les données anonymisées et d’autres données existantes. 

Planification de l’usage de l’IA dans un projet de recherche

L’intelligence artificielle lorsqu’elle est envisagée dans un projet de recherche nécessite une planification de son usage à tous les moments du cycle de vie des données. Ainsi, pendant la rédaction de son plan de gestion des données (PGD), les chercheurs et chercheuses devraient inclure les différentes considérations de l’emploi d’outils utilisant l’IA générative. Nous listons quelques questions pour alimenter les réflexions dans l’écriture du PGD. Celles-ci sont en lien avec au moins une section habituelle d’un PGD.  

Questions proposées

  • Objectif et nécessité : quelle est la tâche de GDR que nous essayons d’améliorer en utilisant l’IA et est-elle un avantage par rapport aux outils plus traditionnels?  
  • Confidentialité et sécurité des données : comment l’outil d’IA traite-t-il et protège-t-il les données de recherche?  
  • Biais et équité : quels biais potentiels pourraient être inhérents aux algorithmes d'IA ou aux données sur lesquelles ils ont été entraînés?  
  • Transparence et explicabilité : dans quelle mesure le fonctionnement de l'outil d'IA est-il transparent? Pouvons-nous comprendre comment il arrive à ses résultats?  
  • Qualité et pertinence des données : nos données de recherche sont-elles de qualité et de format appropriées pour l'outil d'IA?  
  • Reproductibilité et vérification : les opérations effectuées par l'outil d'IA peuvent-elles être facilement reproduites? Comment validerons-nous les résultats de l'outil d'IA?  
  • Documentation et soutien : existe-t-il une documentation et un soutien clairs et complets pour l'outil d'IA?  
  • Conformité éthique et légale : l'utilisation de l'outil d'IA s'harmonise-t-elle avec les lignes directrices en matière d'éthique de l'IA en recherche établies par notre établissement ou les organismes pertinents (p. ex., les organismes de financement)? Avons-nous tenu compte des conditions de droit d'auteur et des restrictions d'utilisation de l'outil d'IA et du matériel qu'il génère?  
  • Coût et accessibilité : quel est le coût de l'utilisation de l'outil d'IA (p. ex., frais d'abonnement, ressources informatiques)?  

Références

Akhtar, Mubashara, Omar Benjelloun, Costanza Conforti, Pieter Gijsbers, Joan Giner-Miguelez, Nitisha Jain, Michael Kuchnik, et al. 2024. « Croissant: A Metadata Format for ML-Ready Datasets ». Dans Proceedings of the Eighth Workshop on Data Management for End-to-End Machine Learning, 1‑6. DEEM ’24. New York, NY, USA: Association for Computing Machinery. https://doi.org/10.1145/3650203.3663326

« Avis du groupe spécial d’experts externes sur l’IA générative ». 2024. Innovation, Sciences et Développement économique Canada. 12 janvier 2024. https://science.gc.ca/site/science/fr/financement-interorganismes-recherche/politiques-lignes-directrices/lutilisation-lintelligence-artificielle-generative-dans-lelaboration-levaluation-propositions/avis-groupe-special-dexperts-externes-lia-generative

Azeroual, Otmane, et Joachim Schöpfel. 2025. « New Developments in Research Data Management - The Potential of AI ». Dans Encyclopedia of Libraries, Librarianship, and Information Science (First Edition), édité par David Baker et Lucy Ellis, 206‑11. Oxford: Academic Press. https://doi.org/10.1016/B978-0-323-95689-5.00253-4

Bishop, Bradley Wade. 2023. « AI and New Standards Promise to Make Scientific Data More Useful by Making It Reusable and Accessible ». The Conversation. 21 août 2023. http://theconversation.com/ai-and-new-standards-promise-to-make-scientific-data-more-useful-by-making-it-reusable-and-accessible-211080

Chubb, Jennifer, Peter Cowling, et Darren Reed. 2022. « Speeding up to keep up: exploring the use of AI in the research process ». AI & SOCIETY 37 (4): 1439‑57. https://doi.org/10.1007/s00146-021-01259-0

Council of Atlantic Academic Libraries, réal. 2025. Data Cleaning in (early) 2025: Feasibility of AI Tools. https://www.youtube.com/watch?v=A5x3jVV5UdY

Finnegan, Mary-Kate. 2024. « Research Guides: Data Management & Sharing : Generative Artificial Intelligence (AI) and Research Data Management (RDM) ». 2024. https://csus.libguides.com/RDM/AI

Google Cloud Tech, réal. 2023. Introduction to Generative AI. https://www.youtube.com/watch?v=G2fqAlgmoPo

Lawrence, Neil D., et Jessica Montgomery. 2024. « Accelerating AI for science: open data science for science ». Royal Society Open Science 11 (8): 231130. https://doi.org/10.1098/rsos.231130

Lehtiö, Leeni. s. d. « UTUGuides: Librarian’s Guide to Artificial Intelligence: AI in Research and Research Data Management ». Consulté le 21 février 2025. https://utuguides.fi/c.php?g=712454&p=5147020

Ping, Haoyue, Julia Stoyanovich, et Bill Howe. 2017. « DataSynthesizer: Privacy-Preserving Synthetic Datasets ». Dans Proceedings of the 29th International Conference on Scientific and Statistical Database Management, 1‑5. SSDBM ’17. New York, NY, USA: Association for Computing Machinery. https://doi.org/10.1145/3085504.3091117

Semeler, Alexandre, Adilson Pinto, Tibor Koltay, Thiago Dias, Arthur Oliveira, José González, et Helen Beatriz Frota Rozados. 2024. « ALGORITHMIC LITERACY: Generative Artificial Intelligence Technologies for Data Librarians ». ICST Transactions on Scalable Information Systems 11 (2). https://doi.org/10.4108/eetsis.4067

Srivastava, Abhishek. 2023. « Transformative Data Management Technique: Redefining Artificial Intelligence (AI) ». Management Insight 19 (01): 59‑70. https://doi.org/10.21844/mijia.19.1.6

Theodoras Rekatsinas, Sudeepa Roy, Manasi Vartak, Ce Zhang, et Neoklis Polyzotis. 2019. « Opportunities for data management research in the era of horizontal AI/ML » 12 (12): 2323‑24. https://doi.org/10.14778/3352063.3352149