Qu’est-ce qui est génératif dans l’intelligence artificielle générative ? Le Mines Paris Research Day éclaire les logiques génératives de ChatGPT

Les modèles d’intelligence artificielle générative ont bouleversé notre approche de la création et de l’innovation numérique. Depuis l’avènement de ChatGPT, ces modèles ont captivé l’attention mondiale, promettant des opportunités sans précédent tout en posant des défis complexes. Cependant, une question persiste : que génèrent réellement ces outils ?
Le Mines Paris Research Day, qui s’est tenu à Paris le 2 juillet 2024 à Mines Paris – PSL, a offert l’opportunité de découvrir les recherches de pointe menées à l’École, en facilitant les échanges entre chercheurs, grandes entreprises, et start-ups. Cet événement met en lumière la synergie entre science et industrie, à travers cinq défis clé : la transition énergétique, la gestion responsable des ressources, les industries culturelles et créatives, la mobilité du futur, mais également la science des données et l’IA. Pendant cet évènement, les chercheurs du CGS ont mobilisé les avancées en théories de la générativité (théorie de la conception) pour éclairer ce qu’il y a de génératif dans l’IA générative.
Mines Paris Research Day le 2 juillet à Paris
Prompt utilisé sur l’IA générative dream.ai : un humain discutant avec une intelligence artificielle générative
La GenAI est décrite ainsi par Ian Goodfellow, pionnier dans le domaine :
La GenAI est capable d’aller au-delà de ce qu’elle a vu auparavant et de créer quelque chose de nouveau.
Contrairement à l’IA traditionnelle, qui cherche à comprendre et à reproduire l’intelligence humaine, la GenAI se concentre sur la création de contenu original, qu’il s’agisse de textes, d’images ou de vidéos. Depuis l’apparition de ChatGPT, ces modèles de GenAI soulèvent autant d’espoirs que de craintes et leur capacité à produire du contenu original est au cœur des débats.
Mais qu’entend-on vraiment par « original » ? C’est ici que la notion de générativité devient cruciale. En effet, la générativité se réfère à la capacité d’un système à produire ou créer quelque chose de nouveau. Mais la nouveauté peut être subjective et difficile à définir. Les chercheurs se sont donc penchés sur les différents mécanismes à l’œuvre dans les modèles GenAI pour mieux comprendre cette générativité.
Depuis les années 1970 et 1980, les théories de la conception portent sur les logiques de la générativité et les avancées récentes permettent de rendre compte de modèles de générativité variés : générativité par activation, générativité par inversion, générativité à langage fixe et à générativité avec expansion langagière.
L’arrivée de ChatGPT d’OpenAI a marqué un tournant dans l’adoption et la discussion autour de la GenAI. Malgré l’abondance de recherches sur la GenAI, la générativité de ces modèles n’a pas été étudiée en détail. C’est pourquoi il est essentiel de caractériser précisément la générativité des modèles GenAI.
En se basant sur les théories de la conception, les chercheurs ont passé en revue plusieurs familles de modèles de GenAI. Ils ont ensuite caractérisé la générativité de chaque famille, en identifiant des formes nouvelles et parfois surprenantes de création de contenu. Comprendre la générativité des modèles GenAI est crucial : cela permet de mieux comprendre le potentiel créatif de ces algorithmes et fournit des indications sur la manière d’utiliser chaque modèle en fonction des besoins créatifs spécifiques.
Bateau – Bill Hertha, prompt utilisé sur Midjourney : Paul Klee, mer, mezzotinte, abstrait, bateau à vapeur
D’un point de vue mathématique, la GenAI utilise des modèles pour apprendre la structure sous-jacente d’un ensemble de données et générer de nouveaux points de données similaires à ceux de l’ensemble original. Ces modèles, comme les célèbres réseaux neuronaux, passent par une phase d’entraînement où leur structure et leurs paramètres sont fixés. Une fois entraînés, ces modèles peuvent générer du contenu original, qu’il s’agisse de textes, d’images ou même de vidéos.
Les chercheurs se sont concentrés sur quatre familles de modèles d’IA génératives :
Cette famille est un type d’architecture de réseau neuronal conçu pour compresser efficacement (encoder) les données d’entrée vers leurs caractéristiques essentielles, puis reconstruire (décoder) l’entrée d’origine à partir de cette représentation compressée. La plupart de ces types sont utilisés pour l’extraction de caractéristiques comme la compression de données, le débruitage d’images, la détection d’anomalies et la reconnaissance faciale.
Cette famille est un type générant de nouveaux contenus en imitant un processus similaire au mouvement aléatoire de minuscules particules dans un liquide. Celui-ci crée de nouvelles images en transformant des images claires en bruit, puis en reconvertissant ce bruit en images claires. Des outils comme MidJourney et DALL-E produisent ainsi des images de haute qualité et permettent un contrôle fin du processus, rendant possible l’amélioration de la résolution d’une image de jeu vidéo ou le remplissage de parties manquantes d’une photo.
Cette famille est un type d’architecture de deep learning, entraînant deux réseaux neuronaux. Les deux réseaux, un générateur et un discriminateur, sont en concurrence afin, pour l’un, de générer de nouvelles données à partir d’un jeu de données d’entraînement, pour l’autre, de classifier si une donnée est générée par le premier ou non. Le système s’entraîne alors par compétition jusqu’à ce que le réseau discriminateur ne puisse plus distinguer les fausses données des originales. Il est ainsi possible de générer de nouvelles images à partir d’une base de données d’images existante ou de la musique originale à partir d’une base de données de chansons.
Cette famille est un type analysant les requêtes en langage naturel et prédisant la meilleure réponse possible en fonction de leur compréhension du langage. Pour ce faire, il s’appuie sur les connaissances acquises après avoir été entraîné avec des centaines de milliards de paramètres sur des jeux de données linguistiques colossaux. Il prend en compte le contexte et traite différentes parties de la saisie, ce qui le rend capable de générer des réponses longues. Les entreprises de tous les secteurs l’utilisent pour les robots de questions-réponses, la synthèse de textes ou la génération de contenu.
Les chercheurs ont ainsi pu fournir pour chaque famille une analyse de sa générativité. Cette analyse systématique montre que les outils recourent à deux types de générativité :
L’analyse montre que ces familles n’appartiennent ni au modèle de générativité par inversion ni à celui par expansion langagière. En d’autres termes, elles fonctionnent différemment des deux types d’IA générative que nous connaissions déjà.
Prompt utilisé sur Dall-E : un astronaute à cheval dans un style photoréaliste
Les travaux récents sur l’intelligence artificielle (IA) générative offrent des idées intéressantes pour mieux gérer ces technologies de manière bénéfique pour la société. Voici quelques pistes à explorer :
Ces travaux ont également révélé plusieurs initiatives visant à inverser, en partie, les modèles pré-entrainés. Cela ouvre un nouveau champ de recherche passionnant, basé sur des outils techniques et des algorithmes innovants, comme les algorithmes évolutionnaires de type Quality Diversity.
Sur cette base, le Bauhaus des Transitions a lancé un programme collaboratif pour explorer les meilleures façons de gérer l’IA générative à l’avenir. Ce programme vise à tirer le meilleur parti de ces technologies tout en minimisant les risques associés. La recherche sur l’IA générative permet d’étudier et optimiser la création des contenus personnalisés à grande échelle, améliorant ainsi l’engagement des clients et la pertinence des communications. Investir dans la recherche sur l’IA générative, c’est donc se donner les moyens de rester à la pointe du progrès technologique et de répondre plus efficacement aux besoins changeants des entreprises.