Des images 3D plus réalistes que jamais grâce à l’IA : l’innovation RayGauss primée à la WACV 2025

Prix et distinctions Recherche Transformation numérique Décryptage
Publié le 17 mars 2025
L’intelligence artificielle et la vision par ordinateur progressent à grands pas, notamment dans la capacité à générer des images 3D ultra-réalistes à partir de plusieurs points de vue. Le projet RayGauss, porté par Hugo Blanc, doctorant, Jean-Emmanuel Deschaud, chargé de recherche et Fellow AI au sein du projet d’excellence PR[AI]RIE – Paris School of AI, et Alexis Paljic, professeur, tous trois affiliés au Centre de Robotique (CAOR) de Mines Paris – PSL, illustre cette avancée majeure. Celui-ci présente une approche innovante pour générer des images photoréalistes à partir d’un ensemble d’images d’une scène. Leur méthode combine plusieurs techniques avancées pour améliorer la qualité du rendu, tout en maintenant des temps de calcul réduits. Leur travail a été récompensé par le prestigieux Best Paper Award – Algorithms à la conférence internationale WACV 2025 (IEEE/CVF Winter Conference on Applications of Computer Vision), une distinction attribuée parmi près de 1000 articles et saluant une contribution déterminante à la vision par ordinateur.

Comparaison visuelle entre un filtre gaussien 3D et RayGauss

Qu’est-ce que la synthèse de nouvelles vues et pourquoi est-ce important ?

La synthèse de nouvelles vues est une technique qui permet de générer des images sous des angles qui n’ont pas été initialement capturés par une caméra. Cette technologie est essentielle pour de nombreuses applications, allant des effets spéciaux au cinéma à la cartographie 3D pour la navigation autonome, en passant par la réalité virtuelle.

Les approches récentes reposent souvent sur les Neural Radiance Fields (NeRF), des modèles d’apprentissage profond, ou deep learning, qui permettent de reconstruire une scène en simulant comment la lumière interagit avec l’environnement. Cependant, les NeRFs classiques ont des limites : ils demandent des temps de calcul très longs et peuvent générer des artefacts visuels, altérant la qualité du rendu final.

L’innovation de RayGauss : une approche hybride

RayGauss propose une nouvelle façon de créer des images 3D réalistes en utilisant des techniques de rendu innovantes. Plutôt que de s’appuyer sur le ray tracing sur un maillage texturé classique,  RayGauss adopte une approche différente : il utilise du ray tracing avec des primitives de type Gaussiennes, qui sont des formes mathématiques en ellipsoïdes, pour modéliser à la fois la densité de la matière et la lumière. Concrètement, au lieu de considérer une scène comme un simple ensemble de surfaces, cette méthode représente la matière sous forme de halos diffus, ce qui permet de mieux capturer la façon dont la lumière se propage et interagit avec les objets.

L’approche repose sur deux avancées majeures :

  1. Une modélisation plus précise de la lumière : L’équipe a mis au point un modèle qui décompose la lumière émise à l’aide d’ellipsoïdes associés à plusieurs composantes mathématiques appelées Spherical Gaussians et Spherical Harmonics. Ces outils permettent de mieux représenter les variations de couleur et d’intensité lumineuse selon l’angle d’observation, rendant ainsi les images plus réalistes.
  2. Un algorithme optimisé pour un rendu accéléré par couches successives : Au lieu de calculer le trajet de chaque rayon lumineux séparément, ce qui est long et coûteux en calcul, RayGauss segmente le lancer des rayons en plusieurs couches successives (slabs). Il utilise aussi une structure de données appelée Bounding Volume Hierarchy (BVH), qui permet d’ignorer rapidement les parties non visibles d’une scène et de ne se concentrer que sur les zones pertinentes. Grâce à cela, RayGauss parvient à générer des images en temps réel à une vitesse de 25 images par seconde (FPS) sur des scènes complexes issues du logiciel Blender, tout en offrant une qualité d’image supérieure aux méthodes actuelles.

Algorithme de rendu volumétrique

Des performances supérieures et un impact potentiel majeur

L’une des grandes forces de RayGauss est son équilibre entre qualité et efficacité. Contrairement à d’autres techniques qui exigent plusieurs heures de calcul, cette méthode atteint une qualité d’image exceptionnelle tout en conservant un temps d’entraînement raisonnable et des performances temps réel exploitables dans des applications concrètes.

Ces avancées ouvrent la voie à des usages variés, notamment dans :

  • Le jeu vidéo et la réalité virtuelle, où des rendus réalistes doivent être calculés en temps réel.
  • L’automobile et la robotique, pour une meilleure perception de l’environnement dans les véhicules autonomes.
  • L’archéologie et le patrimoine, en permettant la reconstruction virtuelle de sites historiques à partir de photographies.

Comparaisons visuelles : ensemble de données Dex-NeRF

Une reconnaissance internationale pour Mines Paris – PSL

La distinction obtenue à la WACV 2025 est une reconnaissance majeure pour le travail accompli par l’équipe de Mines Paris – PSL. Cette réussite illustre l’excellence de la recherche française en intelligence artificielle et en vision par ordinateur, et met en avant le rôle du Centre de Robotique (CAOR) et de l’institut PR[AI]RIE-PSAI dans l’innovation scientifique.

L’équipe a rendu son code accessible au public sur GitHub, favorisant ainsi le partage et l’amélioration continue de cette technologie prometteuse. RayGauss marque une avancée déterminante dans le domaine de la synthèse d’images et pourrait bien redéfinir les standards du rendu photoréaliste dans les années à venir.


Pour aller plus loin :

À découvrir aussi