NeurIPS 2025 : les agents d’IA, les modèles du monde et la puissance des nuages d’IA souverains

NeurIPS 2025 (la 39e conférence annuelle sur les systèmes de traitement de l’information neuronale) a mis en évidence un changement fondamental dans les tendances de la recherche en IA. Alors que les grands modèles de langage (LLM) occupaient encore une place prépondérante, de nombreux chercheurs se sont tournés vers les agents d’IA et les modèles du monde, ainsi que vers les modèles génératifs de nouvelle génération comme les transformateurs de diffusion pour les images et les vidéos.

Ces progrès signalent un changement de cap, passant de la simple mise à l’échelle des LLM à des systèmes d’IA capables de comprendre et de simuler le monde qui les entoure, une capacité nécessitant une énorme puissance de calcul. La conférence a souligné à quel point l’accès à l’informatique haut de gamme (pensez aux GPU comme le H200 et le Blackwell B200 de NVIDIA) est essentiel pour concrétiser ces idées ambitieuses.

Dans cet article, nous récapitulons les faits saillants de NeurIPS autour des agents d’IA et des modèles du monde et explorons pourquoi les GPU de pointe et la bonne infrastructure infonuagique sont si essentiels pour ces percées. Nous illustrons également comment le néo-nuage souverain canadien de BUZZ HPC, avec ses clusters GPU haut de gamme et ses services d’IA avancés, permet aux chercheurs et aux organisations de surfer sur cette nouvelle vague d’innovation.

Les agents d’IA et les modèles du monde occupent le devant de la scène

Un thème clé de NeurIPS 2025 a été la résurgence de l’intérêt pour les modèles du monde. Nous les définissons comme des systèmes d’IA qui apprennent un modèle interne de l’environnement pour prédire et planifier les résultats. En fait, un atelier entier a été consacré aux modèles du monde incarnés pour la prise de décision, soulignant que les modèles du monde sont devenus une pierre angulaire de l’IA incarnée et alimentent les progrès récents dans la prise de décision et la planification pour les agents autonomes.

En apprenant une représentation riche du monde, qu’il s’agisse d’un environnement physique ou d’un domaine de tâche abstrait, un agent d’IA peut simuler des futurs possibles, raisonner sur les conséquences et prendre de meilleures décisions. Cela montre que le domaine dérive vers une interaction dirigée par des objectifs dans les mondes physiques et simulés.

Même les figures légendaires de l’IA ont fait écho à ce changement. Lors de NeurIPS, le pionnier de l’apprentissage par renforcement Richard Sutton a soutenu que le domaine devait revenir à des agents apprenants capables de construire des modèles du monde et d’apprendre en continu, estimant que l’obsession des dernières années pour des volumes massifs de données et des modèles statiques a peut-être fait perdre de vue ces idées fondamentales. Son appel à l’action souligne un désir communautaire d’imprégner les agents d’IA d’une plus grande autonomie cognitive. Nous définissons cela comme la capacité d’explorer, de se souvenir et de s’adapter comme le ferait un humain ou un animal dans son environnement. Les modèles du monde sont considérés comme un ingrédient clé pour y parvenir, permettant aux agents d’intérioriser le fonctionnement du monde et de planifier ou d’improviser en son sein.

Certaines des meilleures recherches de NeurIPS ont abordé des domaines connexes. Un des meilleurs articles de Wang et al. a démontré que pousser la profondeur du réseau neuronal à des échelles extrêmes (par exemple 1 000 couches) peut débloquer de nouvelles capacités chez les agents d’apprentissage par renforcement, leur permettant d’apprendre à atteindre des objectifs sans aucune récompense ni démonstration. Des modèles plus grands et une modélisation du monde pourraient donner des percées dans le comportement des agents si l’on dispose des ressources de calcul pour former de tels réseaux profonds.

Un autre article finaliste a examiné de manière critique l’ajustement des LLM avec l’apprentissage par renforcement, constatant que les méthodes actuelles ne produisaient pas de capacités de raisonnement fondamentalement nouvelles au-delà du modèle de base. Il ne suffit pas de simplement boulonner le RL sur un LLM. Des innovations plus profondes, peut-être un raisonnement basé sur un modèle du monde ou de nouvelles architectures, sont nécessaires pour donner aux agents d’IA de véritables nouvelles compétences cognitives.

Dans l’ensemble, NeurIPS 2025 a clairement montré que les agents d’IA sont à nouveau un sujet brûlant. Les chercheurs équipent les agents de modèles du monde, de mémoire et de capacité de planification. Les premiers exemples incluent des architectures qui intègrent le raisonnement symbolique ou les esprits doubles pour l’imagination à long terme, et des approches comme EDELINE, un modèle de monde unifié qui combine intelligemment des modèles d’espace d’état avec des modèles génératifs de diffusion.

En intégrant la prédiction basée sur la diffusion dans un modèle du monde, EDELINE peut mieux modéliser des environnements stochastiques complexes dans un espace latent appris. Ces hybrides qui combinent des modèles du monde avec des composants de diffusion ou de transformateur montrent comment les frontières entre les types de modèles s’estompent pour créer des agents qui comprennent et créent dans leurs environnements.

Modèles génératifs dans l’espace latent : au-delà du texte à la vidéo

Une autre tendance majeure de NeurIPS 2025 a été l’essor des modèles de diffusion et des transformateurs génératifs, en particulier pour les médias riches tels que les images et les vidéos. Les modèles de diffusion ont pris d’assaut le monde de l’apprentissage automatique ces dernières années pour la génération d’images, et NeurIPS a reconnu leur impact.

L’un des prix du meilleur article de la conférence a été décerné à une analyse théorique intitulée Why Diffusion Models Don’t Memorize, qui a étudié comment la dynamique de formation des modèles de diffusion évite le surajustement et permet la généralisation.

Les chercheurs poussent également les modèles de diffusion dans de nouveaux domaines et les rendent plus efficaces. Plusieurs articles et démonstrations de NeurIPS ont abordé les modèles de diffusion vidéo, qui utilisent des diffusions basées sur des transformateurs pour générer des vidéos ou prédire des images futures dans une séquence.

Une démonstration de Qualcomm a montré des transformateurs de diffusion vidéo mobiles fonctionnant sur un NPU de téléphone intelligent après avoir appliqué une distillation et une optimisation lourdes du modèle. Atteindre 49 images de vidéo haute résolution en moins de 8 secondes sur un téléphone était un exploit époustouflant, mais cela montre également à quel point les modèles de base sont intensifs en calcul. La démonstration a décrit l’élagage et la compression d’un modèle de diffusion géant pour s’adapter à un appareil mobile. L’entraînement des modèles DiT (transformateur de diffusion) originaux et de nombreux autres modèles de génération vidéo NeurIPS aurait nécessité un calcul GPU massif pour gérer des séquences de milliers de jetons ou de pixels.

L’enthousiasme autour des modèles génératifs latents était également élevé. De nombreux travaux impressionnants utilisent la prédiction de l’espace latent, qui implique d’apprendre une représentation comprimée de la réalité, puis de prédire comment cet état latent évolue. Les modèles du monde le font souvent pour prédire le prochain état d’un environnement, et les modèles de diffusion le font pour générer des images ou des vidéos via un code latent.

Cette approche peut réduire considérablement le calcul. Par exemple, une étude NeurIPS sur la diffusion latente pour la simulation physique a révélé qu’elle restait précise même avec des représentations d’état compressées 1000 fois. En prédisant dans l’espace latent, les systèmes d’IA peuvent simuler des processus complexes, tels que la dynamique d’une scène 3D ou le flux d’une vidéo, beaucoup plus efficacement que les méthodes pixel par pixel.

À partir de ces tendances, une conclusion est inéluctable. Qu’il s’agisse d’un agent autonome avec un modèle du monde appris ou d’un transformateur de diffusion générant un flux d’images vidéo, la charge de calcul est colossale. Les entraînements à grande échelle, les empreintes de mémoire énormes et les calculs matriciels rapides sont la norme. C’est là que la dernière génération de matériel d’IA entre en jeu et pourquoi nous sommes enthousiasmés par les nouveaux GPU qui ont été largement discutés à NeurIPS.

Mise à l’échelle avec les H200 et les B200 : pourquoi les GPU haut de gamme sont importants

Pour donner vie à des idées de recherche de pointe, les équipes d’IA doivent avoir accès à du matériel tout aussi avancé, comme les GPU NVIDIA H200 et B200. Ces GPU ont souvent été discutés dans les couloirs et les conférences de NeurIPS, car ils promettent de gérer les modèles et les ensembles de données toujours plus volumineux que les chercheurs créent.

Le H200 est le GPU le plus avancé de NVIDIA basé sur l’architecture Hopper et il suralimente les charges de travail génératives d’IA et de calcul haute performance en associant une mémoire ultra-rapide (HBM3E) à un débit plus élevé. Il offre 141 Go de mémoire HBM3E, soit près du double de la capacité de son prédécesseur H100, et 4,8 To par seconde de bande passante de mémoire, ce qui permet d’obtenir un débit d’inférence LLM jusqu’à deux fois plus rapide sur des modèles comme Llama 2 par rapport au H100.

Le B200 représente l’architecture Blackwell de nouvelle génération de NVIDIA. Chaque B200 dispose de 192 Go de HBM3E fonctionnant à 6,0 To par seconde et dispose d’interconnexions améliorées pour une communication GPU à GPU extrêmement rapide. Il est conçu pour gérer les plus grands modèles et les clusters à plusieurs nœuds.

Pour les types de recherche NeurIPS discutés, ce niveau de capacité matérielle peut faire la différence entre l’impossible et le réalisable. Un Blackwell B200 peut fournir jusqu’à trois fois la vitesse d’entraînement de certains grands modèles par rapport aux GPU de la génération précédente. Les H200 et les B200 peuvent être étendus à de nombreux GPU connectés par la structure InfiniBand ultra-rapide de NVIDIA pour encore plus de capacités.

Cependant, le simple fait de disposer de GPU de pointe ne suffit pas si seule une poignée de grandes entreprises technologiques peuvent y accéder. L’accessibilité du calcul haut de gamme est tout aussi cruciale. Les progrès de l’IA prospèrent lorsque des innovateurs tels que des entreprises en démarrage, des laboratoires universitaires et des organismes à but non lucratif peuvent expérimenter librement avec de grands modèles et de vastes ressources de calcul.

C’est précisément là que BUZZ Calcul haute performance intervient, en fournissant des ressources GPU de premier plan grâce à un modèle infonuagique qui combine une accessibilité inégalée et une souveraineté totale.

BUZZ HPC : un nuage d’IA souverain qui stimule l’innovation

BUZZ HPC est l’un des premiers fournisseurs à construire un nuage d’IA souverain au Canada avec toutes les infrastructures situées sur le sol canadien ou allié.

En partenariat avec des acteurs nationaux comme Bell, BUZZ HPC étend l’infrastructure d’IA avancée du Canada afin que les organisations puissent obtenir un accès sécurisé et à la demande à des clusters GPU à grande échelle situés entièrement dans des installations appartenant au Canada.

Cela signifie que les données restent sous la juridiction canadienne et répondent à des exigences strictes en matière de résidence et de confidentialité. Comme le souligne le président et chef de l’exploitation, Craig Tavares, « la souveraineté est la nouvelle norme pour l’informatique en nuage, et cette initiative marque le début d’une nouvelle ère pour l’innovation en IA au Canada ».

Le nuage de BUZZ HPC est conçu pour combiner la puissance brute de HPC avec la flexibilité et la facilité d’utilisation du nuage. Les utilisateurs peuvent lancer des plateformes H200 ou HGX B200 Blackwell interconnectées avec NVIDIA Quantum InfiniBand et NVLink. Les grappes peuvent être réservées pour de longs projets ou utilisées à la demande pour des expériences rapides. Les utilisateurs peuvent choisir le bare metal brut, un planificateur Slurm ou des flux de travail Kubernetes entièrement gérés.

BUZZ HPC fournit également des services de conseil haut de gamme pour les projets d’IA couvrant le développement de modèles personnalisés, l’entraînement évolutif, la génération augmentée par la récupération et les solutions d’IA agentique. Leur plateforme prend en charge le cycle de vie complet de l’IA avec une sécurité de niveau entreprise, des centres de données de niveau III+, des certifications ISO 27001 et SOC 2 et un chiffrement complet.

Supercalcul d’IA accessible en action

FirstPrinciples, un organisme de recherche canadien à but non lucratif, s’est récemment associé à BUZZ HPC pour créer un « physicien de l’IA » afin d’accélérer la découverte scientifique.

En tirant parti du nuage souverain de BUZZ HPC, ils peuvent accéder à des clusters GPU de classe mondiale à la demande sans frais informatiques lourds.

Les utilisateurs d’entreprise et universitaires en bénéficient également. La faculté de l’Université Columbia a signalé un accès garanti au calcul requis, et un autre client a réduit les coûts d’inférence de l’IA de sept fois.

BUZZ HPC optimise les charges de travail avec vLLM, PagedAttention et la compression de mémoire DF11 pour maximiser l’utilisation du GPU et réduire les coûts.

Conclusion : l’innovation en IA rencontre le calcul accessible

NeurIPS 2025 a donné un aperçu de l’avenir : des agents d’IA qui apprennent et imaginent des mondes, des modèles génératifs qui gèrent de multiples modalités et des percées en IA nécessitant un calcul massif.

Les GPU haut de gamme tels que le H200 et le B200 sont essentiels, mais les rendre accessibles via des plateformes comme BUZZ HPC est ce qui uniformise les règles du jeu.

🔗 Découvrez la puissance du calcul d’IA souverain et de niveau entreprise par vous-même sur buzzhpc.ai.