NeurIPS 2025 (la 39.ª conferencia anual de Sistemas de Procesamiento de Información Neural) mostró un cambio fundamental en las tendencias de la investigación en la IA. Si bien los grandes modelos de lenguaje (LLM) todavía ocupaban un lugar destacado, muchos investigadores centraron su atención en los agentes de IA y los modelos de mundo, así como en los modelos generativos de última generación, como los transformadores de difusión para imágenes y vídeo.
Estos avances señalan un cambio desde la ampliación pura y dura de los LLM hacia sistemas de IA que pueden comprender y simular el mundo que los rodea, una capacidad que requiere un tremendo poder computacional. La conferencia subrayó cómo el acceso a la informática de gama alta (GPU como H200 y Blackwell B200 de NVIDIA) es fundamental para convertir estas ambiciosas ideas en realidad.
En esta publicación, resumimos los aspectos más destacados de NeurIPS en torno a los agentes de IA y los modelos de mundo y exploramos por qué las GPU de vanguardia y la infraestructura en la nube adecuada son tan esenciales para estos avances. También ilustramos cómo la neonube soberana canadiense deBUZZ HPC, con sus clústeres de GPU de gama alta y sus avanzados servicios de IA, está capacitando a los investigadores y a las organizaciones para aprovechar esta nueva oleada de innovación.
Un tema clave en NeurIPS 2025 fue el resurgimiento del interés por los modelos de mundo. Los definimos como sistemas de IA que aprenden un modelo interno del entorno para predecir y planificar los resultados. De hecho, se dedicó todo un taller a los modelos de mundo incorporados para la toma de decisiones, en el que se hizo hincapié en que los modelos de mundo se han convertido en una piedra angular de la IA incorporada y están impulsando los recientes avances en la toma de decisiones y la planificación de los agentes autónomos.
Al aprender una rica representación del mundo, ya sea un entorno físico o un dominio de tareas abstracto, un agente de IA puede simular posibles futuros, razonar sobre las consecuencias y tomar mejores decisiones. Esto muestra que el campo se está desplazando hacia la interacción dirigida a objetivos tanto en el mundo físico como en el simulado.
Incluso figuras legendarias de la IA se hicieron eco de este cambio. En NeurIPS, el pionero del aprendizaje mediante refuerzo (RL), Richard Sutton, argumentó que el campo necesita volver a los agentes de aprendizaje que construyen modelos de mundo y aprenden continuamente, y sugirió que la fijación de los últimos años en datos masivos y modelos estáticos podría haber perdido de vista estas ideas fundamentales. Su llamada a la acción subraya el deseo de la comunidad de dotar a los agentes de IA de una mayor autonomía cognitiva. Lo definimos como la capacidad de explorar, recordar y adaptarse como lo haría un humano o un animal en su entorno. Los modelos de mundo se consideran un ingrediente clave para lograr esto permitiendo a los agentes internalizar cómo funciona el mundo y luego planificar o improvisar dentro de él.
Algunas de las mejores investigaciones de NeurIPS abordaron áreas relacionadas. Uno de los mejores artículos de Wang et al. demostró que llevar la profundidad de la red neuronal a escalas extremas (por ejemplo, 1000 capas) permite aprovechar nuevas capacidades en los agentes de aprendizaje por refuerzo, lo que les permite aprender a alcanzar objetivos sin ninguna recompensa o demostración. Los modelos más grandes y los modelos de mundo podrían producir avances en el comportamiento de los agentes si se tienen los recursos informáticos para entrenar redes tan profundas.
Otro artículo finalista examinó críticamente el ajuste de los LLM con aprendizaje mediante refuerzo, y descubrió que los métodos actuales no producían habilidades de razonamiento fundamentalmente nuevas más allá del modelo base. No basta con añadir el RL a un LLM. Se necesitan innovaciones más profundas, tal vez un razonamiento basado en modelos de mundo o nuevas arquitecturas, para dar a los agentes de IA habilidades cognitivas verdaderamente nuevas.
En general, NeurIPS 2025 mostró claramente que los agentes de IA son un tema candente una vez más. Los investigadores están ofreciendo a los agentes modelos de mundo, memoria y capacidad de planificación. Los primeros ejemplos incluyen arquitecturas que integran el razonamiento simbólico o las mentes duales para la imaginación a largo plazo, y enfoques como EDELINE, un modelo de mundo unificado que combina inteligentemente modelos de espacio de estados con modelos generativos de difusión.
Al integrar la predicción basada en la difusión en un modelo de mundo, EDELINE puede modelar mejor entornos complejos y estocásticos en un espacio latente aprendido. Estos híbridos que combinan modelos de mundo con componentes de difusión o transformadores muestran cómo los límites entre los tipos de modelos se están difuminando para crear agentes que entienden y crean dentro de sus entornos.
Otra tendencia importante en NeurIPS 2025 fue el florecimiento de los modelos de difusión y los transformadores generativos, especialmente para elementos enriquecidos, como las imágenes y los vídeos. Los modelos de difusión han conquistado el mundo del aprendizaje automático en los últimos años para la generación de imágenes, y NeurIPS reconoció su impacto.
Uno de los premios al mejor artículo de la conferencia fue para un análisis teórico titulado Por qué los modelos de difusión no memorizan, que investigó cómo la dinámica de entrenamiento de los modelos de difusión evita el ajuste excesivo y permite la generalización.
Los investigadores también están haciendo que los modelos de difusión aborden nuevos dominios y sean más eficientes. Varios artículos y demostraciones de NeurIPS abordaron los modelos de difusión de vídeo, que utilizan difusiones basadas en transformadores para generar vídeos o predecir futuros fotogramas en una secuencia.
Una demostración de Qualcomm mostró transformadores de difusión de vídeo móvil que se ejecutaban en una NPU de teléfono inteligente después de aplicar una gran destilación y optimización del modelo. Lograr 49 fotogramas de vídeo de alta resolución en menos de 8 segundos en un teléfono fue una hazaña asombrosa, pero también muestra lo intensivos que son los modelos base desde el punto de vista computacional. La demostración describió la poda y la compresión de un modelo de difusión gigante para que quepa en un dispositivo móvil. Entrenar los modelos DiT (transformador de difusión) originales y muchos otros modelos de generación de vídeo de NeurIPS habría requerido una computación masiva de la GPU para gestionar secuencias de miles de tókenes o píxeles.
La expectación en torno a los modelos generativos latentes también era alta. Muchos trabajos impresionantes utilizan la predicción del espacio latente, que implica aprender una representación comprimida de la realidad y luego predecir cómo evoluciona ese estado latente. Los modelos de mundo a menudo hacen esto para predecir el siguiente estado de un entorno, y los modelos de difusión lo hacen para generar imágenes o vídeos a través de un código latente.
Este enfoque puede reducir drásticamente la computación. Por ejemplo, un estudio de NeurIPS sobre la difusión latente para la simulación física descubrió que seguía siendo preciso, incluso con representaciones de estado comprimidas 1000 veces. Al predecir en el espacio latente, los sistemas de IA pueden simular procesos complejos, como la dinámica de una escena en 3D o el flujo de un vídeo, de una manera mucho más eficiente que los métodos píxel por píxel.
A partir de estas tendencias, una conclusión es ineludible. Ya sea un agente autónomo con un modelo de mundo aprendido o un transformador de difusión que genera un flujo de fotogramas de vídeo, la carga computacional es colosal. Las ejecuciones de entrenamientos a gran escala, las enormes huellas de memoria y las matemáticas de matriz rápida son la norma. Aquí es donde entra en juego la última generación de hardware de IA y por qué nos entusiasman las nuevas GPU de las que se habló ampliamente en NeurIPS.
Para dar vida a las ideas de investigación de vanguardia, los equipos de IA necesitan acceso a un hardware igualmente avanzado, como las GPU de NVIDIA H200 y B200. Estas GPU se trataron con frecuencia en los pasillos y en las charlas de NeurIPS, ya que prometen gestionar los modelos y los conjuntos de datos cada vez mayores que están creando los investigadores.
La H200 es la GPU más avanzada de NVIDIA basada en la arquitectura Hopper y potencia las cargas de trabajo generativas de la IA y la HPC al combinar una memoria ultrarrápida (HBM3E) con un mayor rendimiento. Ofrece 141 GB de memoria HBM3E, casi el doble de la capacidad de su predecesor, la H100, y 4,8 TB por segundo de ancho de banda de memoria, lo que produce un rendimiento de inferencia de LLM hasta 2 veces más rápido en modelos como el Llama 2 en comparación con la H100.
La B200 representa la arquitectura Blackwell de próxima generación de NVIDIA. Cada B200 tiene 192 GB de HBM3E que funcionan a 6,0 TB por segundo y cuenta con interconexiones mejoradas para ofrecer una comunicación extremadamente rápida de GPU a GPU. Está diseñada para gestionar los modelos más grandes y los clústeres multinodo.
Para los tipos de investigación de NeurIPS comentados, este nivel de capacidad de hardware puede marcar la diferencia entre lo imposible y lo alcanzable. Una Blackwell B200 puede proporcionar hasta tres veces la velocidad de entrenamiento de ciertos modelos grandes en comparación con las GPU de la generación anterior. Tanto las H200 como las B200 se pueden ampliar a muchas GPU conectadas por la estructura InfiniBand ultrarrápida de NVIDIA para obtener aún más capacidad.
Sin embargo, el mero hecho de disponer de GPU de última generación no es suficiente si solo un puñado de grandes empresas tecnológicas pueden acceder a ellas. La accesibilidad de la computación de gama alta es igualmente crucial. El progreso de la IA prospera cuando los innovadores, como las empresas emergentes, los laboratorios académicos y las organizaciones sin ánimo de lucro, pueden experimentar libremente con modelos grandes y vastos recursos informáticos.
Aquí es precisamente donde entra en juego BUZZ High Performance Computing, que ofrece recursos de GPU de primer nivel a través de un modelo en la nube que combina una accesibilidad inigualable con una soberanía total.
BUZZ HPC es uno de los primeros proveedores que construye una nube de IA soberana en Canadá con toda la infraestructura ubicada en suelo canadiense o aliado.
En asociación con actores nacionales, como Bell, BUZZ HPC está ampliando la infraestructura avanzada de IA de Canadá para que las organizaciones puedan obtener un acceso seguro y bajo demanda a clústeres de GPU a gran escala ubicados íntegramente en instalaciones de propiedad canadiense.
Esto significa que los datos permanecen bajo jurisdicción canadiense y cumplen estrictos requisitos de residencia y privacidad. Como subraya el presidente y director de Operaciones, Craig Tavares, hace hincapié en que «la soberanía es el nuevo estándar para la computación en la nube y esta iniciativa marca el comienzo de una nueva era para la innovación en IA en Canadá».
La nube de BUZZ HPC está diseñada para combinar la potencia bruta de la HPC con la flexibilidad y la facilidad de uso de la nube. Los usuarios pueden lanzar las plataformas H200 o HGX B200 Blackwell interconectadas con NVIDIA Quantum InfiniBand y NVLink. Los clústeres se pueden reservar para proyectos largos o utilizarse bajo demanda para experimentos rápidos. Los usuarios pueden elegir «bare metal» en bruto, un programador Slurm o flujos de trabajo de Kubernetes totalmente gestionados.
BUZZ HPC también ofrece servicios de asesoramiento de guante blanco para proyectos de IA que abarcan el desarrollo de modelos personalizados, la formación escalable, la generación aumentada por recuperación y las soluciones de IA agentiva. Su plataforma admite el ciclo de vida completo de la IA con una seguridad de nivel empresarial, centros de datos de nivel III+, certificaciones ISO 27001 y SOC 2 y cifrado de pila completa.
FirstPrinciples, una organización de investigación canadiense sin ánimo de lucro, se ha asociado recientemente con BUZZ HPC para crear un «físico de IA» que acelere los descubrimientos científicos.
Al aprovechar la nube soberana de BUZZ HPC, pueden acceder a clústeres de GPU de primera categoría bajo demanda sin grandes gastos de TI.
Los usuarios empresariales y académicos también se benefician. El profesorado de la Universidad de Columbia informó de que se garantizaba el acceso a la computación necesaria, y otro cliente redujo siete veces los costes de inferencia de la IA.
BUZZ HPC optimiza las cargas de trabajo con vLLM, PagedAttention y la compresión de memoria de DF11 para maximizar la utilización de la GPU y reducir los costes.
NeurIPS 2025 ofreció una visión del futuro: agentes de IA que aprenden e imaginan mundos, modelos generativos que manejan múltiples modalidades y avances en IA que requieren una computación masiva.
Las GPU de gama alta, como la H200 y la B200, son esenciales, pero hacerlas accesibles a través de plataformas como BUZZ HPC es lo que nivela el campo de juego.
🔗 Descubre el poder de la computación de IA soberana y de nivel empresarial en buzzhpc.ai.