SERVICIOS DE COMPUTACIÓN: SLURM GESTIONADO

Potencia HPC tradicional, totalmente gestionada en la nube

Conserve sus scripts sbatch. Olvídate del mantenimiento del clúster. BUZZ HPC aloja un entorno SLURM mínimo pero sólido como una roca en GPU de primer nivel, para que los científicos e ingenieros puedan ejecutar trabajos en lugar de arreglar nodos.

Características principales

SLURM como servicio

Controlador + nodo de inicio de sesión preconfigurado; nodos de cálculo de GPU registrados a través de Ansible. SLURM 23.x CLI estándar listo para usar.

Particiones de GPU

Colas para nodos H100, B200 y A6000; programación de reparto justo habilitada. Sin relleno ni preferencia en MVP.

Capacidad elástica

Envía una solicitud y añadiremos o eliminaremos nodos. Horas, no semanas. Paga solo por las GPU reservadas.

Almacenamiento compartido

Espacio de inicio/proyecto NFS más scratch NVMe local. El sistema de archivos paralelo y el almacenamiento de objetos son elementos de la hoja de ruta.

Monitorización esencial

Paneles de control de Prometheus + Grafana; las operaciones de BUZZ reciben alertas de hardware e intercambian nodos defectuosos automáticamente.

Seguro, inquilino único

Clúster aislado por VPN; separación de usuarios/grupos de Unix. Próximamente, integración de identidad opcional.

Asistencia de expertos

Veteranos de HPC de guardia (9 × 5) con escalamiento de hardware 24 × 7.

Por qué BUZZ HPC SLURM gestionado

Potencia de GPU sin sistema operativo, sin mantenimiento del programador y personas que hablan SLURM con fluidez. Es el camino más corto desde la idea de investigación hasta los resultados, sin necesidad de construir un centro de datos.

Casos prácticos
Investigación universitaria e industrial
Transfiera las cargas de trabajo SLURM existentes a GPU más rápidas sin necesidad de reescribir los scripts de trabajo.
Entrenamiento de IA a gran escala
Programe trabajos de PyTorch de varios nodos en un sistema por lotes conocido.
Capacidad de ráfaga para HPC local
Mantenga los clústeres locales pequeños; desborde a BUZZ cuando la demanda aumente.
Enseñanza y talleres
Proporcione un superordenador GPU temporal para un curso o hackathon y, a continuación, desactívelo.

Elimine la complejidad de la HPC.

Consiga que su clúster SLURM se ejecute en GPU de primera categoría en cuestión de días.