SERVICES DE CALCUL : SLURM GÉRÉ

Puissance CHP traditionnelle, entièrement gérée dans le nuage

Conservez vos scripts sbatch. Abandonnez l'entretien du groupe. BUZZ CHP héberge un environnement SLURM minimal mais solide comme le roc sur des GPU de premier plan, afin que les scientifiques et les ingénieurs puissent exécuter des tâches au lieu de réparer des nœuds.

Caractéristiques principales

SLURM en tant que service

Contrôleur + nœud de connexion préconfiguré; nœuds de calcul GPU inscrits via Ansible. SLURM 23.x CLI standard prêt à l'emploi.

Partitions GPU

Files d'attente pour les nœuds H100, B200 et A6000; planification équitable activée. Pas de remblayage ou de préemption au MVP.

Capacité élastique

Soumettez une demande et nous ajoutons ou supprimons des nœuds. Des heures, pas des semaines. Payez uniquement pour les GPU réservés.

Stockage partagé

Espace d'accueil/de projet NFS plus mémoire volatile express local de travail. Le système de fichiers parallèle et le stockage d'objets sont des éléments de la feuille de route.

Surveillance essentielle

Tableaux de bord Prometheus + Grafana; les opérations BUZZ reçoivent des alertes matérielles et échangent automatiquement les nœuds défaillants.

Sécurisé, locataire unique

Groupe isolé par VPN; séparation des utilisateurs/groupes Unix. Intégration d'identité facultative à venir.

Soutien d'experts

Vétérans CHP sur appel (9 × 5) avec escalade matérielle 24 × 7.

Pourquoi BUZZ CHP gère SLURM

Puissance Bare metal GPU brute, aucun entretien du planificateur et des personnes qui parlent couramment SLURM. C'est le chemin le plus court entre l'idée de recherche et les résultats, sans avoir besoin de construire un centre de données.

Cas d'utilisation
Recherche universitaire et industrielle
Transférez les charges de travail SLURM existantes vers des GPU plus rapides sans réécrire les scripts de tâches.
Entraînement d'IA à grande échelle
Planifier des tâches PyTorch multi-nœuds sous un système de traitement par lots familier.
Capacité CHP de rafale sur site
Gardez les groupes locaux petits; envoyez les débordements vers BUZZ lorsque la demande augmente.
Enseignement et ateliers
Fournissez un superordinateur GPU temporaire pour un cours ou un marathon de programmation, puis faites-le tourner.

Éliminez la complexité du CHP.

Faites fonctionner votre groupe SLURM sur des GPU de classe mondiale en quelques jours.