La mémoire GPU, plutôt que les FLOPs, fixe le plafond strict de la taille des LLM chargeables et de la longueur de contexte pouvant être prise en charge. Les modèles BF16 utilisent 16 bits par poids, ce qui double l’empreinte par rapport aux quants INT8, tout en conservant la fidélité du modèle à l’entraînement. DFloat 11 (DF11) permet une compression sans perte du BF16 à environ 11 bits grâce à un codage de Huffman du champ d’exposant peu dense.
Résultat : ~30 % d’empreintes plus petites au moment de l’exécution, 100 % de sorties identiques.

Le KV-cache l’emporte. Comme DF11 compresse également les activations, les entrées KV de chaque jeton sont réduites de 30 %. Sur les charges de travail de contexte long (historique de chat, RAG, documents ERP), cela se traduit par une longueur de contexte de +43 % avant d’expulser les jetons.
dfloat11.compress.py your_model_dir permet de produire un modèle DF11 au format .pt, compatible avec vLLM et TensorRT-LLM.Exécution de Llama‑3‑70B‑Instruct sur un seul H100‑80 Go avec DF11 par rapport à deux H100 avec BF16 :

Annualisé, cela représente des économies de plus de 47 000 $par réplique avant les rabais d’alimentation.
En 1865, l’économiste William Stanley Jevons a observé que les gains d’efficacité techniques ont tendance à augmenter la consommation globale d’une ressource, parce que la baisse des coûts débloque de nouveaux cas d’utilisation. BUZZ voit déjà cette dynamique avec les pilotes DF11 :
À retenir : DF11 réduit fortement le coût unitaire, mais la demande globale dépassera probablement les gains réalisés. L’extension prochaine des centres de données de BUZZ — combinée à de nouveaux stocks de H100/H200 — garantit que les capacités suivront la hausse induite par la courbe de Jevons.
Conception pour l’échelle : traitez votre migration DF11 comme l’étape 1. L’étape 2 est la politique de mise à l’échelle automatique, les groupes de placement et la vitesse inter-GPU (NVLink vs PCIe) afin que vous puissiez surfer sur la vague de la demande sans goulots d’étranglement.