La memoria de la GPU, y no los FLOP, es el límite máximo de tamaño de un LLM que se puede cargar y la duración del contexto que se puede ofrecer. Los modelos BF16 utilizan 16 bits por peso, lo que duplica el espacio ocupado en comparación con la cuantificación INT8, pero conserva la fidelidad del tiempo de entrenamiento. DFloat 11 (DF11) comprime el BF16 sin pérdidas a ≈11 bits mediante la codificación de Huffman del campo del exponente disperso.
Resultado: huellas un 30 % más pequeñas aproximadamente en el tiempo de ejecución y resultados 100 % idénticos.

La caché KV gana. Debido a que el DF11 también comprime las activaciones, las entradas KV de cada token se reducen en un 30 %. En cargas de trabajo de contexto largo (historial de chat, RAG y documentos ERP), eso se traduce en un 43 % más de longitud de contexto antes de expulsar los tókenes.
dfloat11.compress.py your_model_dir produce un DF11 → .pt compatible con vLLM y TensorRT‑LLM.Ejecutar Llama‑3‑70B‑Instruct en un solo H100 de 80 GB con el DF11 frente a dos H100 con BF16:

Anualizado, eso supone un ahorro de más de 47 000 dólares por réplica antes de los reembolsos de energía.
En 1865, el economista William Stanley Jevons observó que las eficiencias técnicas tienden a aumentar el consumo general de un recurso, porque un coste más bajo posibilita nuevos casos de uso. BUZZ ya ve esta dinámica con los pilotos DF11:
Conclusión: el DF11 reduce el coste unitario, pero la demanda agregada probablemente superará el ahorro. La próxima expansión del centro de datos de BUZZ, además del nuevo inventario H100/H200, garantiza que la capacidad siga el ritmo del repunte de la curva de Jevons.
Diseño para escalar: trata tu migración a DF11 como el paso 1. El paso 2 es la política de escalado automático, los grupos de ubicación y la velocidad de la GPU (NVLink frente a PCIe) para que puedas aprovechar la oleada de demanda sin cuellos de botella.