GPU-minne, inte FLOP, är det hårda taket för hur stor LLM man kan ladda och hur länge en kontext kan betjänas. BF16-modeller använder 16 bitar per vikt; det fördubblar fotavtrycket i förhållande till INT8-kvantor men bevarar träningstidens exakthet.DFloat 11 (DF11) komprimerar BF16 förlustfritt till ≈11 bitar genom Huffman-kodning av det glesa exponentfältet.
Resultat: ~30 % mindre fotavtryck vid körning, 100 % identiska utdata.

KV-cache vinner. Eftersom DF11 också komprimerar aktiveringar krymper varje tokens KV-poster med 30 %. På långa kontextarbetsbelastningar (chatthistorik, RAG, ERP-dokument) som översätts till +43 % kontextlängd innan tokens blir ogiltiga.
dfloat11.compress.py your_model_dir producerar en DF11 → .pt kompatibel med vLLM och TensorRT‑LLM.Kör Llama‑3‑70B‑Instruct på en enda H100‑80 GB med DF11 jämfört med dubbla H100 med BF16:

Årligen är det en besparing på över 47 000 dollar per replika före strömrabatter.
År 1865 observerade ekonomen William Stanley Jevons att teknisk effektivitet tenderar att öka den totala förbrukningen av en resurs – eftersom lägre kostnader låser upp nya användningsfall. BUZZ ser redan denna dynamik med DF11-piloter:
Att ta med sig: DF11 minskar enhetskostnaden, men den sammanlagda efterfrågan kommer sannolikt att överträffa besparingarna. BUZZ kommande datacenterutbyggnad – plus nytt H100/H200-lager – säkerställer att kapaciteten håller jämna steg med Jevons-kurvans uppgång.
Design för skala: behandla din DF11-migrering som steg 1. Steg 2 är automatisk skalningspolicy, placeringsgrupper och inter-GPU-hastighet (NVLink vs PCIe) så att du kan rida på efterfrågevågen utan flaskhalsar.