Allgemein

Google TurboQuant: LLM-Speicher 6x kleiner ohne Qualitätsverlust

Googles TurboQuant komprimiert den KV-Cache auf 3 Bit — 6x weniger Speicher, 8x schneller. Was das für LLM-Kosten und Inferenz bedeutet.

Google Research hat TurboQuant vorgestellt — einen Kompressionsalgorithmus, der den KV-Cache von Large Language Models auf 3 Bit quantisiert. Das Ergebnis: 6x weniger Speicherverbrauch und bis zu 8x schnellere Performance auf H100-GPUs. Ohne Fine-Tuning. Ohne Qualitätsverlust. Das Internet nennt es bereits „Pied Piper für AI“.

Was genau ist TurboQuant?

Inhaltsangabe

TurboQuant löst eines der teuersten Probleme beim Betrieb von LLMs: den KV-Cache. Bei jeder Inference-Anfrage speichert ein LLM Key-Value-Paare für alle bisherigen Tokens im Kontext. Bei Modellen mit 1M Token Context Window wird dieser Cache zum Speicherfresser.

TurboQuant komprimiert diese Daten mit zwei Methoden:

PolarQuant wandelt die Vektoren von kartesischen in Polarkoordinaten um. Die Winkelverteilung ist vorhersagbar und konzentriert — das eliminiert den Normalisierungsschritt und spart Overhead.

QJL (Quantized Johnson-Lindenstrauss) reduziert den Restfehler, indem es jeden verbleibenden Vektorwert auf ein einzelnes Vorzeichen-Bit komprimiert. Plus oder Minus. Mehr braucht es nicht.

Die Zahlen

Laut dem Google Research Blog sind die Ergebnisse beeindruckend:

3-Bit Quantisierung des KV-Cache ohne Training oder Fine-Tuning
6x Speicherreduktion gegenüber unkomprimiertem KV-Storage
8x Performance-Steigerung bei 4-Bit TurboQuant auf H100-GPUs vs. 32-Bit
Keine messbare Qualitätseinbuße bei Standard-Benchmarks

Das Paper wird auf der ICLR 2026 präsentiert.

Warum das die AI-Industrie verändert

Die Kosten für LLM-Inferenz werden primär vom GPU-Speicher bestimmt. Wer den KV-Cache 6x kleiner macht, kann entweder:

6x mehr Anfragen auf derselben Hardware verarbeiten
6x längere Kontexte in denselben Speicher packen
Die Kosten um 50%+ senken — laut VentureBeat eine konservative Schätzung

Die Auswirkungen auf den Chip-Markt sind bereits spürbar. Laut CNBC sind die Aktien von Samsung und Micron nach der Ankündigung gefallen. Morgan Stanley sieht allerdings keinen Nachfragerückgang — TurboQuant führe eher zu intensiverer Nutzung als zu weniger Hardware-Bedarf.

Was Entwickler wissen müssen

TurboQuant ist kein abstraktes Research-Paper. Es hat direkte praktische Anwendungen:

Vector Search wird schneller — relevant für RAG-Pipelines und Embedding-Datenbanken
Longer Context Windows werden günstiger zu betreiben
Edge Deployment von LLMs auf Consumer-Hardware wird realistischer

TurboQuant lässt sich ohne Modell-Retraining auf bestehende LLMs anwenden. Die Integration in Frameworks wie vLLM und TensorRT-LLM ist absehbar.

Fazit

TurboQuant ist der bedeutendste Inferenz-Durchbruch seit FlashAttention. Google hat gezeigt, dass 3-Bit-Quantisierung ohne Qualitätsverlust möglich ist. Für jeden, der LLMs betreibt — ob als API-Anbieter, in der eigenen Infrastruktur oder auf Edge-Devices — wird TurboQuant die Kostenrechnung fundamental verändern.