Google TurboQuant: LLM-Speicher 6x kleiner ohne Qualitätsverlust

Googles TurboQuant komprimiert den KV-Cache auf 3 Bit — 6x weniger Speicher, 8x schneller. Was das für LLM-Kosten und Inferenz bedeutet.
Google TurboQuant LLM Kompression Thumbnail

Google Research hat TurboQuant vorgestellt — einen Kompressionsalgorithmus, der den KV-Cache von Large Language Models auf 3 Bit quantisiert. Das Ergebnis: 6x weniger Speicherverbrauch und bis zu 8x schnellere Performance auf H100-GPUs. Ohne Fine-Tuning. Ohne Qualitätsverlust. Das Internet nennt es bereits „Pied Piper für AI“.

Was genau ist TurboQuant?

TurboQuant löst eines der teuersten Probleme beim Betrieb von LLMs: den KV-Cache. Bei jeder Inference-Anfrage speichert ein LLM Key-Value-Paare für alle bisherigen Tokens im Kontext. Bei Modellen mit 1M Token Context Window wird dieser Cache zum Speicherfresser.

TurboQuant komprimiert diese Daten mit zwei Methoden:

PolarQuant wandelt die Vektoren von kartesischen in Polarkoordinaten um. Die Winkelverteilung ist vorhersagbar und konzentriert — das eliminiert den Normalisierungsschritt und spart Overhead.

QJL (Quantized Johnson-Lindenstrauss) reduziert den Restfehler, indem es jeden verbleibenden Vektorwert auf ein einzelnes Vorzeichen-Bit komprimiert. Plus oder Minus. Mehr braucht es nicht.

Die Zahlen

Laut dem Google Research Blog sind die Ergebnisse beeindruckend:

  • 3-Bit Quantisierung des KV-Cache ohne Training oder Fine-Tuning
  • 6x Speicherreduktion gegenüber unkomprimiertem KV-Storage
  • 8x Performance-Steigerung bei 4-Bit TurboQuant auf H100-GPUs vs. 32-Bit
  • Keine messbare Qualitätseinbuße bei Standard-Benchmarks

Das Paper wird auf der ICLR 2026 präsentiert.

Warum das die AI-Industrie verändert

Die Kosten für LLM-Inferenz werden primär vom GPU-Speicher bestimmt. Wer den KV-Cache 6x kleiner macht, kann entweder:

  • 6x mehr Anfragen auf derselben Hardware verarbeiten
  • 6x längere Kontexte in denselben Speicher packen
  • Die Kosten um 50%+ senken — laut VentureBeat eine konservative Schätzung

Die Auswirkungen auf den Chip-Markt sind bereits spürbar. Laut CNBC sind die Aktien von Samsung und Micron nach der Ankündigung gefallen. Morgan Stanley sieht allerdings keinen Nachfragerückgang — TurboQuant führe eher zu intensiverer Nutzung als zu weniger Hardware-Bedarf.

Was Entwickler wissen müssen

TurboQuant ist kein abstraktes Research-Paper. Es hat direkte praktische Anwendungen:

  • Vector Search wird schneller — relevant für RAG-Pipelines und Embedding-Datenbanken
  • Longer Context Windows werden günstiger zu betreiben
  • Edge Deployment von LLMs auf Consumer-Hardware wird realistischer

TurboQuant lässt sich ohne Modell-Retraining auf bestehende LLMs anwenden. Die Integration in Frameworks wie vLLM und TensorRT-LLM ist absehbar.

Fazit

TurboQuant ist der bedeutendste Inferenz-Durchbruch seit FlashAttention. Google hat gezeigt, dass 3-Bit-Quantisierung ohne Qualitätsverlust möglich ist. Für jeden, der LLMs betreibt — ob als API-Anbieter, in der eigenen Infrastruktur oder auf Edge-Devices — wird TurboQuant die Kostenrechnung fundamental verändern.

Beitrag teilen:

Abonniere unseren Newsletter für mehr News