Gemini 3.1 Flash Live: Googles neues Voice-Modell mit nativer Audio-KI

Google hat Gemini 3.1 Flash Live veröffentlicht – ein Echtzeit-Voice-Modell mit nativer Audio-Verarbeitung, über 90 Sprachen und 90,8 % auf ComplexFuncBench Audio.
Illustration zu Gemini 3.1 Flash Live – Googles neues Voice-Modell mit nativer Audio-KI-Verarbeitung

Google hat am 26. März 2026 Gemini 3.1 Flash Live vorgestellt — ein multimodales Echtzeit-Modell mit nativer Audio-Verarbeitung. Das Modell treibt ab sofort Gemini Live und Search Live an und ist über die Gemini Live API in Google AI Studio für Entwickler verfügbar.

Was Gemini 3.1 Flash Live kann

Flash Live verarbeitet Audio, Bilder, Video und Text mit einem Context Window von 128K Token. Der Kern: native Audio-Verarbeitung. Das Modell erkennt akustische Nuancen wie Tonhöhe und Sprechtempo direkt, statt Audio erst in Text umzuwandeln.

Gegenüber dem Vorgänger Gemini 2.5 Flash Native Audio liefert Flash Live niedrigere Latenz und bessere Hintergrundgeräusch-Filterung. Google nennt konkret: Das Modell unterscheidet relevante Sprache von Umgebungsgeräuschen wie Verkehr oder Fernsehton. In Gemini Live auf Android und iOS reagiert es schneller, mit weniger Pausen, und hält den Gesprächsfaden doppelt so lang wie zuvor.

Auf ComplexFuncBench Audio — einem Benchmark für mehrstufige Funktionsaufrufe mit verschiedenen Einschränkungen — erreicht Flash Live 90,8 %. Das ist der aktuelle Bestwert.

Verfügbarkeit und Sprachen

Flash Live unterstützt über 90 Sprachen für Echtzeit-Gespräche. Gemini Live ist damit in über 200 Ländern nutzbar. Entwickler greifen über die Gemini Live API in Google AI Studio auf das Modell zu — zunächst als Preview.

Search Live, Googles sprachgesteuertes Suchtool, wechselt ebenfalls auf Flash Live als Backend. Nutzer in Japan und weiteren Märkten erhalten die Funktion ab sofort.

Was sich für Entwickler ändert

Flash Live zielt auf drei Anwendungsbereiche: Voice-Assistenten, Echtzeit-Übersetzung und Tool-gestützte Agenten. Der hohe ComplexFuncBench-Score zeigt, dass das Modell mehrstufige Funktionsaufrufe zuverlässig über Sprachbefehle verarbeitet — relevant für jeden, der Voice-Interfaces mit API-Calls verbindet.

Für App-Entwickler im deutschsprachigen Raum: Deutsch gehört zu den unterstützten Sprachen. Die API ist über Google AI Studio zugänglich, erfordert aber derzeit noch eine Preview-Anmeldung.

Googles Voice-Strategie

Google setzt mit Flash Live ein klares Signal: Sprach-KI soll keine aufgesetzte Schicht mehr sein, sondern nativ im Modell stecken. Der Schritt von Transkription-zuerst zu nativer Audio-Verarbeitung reduziert Latenz und verbessert das Verständnis von Kontext, Ton und Absicht.

OpenAI verfolgt mit GPT-5.4 einen ähnlichen Ansatz. Anthropic hat bisher kein vergleichbares Voice-Modell veröffentlicht. Google liegt in der Breite der Sprachunterstützung (90+) vorne.

Quelle: Google Blog — Gemini 3.1 Flash Live

Quelle: 9to5Google — Gemini Live Upgrade

Beitrag teilen:

Abonniere unseren Newsletter für mehr News