Google hat am 26. März 2026 Gemini 3.1 Flash Live vorgestellt — ein multimodales Echtzeit-Modell mit nativer Audio-Verarbeitung. Das Modell treibt ab sofort Gemini Live und Search Live an und ist über die Gemini Live API in Google AI Studio für Entwickler verfügbar.
Was Gemini 3.1 Flash Live kann
Inhaltsangabe
ToggleFlash Live verarbeitet Audio, Bilder, Video und Text mit einem Context Window von 128K Token. Der Kern: native Audio-Verarbeitung. Das Modell erkennt akustische Nuancen wie Tonhöhe und Sprechtempo direkt, statt Audio erst in Text umzuwandeln.
Gegenüber dem Vorgänger Gemini 2.5 Flash Native Audio liefert Flash Live niedrigere Latenz und bessere Hintergrundgeräusch-Filterung. Google nennt konkret: Das Modell unterscheidet relevante Sprache von Umgebungsgeräuschen wie Verkehr oder Fernsehton. In Gemini Live auf Android und iOS reagiert es schneller, mit weniger Pausen, und hält den Gesprächsfaden doppelt so lang wie zuvor.
Auf ComplexFuncBench Audio — einem Benchmark für mehrstufige Funktionsaufrufe mit verschiedenen Einschränkungen — erreicht Flash Live 90,8 %. Das ist der aktuelle Bestwert.
Verfügbarkeit und Sprachen
Flash Live unterstützt über 90 Sprachen für Echtzeit-Gespräche. Gemini Live ist damit in über 200 Ländern nutzbar. Entwickler greifen über die Gemini Live API in Google AI Studio auf das Modell zu — zunächst als Preview.
Search Live, Googles sprachgesteuertes Suchtool, wechselt ebenfalls auf Flash Live als Backend. Nutzer in Japan und weiteren Märkten erhalten die Funktion ab sofort.
Was sich für Entwickler ändert
Flash Live zielt auf drei Anwendungsbereiche: Voice-Assistenten, Echtzeit-Übersetzung und Tool-gestützte Agenten. Der hohe ComplexFuncBench-Score zeigt, dass das Modell mehrstufige Funktionsaufrufe zuverlässig über Sprachbefehle verarbeitet — relevant für jeden, der Voice-Interfaces mit API-Calls verbindet.
Für App-Entwickler im deutschsprachigen Raum: Deutsch gehört zu den unterstützten Sprachen. Die API ist über Google AI Studio zugänglich, erfordert aber derzeit noch eine Preview-Anmeldung.
Googles Voice-Strategie
Google setzt mit Flash Live ein klares Signal: Sprach-KI soll keine aufgesetzte Schicht mehr sein, sondern nativ im Modell stecken. Der Schritt von Transkription-zuerst zu nativer Audio-Verarbeitung reduziert Latenz und verbessert das Verständnis von Kontext, Ton und Absicht.
OpenAI verfolgt mit GPT-5.4 einen ähnlichen Ansatz. Anthropic hat bisher kein vergleichbares Voice-Modell veröffentlicht. Google liegt in der Breite der Sprachunterstützung (90+) vorne.


