Werbung



TellerrandNews

Gemini 2.5: Google erweitert Audio-Funktionen seiner KI-Plattform

Gemini AI Google Gemini Gemini Live Google Gemini NotebookLM Plus Gemini 2.5 Pro Gemini iPhone Integration Veo3

Werbung

Werbung



Google stellt mit Gemini 2.5 die neueste Version seiner KI-Plattform vor. Im Fokus stehen Fortschritte in der Verarbeitung und Generierung von Audioinhalten. Die multimodale KI versteht nicht nur Text und Bilder, sondern auch Audio, Video und Code. Mit einer Reihe neuer Funktionen bietet Gemini 2.5 spannende Möglichkeiten für Entwickler:innen und Anwender:innen.

Echtzeit-Gespräche und Sprachmischung

Mit der neuen Echtzeit-Audio-Konversation hebt Google die Interaktion auf ein neues Niveau. Gemini 2.5 erkennt Tonfall, Akzente und sogar nicht-sprachliche Äußerungen wie Lachen oder Pausen. Dadurch entstehen flüssige, natürliche Gespräche, trotz niedriger Latenzzeiten. Die KI unterstützt über 24 Sprachen und erlaubt es Nutzer:innen, diese innerhalb eines Gesprächs zu mischen. Das Ergebnis ist eine flexible und anpassungsfähige Kommunikation.

Verbesserte Text-to-Speech-Technologie

Google hat die Text-to-Speech-Funktionen weiter optimiert. Nutzer:innen können den generierten Audio-Content präzise anpassen – von emotionalem Ausdruck bis zu spezifischen Akzenten. Eine weitere Innovation ist die Fähigkeit, Zwei-Personen-Dialoge zu erstellen. Damit eignet sich die Technologie besonders für die Produktion von Inhalten wie Podcasts oder Hörbüchern. Entwickler:innen können diese Funktionen über die Gemini API in Google AI Studio oder Vertex AI integrieren.

Für Sicherheit sorgt die Wasserzeichen-Technologie SynthID. Alle KI-generierten Audioinhalte werden damit eindeutig markiert, um sie als künstlich zu kennzeichnen. Google betont, dass diese Maßnahme ein zentraler Bestandteil der Entwicklungsarbeit war.

Praktische Anwendungen und Varianten

Die neuen Audio-Funktionen finden bereits Anwendung in Projekten wie NotebookLM’s Audio Overviews oder Project Astra. Gemini 2.5 erkennt auch Hintergrundgeräusche, filtert sie und entscheidet, wann Schweigen angebracht ist – eine besonders nützliche Funktion in Gruppensituationen. Nutzer:innen können zwischen zwei Varianten wählen:

  • Gemini 2.5 Pro Preview: Für hochqualitative, komplexe Anwendungen.
  • Gemini 2.5 Flash Preview: Für alltägliche, kostengünstigere Aufgaben.

Die Audio-Funktionen stehen ab sofort zur Verfügung. Entwickler:innen können sie direkt im Stream-Tab von Google AI Studio testen.

Via Anbieter

Werbung



Tags: KI, Vertex AI, multimodale KI, SynthID, Gemini 2.5, Audio-Verarbeitung, Text-to-Speech, Google AI Studio, künstliche Intelligenz, Google

Ähnliche Artikel

Werbung



Einkaufstipps
Beliebte Artikel

Werbung