Alle Beiträge
7 Min. Lesezeit

Was ist Sprechererkennung (Diarization)? So unterscheidet KI Stimmen

Sie hören eine Aufnahme mit drei Personen. Für Sie als Mensch ist klar, wer gerade spricht – die Stimmen klingen unterschiedlich. Aber wie bringt man einem Computer bei, das Gleiche zu tun?

Die Antwort heißt Speaker Diarization – auf Deutsch Sprechererkennung oder Sprechertrennung. Diese Technologie analysiert eine Audio-Aufnahme und ordnet jede Passage dem richtigen Sprecher zu. Ohne sie wäre ein Transkript mit mehreren Personen eine einzige, unstrukturierte Textwand.

Sprechererkennung vs. Spracherkennung

Spracherkennung (ASR) wandelt gesprochene Sprache in Text um und beantwortet „Was wurde gesagt?". Sprechererkennung (Diarization) ordnet Audio-Segmente verschiedenen Personen zu und beantwortet „Wer hat es gesagt?". Erst die Kombination ergibt ein Transkript mit Sprecherzuordnung.

Zwei Begriffe, die oft verwechselt werden:

  • Spracherkennung (Speech-to-Text, ASR): Wandelt gesprochene Sprache in Text um. Beantwortet die Frage: Was wurde gesagt?
  • Sprechererkennung (Speaker Diarization): Ordnet Audio-Segmente verschiedenen Sprechern zu. Beantwortet die Frage: Wer hat es gesagt?

Erst die Kombination beider Technologien ergibt ein vollständiges Transkript mit Sprecherzuordnung – wie man es für Meeting-Protokolle, Interview-Transkripte oder Gerichtsverhandlungen braucht.

Wie funktioniert Diarization technisch?

Die KI erstellt für jedes Sprach-Segment einen mathematischen Stimmabdruck (Embedding) und gruppiert ähnliche Abdrücke per Clustering. Segmente derselben Gruppe stammen vom selben Sprecher. Der Prozess umfasst Vorverarbeitung, Sprachaktivitätserkennung, Merkmalsextraktion, Clustering und Beschriftung.

Die KI durchläuft mehrere Schritte, um Sprecher zu unterscheiden:

  • Vorverarbeitung: Hintergrundgeräusche werden reduziert, die Lautstärke normalisiert und stille Abschnitte identifiziert.
  • Sprachaktivitätserkennung (VAD): Das System erkennt, wo überhaupt gesprochen wird, und blendet Stille, Musik oder Geräusche aus.
  • Merkmalsextraktion: Für jedes Sprach-Segment erstellt die KI einen Stimmabdruck – einen mathematischen Vektor, der die einzigartigen Eigenschaften einer Stimme repräsentiert (Tonhöhe, Klangfarbe, Sprechrhythmus).
  • Clustering: Segmente mit ähnlichen Stimmabdrücken werden gruppiert. Jede Gruppe entspricht einem Sprecher.
  • Beschriftung: Die Gruppen werden mit Labels versehen – „Sprecher 1", „Sprecher 2" usw.

Typische Herausforderungen

Sprechererkennung ist kein gelöstes Problem. Diese Situationen sind für die KI besonders schwierig:

  • Überlappende Sprache: Wenn zwei Personen gleichzeitig sprechen, kann die KI die Stimmen nicht sauber trennen.
  • Ähnliche Stimmen: Personen gleichen Geschlechts und Alters mit ähnlichem Akzent sind schwerer zu unterscheiden.
  • Schlechte Aufnahmequalität: Hintergrundgeräusche, Hall oder schlechte Mikrofone reduzieren die Genauigkeit.
  • Kurze Äußerungen: Bei sehr kurzen Beiträgen hat die KI weniger Daten für den Stimmabdruck.

Wo wird Sprechererkennung eingesetzt?

  • Meeting-Protokolle: Automatische Zuordnung von Beiträgen zu Teilnehmern – unverzichtbar für automatische Protokollerstellung.
  • Interview-Transkription: Klare Trennung zwischen Interviewer und Befragtem.
  • Gerichtsverhandlungen: Dokumentation, wer welche Aussage gemacht hat.
  • Callcenter-Analysen: Trennung von Agent und Kunde für Qualitätsauswertungen.
  • Podcast-Produktion: Automatische Untertitel mit Sprecherzuordnung.

Tipps für bessere Ergebnisse

  • Verwenden Sie ein gutes Mikrofon und minimieren Sie Hintergrundgeräusche.
  • Bitten Sie die Teilnehmer, nicht durcheinander zu sprechen.
  • Nutzen Sie ein Tool mit Rauschunterdrückung, das die Audio-Qualität vor der Analyse verbessert.
  • Benennen Sie die Sprecher nach der Transkription um – die KI vergibt nur Nummern, nicht Namen.

Fazit

Sprechererkennung ist die Technologie, die aus einem rohen Audio-Transkript ein strukturiertes Dokument macht. Ohne sie wäre jedes Transkript mit mehreren Personen unbrauchbar. Die Kombination aus Spracherkennung, Diarization und manueller Nachbearbeitung liefert die besten Ergebnisse – schnell, genau und für jeden nachvollziehbar.