6. April 20269 Min. Lesezeit

Unterstützte Dateiformate: Welche Audio- und Videodateien Sie transkribieren können

Eine der häufigsten Fragen vor dem ersten Upload: „Wird mein Dateiformat unterstützt?“ Die kurze Antwort: Mit sehr hoher Wahrscheinlichkeit ja. scryp akzeptiert über 50 Audioformate und über 50 Videoformate – von gängigen Standards wie MP3 und MP4 bis hin zu professionellen Formaten wie FLAC, AC3 oder MKV. Dieser Artikel listet alle unterstützten Formate auf, erklärt, wie die automatische Konvertierung funktioniert, und worauf Sie bei der Aufnahmequalität achten sollten.

Warum so viele Formate? Die Konvertierungs-Engine von scryp

scryp verfügt über eine eigene Konvertierungs-Engine, die praktisch jedes gängige Audio- und Videoformat verarbeiten kann. Jede hochgeladene Datei wird vor der Transkription automatisch in ein optimiertes Format konvertiert – unabhängig vom Ausgangsformat.

Der Ablauf im Detail: Sie laden eine Datei in einem beliebigen unterstützten Format hoch. Unsere Engine extrahiert automatisch die Audiospur (bei Videos wird die Bildspur verworfen) und konvertiert sie in ein standardisiertes WAV-Format mit 16 kHz Abtastrate und Mono-Kanal. Dieses Format ist optimal für die KI-Spracherkennung. Sie müssen sich also nie Gedanken über Codecs, Abtastraten oder Kanalanzahl machen – das passiert vollautomatisch.

Unterstützte Audioformate (50+)

Die folgende Liste zeigt die gängigsten Audioformate, die scryp direkt akzeptiert. Wenn Ihr Format hier steht, können Sie die Datei ohne Vorbereitung hochladen:

MP3 (.mp3) – Das meistverbreitete Audioformat. Komprimiert, gute Balance zwischen Dateigröße und Qualität. Ideal für Aufnahmen von Smartphones und Diktiergeräten.
WAV (.wav) – Unkomprimiertes Format mit voller Audioqualität. Standard in der professionellen Audioproduktion. Größere Dateien, aber beste Transkriptionsgenauigkeit.
M4A / AAC (.m4a, .aac) – Apples Standard-Audioformat. Wird von iPhones, iPads und macOS verwendet. Bessere Qualität als MP3 bei gleicher Dateigröße.
OGG / Vorbis (.ogg, .oga) – Open-Source-Format mit guter Kompression. Verbreitet auf Linux-Systemen und in Web-Anwendungen.
FLAC (.flac) – Verlustfrei komprimiertes Format. Volle Audioqualität bei etwa 50–60 % der WAV-Dateigröße. Beliebt bei Audiophilen und in der Musikproduktion.
Opus (.opus) – Moderner Codec mit hervorragender Qualität bei niedrigen Bitraten. Standard für VoIP und WebRTC – wird von Browsern bei Audioaufnahmen häufig verwendet.
AIFF (.aiff, .aif) – Apples unkomprimiertes Audioformat. Äquivalent zu WAV in der macOS-Welt. Standard in der Musikproduktion auf Apple-Geräten.
WMA (.wma) – Windows Media Audio. Microsofts proprietäres Audioformat. Wird von älteren Windows-Diktiergeräten und Aufnahmeprogrammen verwendet.
AMR (.amr) – Adaptive Multi-Rate. Kompaktes Sprachformat, das von vielen Mobiltelefonen für Sprachaufnahmen verwendet wird. Niedrige Bitrate, aber für Sprache optimiert.
AC3 (.ac3) – Dolby Digital. Surround-Sound- Format, das häufig auf DVDs, Blu-rays und in TV-Aufnahmen verwendet wird. scryp extrahiert und mixt die Kanäle automatisch zu Mono.
DTS (.dts) – Digital Theater Systems. Hochwertiges Surround-Format aus dem Kino- und Heimkino-Bereich. Wird automatisch in ein für die Spracherkennung optimiertes Format konvertiert.
WebM Audio (.webm) – Container-Format für Web-Audio. Standard bei Browser-Aufnahmen, etwa über die integrierte Aufnahmefunktion von scryp.

Weitere 38 unterstützte Audioformate:

Container & Web: WebM Audio (.webm), CAF (.caf) – Core Audio Format, MKA (.mka) – Matroska Audio, MP2 (.mp2), SPX (.spx) – Speex, 3GP (.3gp).

Verlustfrei & Audiophil: APE (.ape) – Monkey's Audio, WavPack (.wv), TTA (.tta) – True Audio, TAK (.tak), Shorten (.shn), DSF (.dsf) – DSD Stream File, Musepack (.mpc).

Surround & Kino: EAC3 (.eac3) – Dolby Digital Plus, DTS-HD (.dtshd), TrueHD (.thd) – Dolby TrueHD, MLP (.mlp).

Telefonie & VoIP: GSM (.gsm), iLBC (.lbc), QCP (.qcp), SBC (.sbc) – Bluetooth Audio, G.722 (.g722), G.723 (.g723), G.726 (.g726), G.729 (.g729).

Diktiergeräte: DSS (.dss) – Digital Speech Standard (Olympus, Philips), ACT (.act) – ACT Voice.

Archiv & Legacy: AU (.au) – Sun/Unix Audio, W64 (.w64) – Sony Wave64, VOC (.voc) – Creative Voice, OMA (.oma) – Sony OpenMG, PVF (.pvf) – Portable Voice Format, SOX (.sox) – Sound eXchange, VQF (.vqf) – TwinVQ, MMF (.mmf) – Yamaha SMAF, IRCAM (.sf) – Berkeley/IRCAM, AVR (.avr) – Audio Visual Research, SLN (.sln) – Asterisk PCM.

Unterstützte Videoformate (50+)

scryp transkribiert auch Videodateien direkt – die Audiospur wird automatisch extrahiert. Sie müssen das Audio nicht vorher manuell trennen:

MP4 (.mp4) – Der universelle Videostandard. Wird von praktisch allen Kameras, Smartphones und Videokonferenz-Tools erzeugt (Zoom, Teams, Google Meet).
MOV (.mov) – Apples QuickTime-Format. Standard bei iPhone-Videos und macOS-Bildschirmaufnahmen.
MKV (.mkv) – Matroska-Container. Flexibles Open-Source-Format, das mehrere Audio- und Untertitelspuren unterstützt. Verbreitet bei Screencasts und Video-Archivierungen.
AVI (.avi) – Klassisches Windows- Videoformat. Wird von älteren Kameras und Windows-Anwendungen verwendet. Große Dateien, aber universell kompatibel.
WebM (.webm) – Googles offenes Webvideo-Format. Standard für Browser-basierte Videoaufzeichnungen und YouTube-Downloads.
MPEG / MPG (.mpeg, .mpg) – Klassisches Videoformat. Standard für DVDs und ältere Videoarchive.
WMV (.wmv) – Windows Media Video. Microsofts Videoformat, gelegentlich bei Schulungsvideos und älteren Konferenzaufzeichnungen anzutreffen.
FLV (.flv) – Flash Video. Stammt aus der Flash-Ära und findet sich noch in älteren Videoarchiven.
M4V (.m4v) – Apples Videovariante von MP4. Wird von iTunes und Apple TV verwendet.
TS / MTS (.ts, .mts) – MPEG Transport Stream. Standard bei Camcordern (AVCHD) und TV-Aufnahmen.
3GP / 3G2 (.3gp, .3g2) – Mobile Videoformate. Werden von älteren Smartphones und Tablets bei Videoaufnahmen erzeugt.
VOB (.vob) – DVD Video Object. Das Dateiformat auf DVD-Discs. Relevant für die Digitalisierung von DVD-Archiven.

Weitere 44 unterstützte Videoformate:

Professionell & Broadcast: MXF (.mxf) – Material eXchange Format, GXF (.gxf) – General eXchange Format, DV (.dv) – Digital Video, R3D (.r3d) – RED Raw, LXF (.lxf) – VR Native Stream, Y4M (.y4m) – YUV4MPEG, MLV (.mlv) – Magic Lantern Video, MJ2 (.mj2) – Motion JPEG 2000, IVF (.ivf).

Web & Streaming: OGV (.ogv) – Ogg Video, ASF (.asf) – Advanced Streaming Format, F4V (.f4v) – Flash MP4, SWF (.swf) – ShockWave Flash, NSV (.nsv) – Nullsoft Streaming Video, ISM/ISMV (.ism, .ismv) – Smooth Streaming.

TV-Aufnahmen & Überwachung: WTV (.wtv) – Windows Television, TY (.ty) – TiVo, DAV (.dav) – CCTV DVR, EVO (.evo) – HD-DVD.

Archiv & Legacy: RM/RMVB (.rm, .rmvb) – RealMedia, NUT (.nut), NUV (.nuv) – NuppelVideo, DivX (.divx), FLC/FLI (.flc, .fli) – Autodesk Animator, PSP (.psp), CDXL (.cdxl) – Amiga CDXL.

Gaming & Multimedia: BIK (.bik) – Bink Video, SMK (.smk) – Smacker, ROQ (.roq) – id Software, THP (.thp) – Nintendo, VMD (.vmd) – Sierra, VIV (.viv) – Vividas, XMV (.xmv) – Microsoft XMV, PMP (.pmp) – PSP Media, CPK (.cpk) – Sega FILM, RL2 (.rl2), RPL (.rpl), MTV (.mtv), PDV (.pdv) – PlayDate, IV8 (.iv8) – IndigoVision, BMV (.bmv) – Discworld, TMV (.tmv), YOP (.yop) – Psygnosis, WC3 (.wc3) – Wing Commander.

So funktioniert die automatische Konvertierung

Der gesamte Konvertierungsprozess läuft vollautomatisch auf dem Server. Unabhängig vom Ausgangsformat wird jede Datei in drei Schritten verarbeitet: Audiospur-Extraktion, Konvertierung in 16-kHz-Mono-WAV für die KI-Erkennung und anschließende Transkription mit unserem Sprachmodell SX-3.

Der technische Ablauf:

1. Upload: Ihre Datei wird im Browser verschlüsselt und in Ihrem Originalformat hochgeladen.
2. Extraktion: Unsere Konvertierungs-Engine extrahiert die Audiospur. Bei reinen Audiodateien entfällt dieser Schritt. Bei Videos wird nur der Ton verwendet – das Bildmaterial wird nicht gespeichert.
3. Normalisierung: Das Audio wird in ein standardisiertes WAV-Format konvertiert: 16 kHz Abtastrate, 16-Bit-PCM, Mono. Diese Parameter sind optimal für unser Spracherkennungsmodell SX-3.
4. Transkription: Das normalisierte Audio wird von SX-3 verarbeitet. Parallel erfolgt die Sprechererkennung (Diarization), die verschiedene Stimmen unterscheidet.
5. Playback-Version: Zusätzlich wird eine komprimierte MP3-Version für die Wiedergabe im Browser erstellt, damit Sie das Audio beim Korrekturlesen direkt mithören können.

Tipps für optimale Transkriptionsqualität

scryp akzeptiert fast jedes Format – aber die Qualität des Ergebnisses hängt stark von der Qualität der Aufnahme ab. Einige Empfehlungen:

Unkomprimierte Formate bevorzugen: WAV und FLAC liefern die besten Ergebnisse, weil keine Kompressionsartefakte die Spracherkennung stören. Wenn Speicherplatz keine Rolle spielt, nehmen Sie in WAV auf.
Hohe Bitrate bei komprimierten Formaten: Bei MP3 sollte die Bitrate mindestens 128 kbps betragen, besser 192 oder 256 kbps. MP3-Dateien mit 64 kbps oder weniger können die Erkennungsgenauigkeit spürbar verschlechtern.
Videos direkt hochladen: Sie müssen die Audiospur nicht manuell extrahieren. Laden Sie die Videodatei direkt hoch – scryp erledigt die Extraktion automatisch. Das spart einen Arbeitsschritt und vermeidet Qualitätsverluste durch doppelte Konvertierung.
Surround-Formate funktionieren: Mehrkanalformate wie AC3 (Dolby Digital) und DTS werden automatisch zu Mono heruntergemischt. Sie müssen den Ton nicht manuell konvertieren.
Aufnahmeumgebung beachten: Unabhängig vom Format: Ein ruhiger Raum und ein gutes Mikrofon haben mehr Einfluss auf die Transkriptionsgenauigkeit als die Wahl zwischen MP3 und WAV.

Häufige Fragen

Muss ich meine Dateien vorher konvertieren? Nein. Laden Sie die Datei im Originalformat hoch. Die Konvertierung passiert automatisch auf dem Server.

Was wenn mein Format nicht in der Liste steht? Probieren Sie es einfach aus. scryp akzeptiert jede Datei mit einem Audio- oder Video-MIME-Typ. Die hier aufgelisteten Formate sind die gängigsten – unsere Engine verarbeitet in der Praxis noch deutlich mehr.

Funktionieren auch sehr große Videodateien? Ja. Je nach Abo-Plan können Dateien bis 1 GB (Nano), 5 GB (Pro) oder 10 GB (Ultra) hochgeladen werden. Bei großen Dateien wird ein Multipart-Upload verwendet, der auch bei instabiler Verbindung zuverlässig funktioniert.

Was ist mit Audiospuren in Fremdsprachen? Das Dateiformat ist unabhängig von der Sprache. scryp erkennt automatisch über 90 Sprachen. Wenn Sie die Erkennung beschleunigen möchten, können Sie beim Upload einen Sprachhinweis angeben.

Werden meine Dateien nach der Transkription gelöscht? Ja. Die verschlüsselten Original-Dateien werden nach der Verarbeitung automatisch gelöscht. Auf dem Server verbleibt nur eine verschlüsselte Playback-Version (MP3) und das verschlüsselte Transkript.

Fazit

scryp unterstützt über 100 Audio- und Videoformate – von alltäglichen Standards wie MP3 und MP4 über professionelle Surround-Formate wie AC3 und DTS bis hin zu spezialisierten Archivformaten wie VOB, MXF oder MTS. Unsere Konvertierungs-Engine kümmert sich um Codecs und Formatkompatibilität. Laden Sie Ihre Datei einfach im Originalformat hoch, und der Rest passiert automatisch. Für die bestmögliche Transkriptionsqualität empfiehlt sich ein unkomprimiertes oder hochbitratiges Format und – wichtiger noch – eine gute Aufnahmeumgebung.