VocaText
VocaText - votre assistant de transcription
Votre assistant vocal

Transformez votre voix en texte

Déposez un fichier audio et obtenez une transcription précise en quelques secondes. Gratuit, rapide, sans inscription.

🎙️
Glissez-déposez votre fichier audio ici
ou cliquez pour sélectionner un fichier
MP3 WAV M4A OGG FLAC
🎵
-
-
Analyse du fichier audio…
📝 Transcription

Sur cette page

Comment ça marche ?

  1. Importez votre fichier audio

    Glissez-déposez ou cliquez pour sélectionner un fichier audio depuis votre ordinateur. Nous acceptons les formats MP3, WAV, M4A, OGG et FLAC jusqu'à 500 Mo. Les utilisateurs Pro ✦ peuvent envoyer jusqu'à 200 Mo et 10 fichiers en parallèle.

  2. Lancez la transcription

    Cliquez sur « Transcrire » et notre moteur d'intelligence artificielle analyse votre audio pour en extraire le texte avec une précision remarquable.

  3. Récupérez votre texte

    Copiez le résultat dans votre presse-papier ou téléchargez-le au format .txt. C'est aussi simple que ça.

Pourquoi convertir l'audio en texte ?

Gagnez du temps - Transcrire manuellement un enregistrement d'une heure prend généralement trois à quatre heures de travail concentré. Une transcription automatique vous livre le même résultat en quelques minutes, vous laissant vous consacrer à l'essentiel : analyser, éditer et partager.

Rendez votre contenu recherchable - Une version texte de votre audio est indexable par les moteurs de recherche et les outils de recherche plein texte. Retrouvez une citation, un nom ou un sujet précis en quelques secondes, même au sein de centaines d'enregistrements.

Améliorez l'accessibilité - Une transcription écrite ouvre votre contenu aux personnes sourdes ou malentendantes, aux locuteurs non natifs et à toute personne qui préfère simplement lire plutôt qu'écouter.

Réutilisez votre contenu - Transformez un épisode de podcast en article de blog, une réunion en compte rendu, une interview en article de fond. Un seul fichier audio peut alimenter de nombreux livrables texte.

À qui s'adresse VocaText ?

La transcription audio en texte est utile bien au-delà d'une seule profession. Voici les personnes et les équipes qui en tirent le meilleur parti avec VocaText.

Étudiants - Enregistrements de cours, discussions de groupe, séances de révisions orales. Des notes de cours indexables transforment une heure de cours en outil de révision lisible en quelques minutes.

Journalistes et reporters - Interviews, conférences de presse, briefings off, enregistrements de terrain. Une transcription propre rend dix fois plus rapide la recherche d'une citation, la vérification d'un propos ou la rédaction de l'article lui-même.

Médecins et professionnels de santé - Notes patients dictées, comptes rendus de consultation, rapports médicaux. Économisez des heures de saisie et concentrez-vous sur le patient plutôt que sur le clavier.

Avocats et professionnels du droit - Rendez-vous clients, enregistrements de dépositions, notes d'audience. La trace écrite est essentielle, et partir d'un brouillon presque complet vaut mieux que partir d'une page blanche.

Podcasteurs et créateurs de contenu - Les transcriptions d'épisodes améliorent la découvrabilité sur Google et alimentent les notes d'épisode, les articles de blog, les citations pour les réseaux sociaux et les archives optimisées pour le SEO.

Équipes en entreprise - Comptes rendus de réunion, séances de brainstorming, appels clients. Une transcription partagée transforme des conversations éphémères en base de connaissances que toute l'équipe peut consulter.

Chercheurs - Entretiens qualitatifs, focus groups, terrain ethnographique. La transcription est souvent le goulot d'étranglement de la recherche académique ; l'automatiser le supprime.

Écrivains et auteurs - Notes vocales, brouillons dictés, idées capturées en mouvement. Parlez quand l'inspiration vous saisit, éditez le texte plus tard, à votre bureau.

Transcription manuelle ou automatique

Vaut-il mieux transcrire à la main ou laisser une IA s'en charger ? Les compromis deviennent plus clairs une fois les chiffres posés. Le tableau ci-dessous compare les deux approches pour un enregistrement type d'une heure.

Aspect Transcription manuelle Transcription automatique (VocaText)
Temps pour une heure d'audio 3 à 5 heures 1 à 5 minutes
Coût 60 à 150 € (tarif professionnel) Gratuit
Précision sur un audio propre 95 à 99 % 92 à 97 %
Effort requis Concentration soutenue, des heures de saisie Déposez le fichier, cliquez sur Transcrire
Confidentialité Audio partagé avec un transcripteur humain Fichier traité et supprimé immédiatement
Cas d'usage idéal Preuves judiciaires, documents à valeur légale Brouillons, production de contenu, notes internes, recherche

La plupart des gens lancent d'abord une transcription automatique, puis corrigent la poignée d'erreurs qui comptent vraiment. Résultat : presque la qualité du manuel, en quelques minutes au lieu d'heures, et sans débourser un centime.

Faites-en beaucoup plus avec VocaText Pro ✦ — 6,90 €/mois, résiliable en un clic.

Comment fonctionne réellement la transcription audio ?

Derrière un simple clic, plusieurs étapes s'enchaînent pour transformer votre enregistrement audio en texte lisible.

1. Décodage audio - Le fichier envoyé est décodé depuis son format (MP3, WAV, M4A, OGG, FLAC) vers un signal audio brut que le moteur de reconnaissance peut traiter.

2. Détection d'activité vocale - Le signal est analysé pour séparer la parole du silence, de la musique et du bruit de fond. Seuls les segments contenant réellement une voix sont transmis à l'étape suivante.

3. Détection de la langue - Un court échantillon est analysé pour identifier automatiquement la langue parlée, sans que vous ayez à la déclarer manuellement.

4. Reconnaissance vocale - Un modèle d'apprentissage profond convertit les caractéristiques acoustiques en phonèmes, puis en mots, en pondérant chaque candidat à l'aide d'un modèle de langue qui sait quelles séquences de mots sont plausibles.

5. Mise en forme du texte - La ponctuation, les majuscules et un découpage en paragraphes sont appliqués pour que la transcription finale se lise comme de la prose naturelle plutôt que comme un bloc continu de mots.

Transcription ou transcodage : ne les confondez pas

Ces deux mots se ressemblent et sont souvent confondus, alors qu'ils désignent des opérations très différentes.

La transcription transforme la parole en texte écrit. L'entrée est de l'audio (une voix, une interview, une réunion) et la sortie est un fichier texte. C'est exactement ce que fait VocaText.

Le transcodage convertit un format audio en un autre - par exemple un fichier WAV en MP3, ou un M4A en OGG. L'entrée est de l'audio et la sortie aussi, simplement encodée différemment. Aucun texte n'est produit.

En résumé : la transcription change le support (du son au texte), tandis que le transcodage ne change que l'emballage (d'un format audio à un autre).

Si vous avez cherché « script audio », « script de voix », « audio script » ou « retranscription », c'est précisément ce que désigne le mot transcription - vocabulaire différent, même opération.

Formats supportés

VocaText prend en charge tous les formats audio courants. Que vous ayez un enregistrement de réunion, un mémo vocal ou un épisode de podcast, nous pouvons le transcrire.

🎵
MP3 MPEG Audio Layer 3
🔊
WAV Waveform Audio
🎧
M4A MPEG-4 Audio
📀
OGG Ogg Vorbis
💿
FLAC Free Lossless Audio

Petite histoire des formats audio pris en charge

Chaque format accepté par VocaText est issu d'une époque précise et a été conçu pour résoudre un problème particulier. Savoir d'où ils viennent vous aide à choisir le bon format pour vos enregistrements.

WAV (1991) - Co-développé par Microsoft et IBM, le WAV est l'un des plus anciens formats audio numériques encore couramment utilisés. Il stocke l'audio sous forme de données brutes non compressées, ce qui produit des fichiers volumineux mais préserve exactement le signal d'origine. Il reste une référence pour l'enregistrement studio et l'archivage.

MP3 (1993) - Standardisé par l'institut Fraunhofer et le Moving Picture Experts Group, le MP3 a popularisé la compression audio avec perte. En écartant les informations sonores que l'oreille humaine perçoit à peine, il réduit la taille des fichiers d'un facteur dix. Le MP3 est devenu le format de fait pour les podcasts et les mémos vocaux.

OGG Vorbis (1994–2000) - Développé par la fondation Xiph.Org comme une alternative libre, ouverte et sans brevets au MP3. L'OGG offre souvent une meilleure qualité que le MP3 à débit équivalent et est largement utilisé dans les logiciels open-source et les jeux vidéo.

FLAC (2001) - Free Lossless Audio Codec. Comme le WAV, il préserve exactement le signal audio, mais il compresse les données de 30 à 60 %. Le FLAC est le format préféré des audiophiles et de toute personne souhaitant des archives plus légères sans perdre le moindre échantillon.

M4A (début des années 2000) - Un conteneur basé sur le standard MPEG-4, popularisé par Apple avec iTunes et l'iPhone. Il transporte généralement de l'audio encodé en AAC, un codec avec perte qui améliore le MP3 en efficacité et en qualité. Les mémos vocaux enregistrés sur les appareils iOS sont en général des fichiers M4A.

Langues prises en charge

VocaText détecte automatiquement la langue parlée à partir des premières secondes de votre enregistrement - vous n'avez pas besoin de la déclarer. La précision varie selon la qualité de représentation de la langue dans le modèle de reconnaissance vocale sous-jacent.

Précision maximale

Anglais, français, espagnol, allemand, italien, portugais, néerlandais. Ces langues bénéficient de la plus grande quantité de données d'entraînement et atteignent la qualité de transcription la plus fiable.

Pris en charge avec des variations possibles

Des dizaines d'autres langues sont reconnues, y compris des langues régionales et minoritaires. La précision sur les langues plus rares dépend fortement de la clarté de l'enregistrement et de l'accent du locuteur.

Le mélange de deux langues dans un même fichier (alternance codique) produit généralement des résultats partiels - le moteur s'engage sur une seule langue par segment. Pour un meilleur résultat sur du contenu multilingue, transcrivez une langue à la fois.

Comment réaliser un enregistrement audio de qualité

La précision d'une transcription dépend avant tout de la qualité de l'audio que vous lui fournissez. Même la meilleure IA ne peut pas récupérer ce que le microphone n'a jamais capté. Voici de quoi vous avez besoin et comment bien faire.

De quels appareils avez-vous besoin ?

Un smartphone suffit pour la plupart des usages. Les téléphones récents embarquent des microphones étonnamment performants et sont livrés avec une application de mémo vocal (Dictaphone sur iOS, Enregistreur sur Android). Pour une interview en tête-à-tête ou une note personnelle, c'est tout ce qu'il vous faut.

Un ordinateur avec un microphone USB ou XLR élève nettement la qualité. Un microphone à condensateur USB (entre 60 et 150 €) est plug-and-play et produit des enregistrements de voix dignes d'une diffusion. Associez-le à un logiciel gratuit comme Audacity ou à l'enregistreur intégré de votre système d'exploitation.

Un enregistreur portable dédié (Zoom, Tascam, Sony) est le bon choix pour l'enregistrement sur le terrain, les réunions de groupe ou tout ce qui nécessite de capter plusieurs voix dans une pièce sans être relié à un ordinateur.

Conseils de pro pour des enregistrements plus propres

Choisissez une pièce silencieuse - Fermez les fenêtres et les portes, coupez les ventilateurs, la climatisation et les notifications. Le ronronnement de fond est la cause numéro un des mots mal reconnus.

Méfiez-vous de la réverbération - Les pièces vides aux murs durs résonnent. Les surfaces molles (rideaux, tapis, étagères de livres, voire une couette posée à proximité quand vous enregistrez chez vous) absorbent les réflexions et améliorent nettement la clarté.

Gardez le micro près de la bouche - Visez 15 à 20 centimètres entre le micro et la bouche du locuteur, légèrement de côté pour éviter les plosives (le claquement sur les P et B durs). Plus on est près, plus on capte la voix et moins la pièce.

Parlez clairement, pas fort - L'articulation compte plus que le volume. Évitez de manger, mâcher du chewing-gum ou de vous couvrir la bouche en parlant.

Enregistrez un locuteur à la fois quand c'est possible - Les voix qui se chevauchent sont difficiles à séparer pour n'importe quel moteur de reconnaissance. Dans une réunion, encouragez les participants à attendre leur tour avant de parler.

Choisissez le bon format - Pour la voix, du MP3 à 128 kbps ou du M4A à 96 kbps est largement suffisant et garde les fichiers compacts. Réservez le WAV ou le FLAC aux cas où vous comptez éditer l'audio par la suite.

Faites un test de 10 secondes - Enregistrez un court échantillon, réécoutez-le, ajustez la position et le gain, puis lancez le vrai enregistrement. Cette seule habitude évite la plupart des déceptions.

Bonnes pratiques selon le scénario d'enregistrement

Les conseils généraux d'enregistrement ci-dessus couvrent la plupart des situations, mais chaque scénario a ses propres pièges. Voici un mode d'emploi pratique pour les contextes les plus courants.

Interview en tête-à-tête

Asseyez-vous suffisamment près pour qu'un seul microphone capte les deux locuteurs - typiquement 30 à 60 centimètres l'un de l'autre, avec le micro à équidistance. Évitez de parler en même temps ; des prises de parole longues et alternées sont bien plus faciles à transcrire que des échanges rapides.

Petite réunion (3 à 6 personnes)

Un seul micro omnidirectionnel placé au centre d'une petite table fonctionne pour des groupes jusqu'à quatre. Au-delà, préférez un micro de conférence dédié, ou faites en sorte que chaque participant utilise son téléphone comme enregistreur personnel ; vous pourrez ensuite transcrire chaque piste et fusionner les textes.

Salle de conférence ou grand groupe

La distance au microphone est l'ennemi numéro un de la précision. Si vous ne pouvez pas équiper chaque locuteur d'un micro, acceptez que la transcription sera partielle et concentrez-vous sur les personnes qui parlent le plus. Répétez les décisions clés à voix haute, près du micro, pour qu'elles passent proprement dans le compte rendu.

Enregistrement de terrain (en extérieur)

Le vent, la circulation et la réverbération sont vos ennemis. Utilisez une bonnette (mousse ou "chat mort" en poil) sur le micro, approchez-vous du locuteur autant que poliment possible et écoutez au casque pour repérer les problèmes tant que vous pouvez encore les corriger.

Dictée personnelle

Parlez en phrases complètes avec de courtes pauses, et ne dictez pas la ponctuation à voix haute - VocaText l'ajoute automatiquement et "virgule" ou "point" finiraient dans le texte. Tenez le téléphone à 15 à 20 centimètres de votre bouche, légèrement de côté.

Appel téléphonique ou visio

Enregistrez localement si vous le pouvez ; les appels enregistrés dans le cloud sont souvent fortement compressés et perdent du détail. Sur Zoom, Teams ou Meet, activez "enregistrer sur cet ordinateur" plutôt que l'option cloud, puis envoyez le fichier obtenu. Pensez à l'obligation légale d'obtenir le consentement de tous les participants avant d'enregistrer.

Limites de l'outil

Taille de fichier - Chaque envoi est plafonné à 25 Mo. Pour une voix encodée en MP3 à 128 kbps, cela correspond à environ 25 minutes d'audio. Ré-encoder à un débit plus faible (64 ou 96 kbps) suffit pour faire entrer des enregistrements plus longs dans cette limite.

Durée d'enregistrement - Il n'y a pas de limite stricte de durée, mais au-delà d'une heure d'audio nous ne pouvons pas garantir un résultat irréprochable. Les longs enregistrements ont tendance à fluctuer en volume, à accumuler des événements parasites et à mettre le moteur de reconnaissance à rude épreuve. Pour une précision optimale sur des contenus longs, découpez-les en segments de 30 à 60 minutes et transcrivez-les un par un.

Qualité audio - Un fort bruit de fond, un volume très faible, une forte réverbération, des locuteurs qui se chevauchent ou des accents marqués sur une ligne bruyante peuvent tous réduire la précision. Plus l'entrée est propre, meilleure est la sortie - voyez les conseils d'enregistrement ci-dessus.

Langues - VocaText détecte automatiquement la langue. Les langues courantes (anglais, français, espagnol, allemand, italien, portugais) atteignent la meilleure précision. Les langues rares ou les dialectes marqués peuvent produire davantage d'erreurs.

Précision et benchmarks

Aucun moteur de transcription n'atteint 100 % de précision, et nous tenons à fixer des attentes honnêtes. La précision en reconnaissance vocale se mesure habituellement par le Word Error Rate (WER) - la proportion de mots erronés, manquants ou ajoutés par rapport à une transcription humaine parfaite. Les chiffres ci-dessous sont des plages réalistes basées sur des enregistrements réels.

Condition d'enregistrement Précision typique Word Error Rate (WER)
Qualité studio, un seul locuteur natif 95 à 98 % 2 à 5 %
Bureau silencieux, un seul locuteur, micro proche 92 à 96 % 4 à 8 %
Salle de réunion, plusieurs locuteurs 85 à 92 % 8 à 15 %
Audio de qualité téléphonique 80 à 88 % 12 à 20 %
Accent marqué ou dialecte non standard 75 à 90 % 10 à 25 %
Bruit de fond important ou forte réverbération 60 à 80 % 20 à 40 %
Volume très faible ou locuteurs qui se chevauchent Moins de 70 % Plus de 30 %

Ces chiffres ne sont pas des promesses - ce sont des points de calibrage. Si votre audio se situe dans les premières lignes du tableau, vous pourrez probablement publier la transcription après une relecture légère. S'il se situe dans les dernières lignes, prévoyez une passe de correction manuelle ou, mieux, ré-enregistrez dans de meilleures conditions.

Confidentialité & Sécurité

Vos fichiers audio sont traités de manière sécurisée et ne sont jamais stockés sur nos serveurs. Le traitement s'effectue en temps réel et votre fichier est supprimé immédiatement après la transcription.

Nous ne partageons aucune donnée avec des tiers. Votre contenu reste le vôtre, toujours.

Pourquoi choisir VocaText ?

Gratuit & sans inscription - Pas besoin de créer un compte. Déposez votre fichier et obtenez votre transcription instantanément.

IA de pointe - Notre moteur de reconnaissance vocale utilise les dernières avancées en intelligence artificielle pour une précision maximale.

Multi-langues - VocaText détecte automatiquement la langue parlée et s'adapte pour vous offrir le meilleur résultat possible.

Questions fréquentes

VocaText est-il vraiment gratuit ?

Oui, VocaText est 100 % gratuit. Aucune inscription, aucun abonnement, aucun frais caché. Vous pouvez transcrire vos fichiers audio autant de fois que vous le souhaitez.

Quelles langues sont prises en charge ?

VocaText détecte automatiquement la langue parlée et prend en charge des dizaines de langues, dont le français, l'anglais, l'espagnol, l'allemand, le portugais, l'italien, le néerlandais, le japonais, le chinois et bien d'autres.

Quelle est la taille maximale de fichier ?

Vous pouvez envoyer des fichiers audio jusqu'à 25 Mo. Pour les fichiers plus volumineux, nous vous recommandons de les découper en plusieurs parties avant de les transcrire, ou de passer à Pro ✦ pour des fichiers jusqu'à 200 Mo.

Mes fichiers audio sont-ils conservés sur vos serveurs ?

Non. Vos fichiers sont traités en temps réel et supprimés immédiatement après la transcription. Nous ne stockons aucun fichier audio ni aucune transcription sur nos serveurs.

Quelle est la précision de la transcription ?

VocaText utilise un moteur d'intelligence artificielle de pointe qui offre une précision élevée, même pour les enregistrements avec du bruit de fond. La qualité du résultat dépend toutefois de la clarté de l'audio source.

Pourquoi ma transcription est-elle pleine d'erreurs ?

Presque toujours un problème de qualité d'entrée plutôt qu'un problème de modèle. Écoutez votre fichier : y a-t-il du souffle, du trafic, une climatisation qui tourne ? Les locuteurs sont-ils loin du micro ? Le volume est-il si faible que vous devez tendre l'oreille ? Ré-enregistrez dans un environnement plus calme, micro plus proche, et la transcription s'améliorera de manière spectaculaire.

Pourquoi mon envoi a-t-il échoué ?

Trois causes habituelles : le fichier dépasse 25 Mo, le format n'est pas dans la liste acceptée (MP3, WAV, M4A, OGG, FLAC), ou la connexion réseau a été coupée en cours d'envoi. Vérifiez la taille en premier, puis assurez-vous que l'extension correspond à l'un des formats pris en charge. Si vos fichiers dépassent régulièrement 25 Mo, Pro ✦ débloque les fichiers jusqu'à 200 Mo.

Pourquoi les différents locuteurs sont-ils fusionnés sans étiquette ?

VocaText produit pour l'instant une transcription continue sans diarisation des locuteurs (la technique qui étiquette qui dit quoi). Pour des enregistrements multi-locuteurs où l'attribution compte, ajoutez les noms manuellement à la relecture, ou découpez l'audio en pistes par locuteur avant l'envoi si votre installation le permet — Pro ✦ traite jusqu'à 10 pistes en parallèle.

Pourquoi la langue détectée est-elle erronée ?

La détection de langue examine les premières secondes d'audio. Si l'enregistrement commence par un mot dans une autre langue, par un son non vocal ou un long silence, le moteur peut se tromper. Coupez le silence en début de fichier ou commencez l'enregistrement par une phrase claire dans la langue cible.

Pourquoi la transcription s'arrête-t-elle avant la fin de mon audio ?

Soit la taille a atteint le plafond de 25 Mo et le fichier a été tronqué à l'envoi, soit il y a eu une corruption irrécupérable au milieu du fichier. Ré-exportez l'audio à un débit légèrement plus faible pour passer sous le plafond, ouvrez-le dans un outil comme Audacity pour vérifier que les données audio vont bien jusqu'à la fin, ou passez à Pro ✦ pour des fichiers jusqu'à 200 Mo.

Pourquoi mon MP3 apparaît-il comme un format non supporté ?

L'extension .mp3 ne reflète pas toujours l'encodage réel à l'intérieur du fichier. Certaines applis exportent des conteneurs "MP3" qui contiennent des données non standard, ou l'extension a simplement été renommée à la main. Ré-encodez le fichier en vrai MP3 avec un outil comme Audacity, puis réessayez.

Comment améliorer la précision sur de longs enregistrements ?

Découpez l'audio en segments de 30 à 60 minutes et transcrivez-les séparément. Les fichiers longs accumulent de petites dérives de qualité audio et sollicitent fortement la fenêtre de contexte du moteur de reconnaissance ; une transcription segmentée donne systématiquement de meilleurs résultats — il ne reste qu'à assembler les textes ou à les traiter en lot avec Pro ✦ jusqu'à 10 segments en parallèle.

Glossaire des termes audio et de transcription

Une courte référence pour les termes techniques utilisés ailleurs sur cette page.

ASR (Reconnaissance vocale automatique)
Le domaine général - et la technologie - qui convertit le langage parlé en texte écrit. VocaText utilise un modèle ASR à l'état de l'art en interne.
Débit binaire (bitrate)
La quantité de données utilisée par seconde d'audio, généralement exprimée en kilobits par seconde (kbps). Un débit plus élevé signifie une meilleure qualité et des fichiers plus volumineux. Pour la voix, 96 à 128 kbps suffisent largement ; pour la musique, 192 à 320 kbps.
Codec
Abréviation de "coder-decoder" - l'algorithme qui compresse l'audio à l'enregistrement et le décompresse à la lecture. MP3, AAC, Vorbis et FLAC sont tous des codecs ; le WAV est techniquement non compressé.
Format conteneur
Le fichier d'enveloppe qui contient les données audio compressées et leurs métadonnées. M4A et OGG sont des conteneurs ; l'audio à l'intérieur est encodé avec des codecs (AAC, Vorbis, etc.).
Diarisation (diarisation des locuteurs)
La tâche consistant à identifier qui parle et quand dans un enregistrement multi-locuteurs, afin que la transcription puisse être étiquetée "Locuteur A", "Locuteur B", etc. VocaText n'effectue pas encore la diarisation.
Modèle de langue
Un modèle statistique qui sait quelles séquences de mots sont plausibles dans une langue donnée. Le moteur de reconnaissance vocale s'en sert pour choisir entre des candidats au son similaire ("ces" vs "ses").
Compression sans perte
Une compression qui réduit la taille du fichier sans perdre la moindre donnée audio. Le signal d'origine peut être parfaitement reconstruit. FLAC est le format sans perte le plus populaire.
Compression avec perte
Une compression qui obtient des fichiers plus petits en écartant des informations sonores que l'oreille humaine perçoit à peine. L'original ne peut pas être parfaitement récupéré. MP3, AAC et Vorbis sont tous avec perte.
Phonème
La plus petite unité sonore qui distingue un mot d'un autre dans une langue - comme la différence entre "p" et "b" dans "pat" et "bat". Les modèles ASR reconnaissent les phonèmes avant de les assembler en mots.
Fréquence d'échantillonnage
Le nombre de fois par seconde où le signal audio est mesuré à l'enregistrement, exprimé en hertz (Hz) ou kilohertz (kHz). 16 kHz suffit pour la voix ; 44,1 ou 48 kHz est le standard pour la musique et la vidéo.
Transcript (aussi : script, retranscription)
Trois noms pour la même chose : le texte écrit produit à partir d'un enregistrement audio. « Transcript » est le terme technique standard, « script audio » ou « script de voix » est le mot courant que les utilisateurs tapent souvent dans les moteurs de recherche, et « retranscription » est le terme français formel. VocaText produit un transcript à partir de n'importe quel fichier audio supporté.
Détection d'activité vocale (VAD)
La première étape de la plupart des pipelines de reconnaissance vocale : analyser un enregistrement pour repérer les segments contenant de la parole et ignorer les silences, la musique ou le bruit.
Word Error Rate (WER)
La métrique standard de précision en transcription : le nombre de mots incorrects, manquants ou ajoutés divisé par le nombre total de mots dans une référence humaine parfaite. Un WER de 5 % signifie qu'environ 95 % des mots sont corrects.

À propos de VocaText

Le service a été créé pour rendre la transcription audio en texte précise accessible à tous, sans inscription, sans abonnement et sans frais cachés.

Le site et ses données sont hébergés entièrement au sein de l'Union européenne, en conformité avec le RGPD. Les fichiers audio envoyés pour transcription sont traités en temps réel et supprimés immédiatement après - ils ne sont jamais conservés.

Pour toute question, retour d'expérience ou demande de partenariat, merci de passer par le formulaire de contact.