La reconnaissance vocale automatique fait de grands progrès

Les hommes ou les machines peuvent-ils mieux reconnaître la parole ? Dans des environnements bruyants tels que le bruit des bars, les systèmes modernes de reconnaissance vocale (ASR) atteignent une précision impressionnante - et surpassent même les humains dans certains scénarios. Mais c'est précisément ce qui montre à quel point la performance humaine est en réalité remarquable.

Dans un environnement bruyant, les systèmes modernes de reconnaissance vocale atteignent une précision impressionnante. (Image symbolique : Unsplash.com)

Dans une étude récente, Eleanor Chodroff, linguiste informatique de l'UZH, a examiné avec Chloe Patman de l'Université de Cambridge la capacité des systèmes ASR modernes à faire face à des conditions d'écoute difficiles. Les systèmes "wav2vec 2.0" de Meta et "Whisper large-v3" d'OpenAI ont été testés. Le critère : la performance des locuteurs natifs britanniques.

Les tests se sont déroulés dans des conditions extrêmes, allant d'un bruit semblable à celui de la voix à un bruit réaliste de pub, avec ou sans masque facial en coton. Résultat : les humains ont globalement montré les meilleures performances, mais le système OpenAI "Whisper large-v3" les a surpassés dans presque tous les scénarios. Ce n'est que dans le bruit des bars qu'il était à la hauteur de l'audition humaine.

La capacité de "Whisper large-v3" à traiter correctement la parole, même sans soutien contextuel, a été particulièrement frappante.

La différence décisive

L'énorme performance de "Whisper" repose sur des quantités gigantesques de données d'entraînement. Alors que "wav2vec 2.0" de Meta a été entraîné avec 960 heures de données vocales, OpenAI a eu recours à plus de 75 ans de données vocales pour son système standard. Le modèle le plus performant a même utilisé plus de 500 ans de données vocales. En comparaison, l'être humain développe des capacités similaires en quelques années seulement - un aspect remarquable, comme le souligne l'auteur principal de l'étude, Eleanor Chodroff. "En outre, la reconnaissance automatique de la parole dans presque toutes les autres langues reste un grand défi".

Différentes sources d'erreurs

L'étude a également montré que les hommes et les machines échouent de différentes manières. Les humains créent presque toujours des phrases grammaticalement correctes, mais écrivent souvent des fragments de phrases. En revanche, "wav2vec 2.0" générait souvent un charabia incompréhensible dans des conditions difficiles. "Whisper" pouvait produire des phrases grammaticalement correctes, mais remplissait les lacunes de contenu avec des informations totalement erronées. (pd/swi)


Le site Étude "Speech recognition in adverse conditions by humans and machines" par Chloe Patman et Eleanor Chodroff peut être consulté en détail ici.

Plus d'articles sur le sujet