Il riconoscimento vocale automatico fa grandi progressi
Possono gli esseri umani o le macchine riconoscere meglio il parlato? In ambienti rumorosi come i pub, i moderni sistemi di riconoscimento vocale (ASR) raggiungono un'accuratezza impressionante e, in alcuni casi, superano addirittura gli esseri umani. Ma questo dimostra quanto siano effettivamente notevoli le prestazioni umane.
In un recente studio, la linguista computazionale Eleanor Chodroff dell'UZH e Chloe Patman dell'Università di Cambridge hanno analizzato la capacità dei moderni sistemi ASR di affrontare condizioni di ascolto difficili. I sistemi testati erano "wav2vec 2.0" di Meta e "Whisper large-v3" di OpenAI. Il punto di riferimento: le prestazioni dei madrelingua britannici.
I test si sono svolti in condizioni estreme: dal rumore simile a quello del parlato al rumore realistico del pub, sia con che senza maschera di cotone. Il risultato: gli esseri umani hanno ottenuto i risultati migliori in generale, ma il sistema OpenAI "Whisper large-v3" li ha superati in quasi tutti gli scenari. Solo nel rumore dei pub è stato alla pari con l'udito umano.
Particolarmente sorprendente è stata la capacità di "Whisper large-v3" di elaborare correttamente il parlato anche senza un supporto contestuale.
La differenza decisiva
Le enormi prestazioni di "Whisper" si basano su quantità gigantesche di dati di addestramento. Mentre "wav2vec 2.0" di Meta è stato addestrato con 960 ore di dati vocali, OpenAI ha utilizzato oltre 75 anni di dati vocali per il suo sistema standard. Il modello più potente ha utilizzato addirittura più di 500 anni di dati vocali. In confronto, gli esseri umani sviluppano competenze simili in pochi anni: un aspetto notevole, come sottolinea la responsabile dello studio Eleanor Chodroff. "Inoltre, il riconoscimento automatico del parlato in quasi tutte le altre lingue rimane una sfida importante".
Diverse fonti di errore
Lo studio ha anche dimostrato che gli esseri umani e le macchine falliscono in modi diversi. Gli esseri umani creano quasi sempre frasi grammaticalmente corrette, ma spesso scrivono frammenti di frasi. Al contrario, "wav2vec 2.0" ha spesso generato frasi incomprensibili in condizioni difficili. "Whisper" è stato in grado di produrre frasi grammaticalmente corrette, ma ha riempito i vuoti nel contenuto con informazioni completamente errate. (pd/swi)
Il Studio "Speech recognition in adverse conditions by humans and machines" di Chloe Patman e Eleanor Chodroff può essere letto in dettaglio qui.