fbpx

Google detalla el trabajo de AI de reconocimiento de voz del Proyecto Euphonia

Más inclusivo que nunca

Como parte de los nuevos esfuerzos hacia la accesibilidad, Google anunció el Proyecto Euphonia en I/O en mayo. Un intento de hacer que el reconocimiento del habla sea capaz de entender a las personas con voces o impedimentos de habla no estándar. La compañía acaba de publicar un post y su artículo explicando algunos de los trabajos de IA que permiten la nueva capacidad.

El problema es simple de observar: las voces de las personas con deficiencias motoras, como las producidas por enfermedades degenerativas como la esclerosis lateral amiotrófica (ELA), simplemente no son comprendidas por los sistemas de procesamiento del lenguaje natural existentes.

Puedes verlo en acción en el siguiente vídeo del científico de investigación de Google Dimitri Kanevsky, quien a su vez ha dañado el habla, intentando interactuar con uno de los productos de la compañía (y eventualmente haciéndolo con la ayuda del trabajo relacionado Parrotron):

El equipo de investigación lo describe de la siguiente manera:

Imagen: TechChurch

«Los sistemas ASR[reconocimiento automático del habla] se entrenan más a menudo a partir del habla «típica», lo que significa que los grupos subrepresentados, como los que tienen impedimentos del habla o acentos fuertes, no experimentan el mismo grado de utilidad.

…Los modelos de ASR de última generación pueden producir altas tasas de error de palabra (WER) para los hablantes con sólo un impedimento moderado del habla de ALS, lo que impide efectivamente el acceso a las tecnologías dependientes de ASR».

Es notable que al menos en parte culpen al equipo de entrenamiento. Ese es uno de esos sesgos implícitos que encontramos en los modelos de IA, y que pueden llevar a altos índices de error en otros lugares, como el reconocimiento facial o incluso el darse cuenta de que una persona está presente.

Aunque no incluir a los grupos principales como las personas de piel oscura no es un error comparable en escala a la construcción de un sistema que no incluya a los que tienen el habla impactada, ambos pueden ser abordados con datos de fuentes más inclusivas.

Imagen: YoTube

Para los investigadores de Google, eso significaba recolectar docenas de horas de audio hablado de personas con ELA. Como es de esperar, cada persona se ve afectada de manera diferente por su condición, por lo que acomodar los efectos de la enfermedad no es el mismo proceso que acomodar, por ejemplo, un acento meramente poco común.

Se utilizó un modelo estándar de reconocimiento de voz como línea de base, y luego se realizaron dosificaciones de algunas maneras experimentales, capacitándolo en el nuevo audio. Esto por sí solo redujo drásticamente las tasas de error de las palabras, y lo hizo con relativamente pocos cambios en el modelo original, lo que significa que hay menos necesidad de cálculos pesados cuando se ajusta a una nueva voz.

Los investigadores encontraron que el modelo, cuando todavía está confundido por un fonema dado (es decir, un sonido individual del habla como una «e» o una «f»), tiene dos tipos de errores. Primero, está el hecho de que no reconoce el fonema por lo que se pretendía, y por lo tanto no está reconociendo la palabra. Y en segundo lugar, el modelo tiene que adivinar qué fonema tenía la intención del orador, y puede elegir el equivocado en los casos en que dos o más palabras suenan más o menos similares.

Imagen: sites.google.com

El segundo error en particular es uno que puede ser manejado inteligentemente. Tal vez usted diga: “I’m going back inside the house”, y el sistema no reconozca la «b» en «back» y la «h» en «house»; no es igual de probable que pretendiera decir: “I’m going tack inside the mouse”.

El sistema de IA puede usar lo que sabe del lenguaje humano -y de su propia voz o del contexto en el que usted está hablando- para llenar los vacíos de manera inteligente. Todo esto se maneja por ahora sólo en inglés.

Pero eso se deja a la investigación futura. Por ahora se puede leer el trabajo del equipo hasta ahora en el documento «Personalizing ASR for Dysarthric and Accented Speech with Limited Data», que se presentará en la conferencia Interspeech en Austria el próximo mes.

Botón volver arriba