Aplicaciones que subtitulan el día a día y describen la vida en tiempo real

Dimitri Kanevsky, científico ruso de Google que padece sordera desde su infancia, tenía un sueño desde hace más de 30 años: desarrollar un sistema de reconocimiento de discursos para ayudar a la gente que no puede oír. En definitiva, ofrecer una accesibilidad universal a la información. El experto ha cumplido su sueño y explora cómo las interfaces táctiles y visuales se pueden utilizar para transmitir representaciones alternativas de sonido gracias a la inteligencia artificial (IA) y al aprendizaje automático (machine learning). 

La aplicación Live Transcribe que le acompaña en su día a día, disponible en todos los smartphones y en 70 idiomas, ofrece subtítulos en tiempo real de las conversaciones y ayuda a mejorar la pronunciación al ver un error de transcripción en la pantalla. El pasado jueves, en la planta 22 de la Torre Picasso de Madrid, Google ha presentado varias aplicaciones disponibles o en  investigación para móviles que mejoran la vida de los colectivos con discapacidad que suponen, según la Organización Mundial de la Salud, el 15% de la población.

La compleja trayectoria del científico fue lo que inspiró la creación de Live Transcribe. Su pasado no fue fácil y él lo asume: “He sido muy discriminado. Imagínese en Rusia hace 30 años”. El investigador recuerda un cartel en la puerta de una universidad de Moscú: “Acceso prohibido a las personas invidentes y sordas”. Pese a ello, no renunció a estudiar e integró una clase de oyentes con la ayuda de sus padres y traductores y consiguió matricularse. Durante su carrera, recurrió por ejemplo a los servicios de CART (Transcripción asistida por computadora en tiempo real) que costaban 150 dólares por hora, pero todas las empresas no se lo podían permitir. Fue como un clic.

“Al ver que la comunicación con los demás seguía siendo un obstáculo y, además, costoso, quise utilizar la tecnología para mejorar la integración de mi colectivo al ámbito laboral y escolar”, explica. En el mundo, hay hasta 360 millones personas que padecen sordera o pérdida auditiva. La OMS prevé que en 2055 sean 900 millones. Live Transcribe necesita conexión a la red y entrenamiento, pero es capaz de traducir perfecta y directamente un discurso, una vez se acostumbre al habla del interlocutor.

Frente a los posibles problemas de conexión, los investigadores desarrollan algoritmos para dos nuevas aplicaciones: Euphonia y Parrotron, cuyas características ayudan a la gente con discapacidad muscular o incapaz de oír su voz (y por lo tanto con dificultades para crear sonido) a hacerse entender. Kanevsky ha grabado unas 15.000 frases que suman 25 horas de diálogo para formar el programa de Euphonia. Todas estas técnicas, aunque necesiten ensayarse, le permiten hablar con gente, dar conferencias, pedir al altavoz inteligente de Google que apague la luz de casa y, sobre todo, comunicarse con sus nietas sin necesitar la traducción de su esposa.

El científico asegura que no se perderán puestos de traductores, ya que es imprescindible para algunas personas combinar los dos métodos de transcripción. “A algunos les cuesta hablar y solo recurren al idioma de los signos. Desde Google, lo apoyamos mucho. Eso sí, las cosas tienen que cambiar y el traductor deberá adaptarse a las innovaciones tecnológicas”, asevera. 

Ver el mundo sin retinas

Enhamed Enhamed Mohamed Yahdih (Canarias, 32 años), es invidente y nadador paralímpico español. Sentado en primera fila, se levanta y toma el móvil que le ofrece Kanevsky para la demostración de una aplicación de Google lanzada en marzo: Lookout. “Cuatro flores a la una”, “una camisa de cuadros y unos vaqueros a las doce”, “un calcetín a las doce”, le avisa una voz de mujer mientras se desplaza por la sala. Enhamed repite que esta tecnología le ha cambiado la vida. “Basta con poner el móvil a la altura de mi cara y me va contando todo lo que veo, las puertas de embarque, el menú de un restaurante, si me he dejado la luz encendida de casa, etcétera”, detalla el deportista.

El medallista reconoce que depende de la tecnología, que si pierde el iPhone no tardará ni medio segundo en comprarse otro. “Me ha facilitado el día a día, me lee todo, me permite ver el mundo”, destaca. Un tercio de la población sufre discapacidad visual, según el último informe de la OMS. Frente a ello, Lookout puede ser una solución para mejorar su integración y comunicación, según confirman los ponentes. Además, la app se adapta al entorno y a las preferencias del usuario.

En la misma línea, Kanevsky presenta Live Caption, una plataforma que ofrece una descripción de las imágenes. “Es un señor sentado en el sofá tocando la guitarra”, por ejemplo. El nadador explica que muchas veces se sentía perdido en los grupos de WhatsApp al no poder ver las imágenes, ni los GIF. Ahora, gracias a todos estos sistemas, sabe de qué se habla, se ríe de las mismas bromas, puede reconocer billetes para que no le timen y vivir de manera independiente. “Antes tenía muchos problemas de comunicación, no podía leer la prensa, mis correos y mensajes, pero ahora, el poder leer imágenes a diario es un cambio increíble. Estas innovaciones no son solo útiles para nosotros, la accesibilidad mejora la vida de todos”, concluye.

Fuente: EL PAÍS
Ir al artículo original