Lee mis labios

Jueves, 12 de marzo del 2015

Tecnología
09:03

El desarrollo del reconocimiento digital de la voz podría depender más de la visión que de la audición.

Tweet
Enviar

“Si se comprueba que no funciona adecuadamente, no tendríamos más remedio que desconectarlo”. En la película de Stanley Kubrick “2001: Odisea del espacio” (1968), el astronauta Frank Poole, interpretado por Gary Lockwood, pondera qué debe hacerse con HAL, la computadora homicida a cargo de la nave.

Pero HAL se entera que sus amos humanos planean desenchufarlo porque puede leer sus labios, a través del vidrio de una ventana. Esta es una idea que los investigadores y las compañías digitales están cerca de convertir en realidad, aunque su objetivo no tiene que ver con robots que pilotan naves espaciales sino con mejorar el desempeño de dispositivos controlados por la voz tales como las aplicaciones Siri (de Apple) y Cortana (de Microsoft).

No obstante, aunque el software para el reconocimiento de la voz continúe mejorando, siempre dependerá de su entorno sonoro. Por ejemplo, pídale a su asistente digital que marque un número en una oficina silenciosa y escuchará los números correctos, haga lo mismo cerca de una calle atestada de tráfico o en una fiesta y probablemente quedará decepcionado. Qué bueno sería si los teléfonos pudiesen leer los labios.

Ahmad Hassanat, investigador de inteligencia artificial de la Universidad Mu’tah en Jordania, ha estado intentando enseñarle a una computadora a hacer precisamente eso. Los ensayos previos se han enfocado, comprensiblemente, en la forma y movimiento de los labios cuando construyen fonemas (sonidos individuales como “b”, “ng” o “th”).

Esas formaciones de sonido se llaman “visemas” y el problema es que solamente existe una docena para los 40 a 50 fonemas del idioma inglés. Por ejemplo, “pan” y “ban” se ven notoriamente similares para un lector de labios, lo cual hace que sea agotador reconocer palabras a partir de los visemas.

Es por ello que, a lo largo de los últimos años, Hassanat ha probado con la detección de marcas visuales de palabras completas, utilizando no solo el movimiento de los labios sino también el de la lengua y la posición de los dientes.

Este método ha logrado ciertos avances. En un artículo de investigación publicado el año pasado, Hassanat describe cómo capacitó a su sistema computarizado mediante la filmación de diez mujeres y 16 hombres de diferentes etnicidades leyendo pasajes de un texto. Primero, la computadora comparó dichas filmaciones con un texto que conocía y luego trató de deducir lo que estas personas decían en un segundo video.

Cuando la computadora utilizó el texto leído por cada persona para detectar lo que cada una decía en su respectivo segundo video, fue bastante precisa —detectó alrededor del 75%, en promedio, de las palabras pronunciadas por las 26 personas y hasta el 97% en el caso de una de ellas—.

Pero cuando el video inicial fue excluido del análisis, como si se tratase de asistentes digitales sin entrenamiento previo, la precisión del programa cayó a 33% en promedio y hasta 15% en algunos casos (al parecer, los bigotes y las barbas son especialmente confusos para el sistema).

Otra idea para desarrollar la lectura digital de labios es no enfocarse en la boca. El 2013, el ingeniero Yasuhiro Oikawa de la Universidad Waseda en Japón, usó una cámara de alta velocidad con capacidad para capturar 10,000 fotogramas por segundo. Se filmó la garganta de una persona mientras hablaba y se pudo medir las pequeñas y fugaces vibraciones en la piel ocasionadas por el acto de hablar.

En principio, las frecuencias precisas presentes en las vibraciones pueden ser utilizadas para reconstruir la palabra que está siendo pronunciada. Por ahora, sin embargo, el equipo de Oikawa solo ha logrado mapear las vibraciones visuales de una palabra (en japonés).

Los mejores resultados son obtenidos cuando un sistema hace más que observar pasivamente. La startup israelí VocalZoom tiene la idea de dirigir un rayo láser de baja potencia a las mejillas para medir las vibraciones, y utilizarlas para inferir las frecuencias del habla.

El sistema combina esos resultados con el audio de una voz emitido por un micrófono, sustrayendo el ruido ambiental o el generado por otras personas, dejando solamente las frecuencias que produce el movimiento de las mejillas.

En enero, la firma presentó su tecnología a la feria tecnológica CES en Las Vegas e impresionó a la prensa especializada. Pero este sistema todavía no está listo para el mercado masivo y, además, el prototipo aún es más grande que los smartphones en los que se pretende incluirlo.

No será fácil tentar a los fabricantes de estos aparatos para que añadan nuevos componentes cuando están en carrera para producir teléfonos cada vez más delgados y livianos.

VocalZoom podría tener más suerte si destina su tecnología a los autos, otro rubro cuya dependencia en el control de la voz está en aumento. La firma dice que está en conversaciones preliminares con una gran compañía automotriz. Quizá algún día podrá incorporar sus equipos de lectura de la voz a vehículos que surquen el espacio.

Gestion.pe

TAGS: The Economist, tecnologia, libros digitales, Hassanat

RELACIONADAS

Lee mis labios

RELACIONADAS

ÚLTIMA HORA ver todas

3613/11/18 | Retail 2019: cómo la Inteligencia Comercial y Artificial influirán en este sector

3714/11/18 | Mario Rodríguez: "El 2019 será un año de crecimiento para la tecnología en temas de Cloud"

3815/11/18 | Usos clave de Inteligencia Artificial que cambiarán los negocios en 2019

3915/11/18 | ¿Cuáles serán los tipos seguros que más crecerán en 2019?

4017/11/18 | [FOTOS] 5 reformas clave para subir posiciones en el ránking Doing Business

4119/11/18 | [VIDEO] ¿Cómo ha afectado el plano internacional a los sectores económicos?

4221/11/18 | [VIDEO] ¿Cuáles serán los sectores más dinámicos para el 2019?

4321/11/18 | [FOTOS] Sector seguros: a la caza del nuevo cliente digital

4422/11/18 | Cartera minera al 2021: US$8.000 millones en inversiones

4523/11/18 | Nube híbrida: 5 razones del porqué las empresas deben usarlas en 2019

4626/11/18 | [VIDEO] Consumo e inversión privada: los factores clave para el 2019

4727/11/18 | Del retail tradicional al e-commerce: ¿Cómo las empresas deben afrontar este cambio?

4828/11/18 | Banco Mundial y FMI: pronóstico 2019 para la economía peruana

4904/12/18 | [FOTOS] Tiendas 24/7: el retail moderno que se afianza en Perú

5004/12/18 | Pablo de la Flor: "La minería en 2019 deberá afrontar la conflictividad y la burocracia"

2624/08/18 | [FOTOS] Inteligencia Artificial aplicada en la industria automotriz

2727/08/18 | Sentiment Analysis y las fintech: una nueva sinergia

2828/08/18 | El reconocimiento facial despierta el interés de los 'big names' digitales

2929/08/18 | Tecnología Machine Learning para los no programadores

3003/09/18 | [FOTOS] ¿Cuáles son las innovaciones de Machine Learning en Supplain Chain?

3104/09/18 | ¿Hacia dónde se dirige la Inteligencia Artificial?

3212/11/18 | [VIDEO] Proyecciones de la economía peruana para el 2019

3312/11/18 | [FOTOS] Insurtechs: ¿Hacia dónde va el futuro del sector seguros?

3412/11/18 | Minería al 2019: 6 proyectos que dinamizarán la economía peruana

3512/11/18 | Economía 2019: ¿Cuáles son las amenazas y oportunidades a enfrentar?

BLOGS ver todos

PREGUNTADEL DÍA

WALL STREET VER TODOS

PREGUNTA
DEL DÍA