FRANCESCO RODELLA | Tungsteno
"Nunca he querido a nadie como te quiero a ti", declara Theodore a Samantha, su futurista asistente de voz en la película Her. A diferencia de esa relación íntima de ciencia ficción, en nuestra realidad cotidiana estos sistemas de inteligencia artificial todavía nos entienden poco (y a veces, mal), y no acaban de entusiasmar a los usuarios.
A pesar de ello, Siri, Alexa, Assistant, Bixby y Cortana han empezado a tener un impacto considerable en el día a día, impulsados por todos los gigantes tecnológicos (Apple, Amazon, Google, Samsung y Microsoft, respectivamente) Presentes ya en nuestros móviles, tabletas, televisores y altavoces inteligentes, seguirán creciendo en 2019 —según distintos análisis y estudios—, vinculados a nuevas comodidades en campos como la domótica.
De momento, estos asistentes encuentran dificultades, por ejemplo, para captar el habla de perfiles de usuario específicos, como las personas con tartamudez, con acentos diferentes del estándar en un determinado idioma o bilingües. Pero también en un tipo de experiencia más común, cualquier usuario notará que, en la mayoría de los casos, son incapaces de sostener una conversación. ¿Por qué?
Los asistentes de voz replican el funcionamiento de los buscadores de Internet. Crédito: Bence Boros
El catedrático en el área de Lenguajes y Sistemas Informáticos de la Universidad de Jaén Luis Alfonso Ureña, nos explica que estos sistemas se apoyan en una tecnología denominada procesamiento del lenguaje natural (PLN). Su objetivo es que sean capaces de captar un mensaje humano, (en este caso de voz), lo traduzcan en lenguaje de programación para poder entenderlo y generen a su vez respuestas comprensibles para nosotros. El PLN se topa con aspectos complejos de las lenguas, como la ironía, el sarcasmo o las palabras con más de un significado, según destaca el experto.
En concreto, los asistentes actuales representan una evolución del sistema de búsqueda-respuesta que sustenta el funcionamiento de buscadores como Google o Bing, agrega Antonio Moreno, del Instituto de Ingeniería del Conocimiento. "Cuando hablamos con la máquina, esta traduce las peticiones y hace una búsqueda por cada una de las preguntas. Pero no hay enlace entre ellas", explica. El lingüista computacional pone un ejemplo de diálogo fallido:
Pregunta del usuario: ¿Qué tiempo hace hoy en Gijón?
Respuesta del asistente virtual: Hoy en Gijón hay 20 grados y el cielo está nublado.
P. ¿Tengo que llevar paraguas?
R. Resultados de la búsqueda "sitios donde se pueden comprar paraguas en Gijón".
La dificultad principal, considera Moreno, es que los asistentes reconozcan los "infinitos mensajes posibles" en una lengua natural. "Tampoco un humano puede dominarlos todos. No se puede pedir a las máquinas cosas de las que no somos capaces ni nosotros, que somos los que las programamos", deja claro.
Claves para reducir malentendidos
El experto recuerda que existen también asistentes "enfocados a una tarea específica", como la venta de un billete de tren o de una entrada de cine. Acotar el campo de acción permite acercar más la experiencia del usuario a la de una conversación real, argumenta. "Estos sistemas funcionan mejor porque los programadores han diseñado previamente un árbol de diálogo, que tiene un punto de partida y llega a un sitio concreto".
Según agrega, una estrategia útil es introducir respuestas preprogramadas para cuando el asistente no entiende una oración. De esta manera, se intenta obtener por parte del usuario una pregunta menos ambigua. Reducir los malentendidos es un objetivo declarado también de Sherpa, start-up española del sector. Su tecnología "incorpora cinco niveles de análisis lingüístico (morfológico, sintáctico, semántico, pragmático y funcional)" para eliminar ambigüedades, nos cuenta el CEO Xabi Uribe-Etxebarria.
La comprensión del lenguaje natural es el gran reto de los asistentes de voz. Crédito: Piotr Cichosz
Para Ureña, la tecnología de los asistentes virtuales como Siri o Alexa está todavía "en pañales". El catedrático cree que en el futuro sus capacidades se extenderán mucho más. Entre los aspectos mejorables, indica la necesidad de que no contesten solo a preguntas "factuales", (es decir, que se basan en datos como cuándo, dónde, quién), sino también a peticiones más complejas, y que las respuestas sean precisas y proporcionadas en tiempo real. Incluso, agrega, se está investigando cómo representar de manera comprensible para las máquinas patrones más complejos como sentimientos y emociones. "Lo asistentes se tienen que adaptar a nosotros, ir aprendiendo", sostiene.
¿Cómo fomentar el diálogo?
De hecho, los sistemas de aprendizaje automático de los asistentes vocales están en constante entrenamiento. "Escuchan y procesan continuamente la información que reciben, aunque los activa una palabra clave", apunta Ureña. De esta manera, pueden ampliar las preguntas reconocibles y tener más ejemplos de cómo se puede formular cada una. Y como reflejan algunas pruebas, en tan solo un año su porcentaje de acierto en las respuestas puede aumentar considerablemente.
Los investigadores y empresas que trabajan en el ámbito del PLN tienen ahora un desafío más. "El razonamiento según el sentido común, el entendimiento del lenguaje natural y los sistemas pregunta/respuesta alimentados por la Inteligencia Artificial son muy útiles, pero todavía no son capaces de sostener un diálogo. La comprensión profunda del lenguaje natural es todavía un reto", apunta el informe AI Index Report, dirigido por la Universidad de Stanford y publicado el pasado diciembre.
Antonio Moreno cree que las grandes compañías tecnológicas están investigando para superarlo, pero asegura no estar al tanto de que ya estén cerca posibles soluciones. Y no están perdiendo el tiempo, según demuestran iniciativas como la presentación del Proyecto Debater, un robot de IBM que ya es capaz de participar en una tertulia con un campeón mundial de debates. Un paso más hacia el diálogo íntimo que imaginó Spike Jonze en su película Her.
· — —
Tungsteno es un laboratorio periodístico para explorar la esencia de la innovación, ideado por Materia Publicaciones Científicas para el blog de Sacyr.