Por Alborz Geramifard, director de investigaciones de Meta AI
Si pudiéramos interactuar con un asistente de Inteligencia Artificial en un lenguaje natural y conversacional del mismo modo en que lo hacemos con las personas, nuestras vidas serían más fáciles en innumerables aspectos. Sin embargo, los asistentes actuales se encuentran limitados, ya sea que interactuemos con ellos por mensaje de voz o de texto. Se paralizan con facilidad ante solicitudes como «Silenciar todas las notificaciones durante el resto del día, a menos que llame mi mamá», y ni hablar de preguntas como «¿Puedo rentar el centro comunitario para hacer una fiesta privada?», o cuando se les quiere asignar tareas como «Planifica unas vacaciones familiares baratas en la playa para el fin de semana del 4 de julio».
Es tiempo de mejorar la Inteligencia Artificial conversacional.
Por ello, nos complace anunciar Project CAIRaoke. Desarrollamos un modelo neural extremo a extremo con la capacidad de generar conversaciones más personales y con mayor contexto que con los sistemas que las personas conocen hoy. Ya usamos el modelo creado a través de CAIRaoke en uno de nuestros productos, Portal, y pretendemos integrarlo en otros dispositivos de Realidad Virtual (RV) y Realidad Aumentada (RA) para habilitar interacciones envolventes y multimodales con los asistentes en el futuro.
Tal vez el mayor obstáculo para mejorar la Inteligencia Artificial conversacional es la arquitectura que impulsa incluso a los asistentes más avanzados de la actualidad. Si bien estos sistemas proporcionan un único servicio, en realidad dependen de cuatro componentes independientes: comprensión del lenguaje natural (NLU por sus siglas en inglés), seguimiento del estado del diálogo (DST por sus siglas en inglés), política de diálogos (DP por sus siglas en inglés) y generación de lenguaje natural (NLG). Como estos diferentes sistemas de IA deben trabajar en conjunto, les resulta difícil optimizarse, les cuesta adaptarse a tareas nuevas o desconocidas y dependen en gran medida del procesamiento de alta demanda de conjuntos de datos categorizados.
Este es uno de los motivos por los que los asistentes digitales en la mayoría de los dispositivos actuales restringen a los usuarios con opciones limitadas, no tienen en cuenta el contexto de la conversación y siguen, en la mayoría de los casos, flujos de diálogo preestablecidos. Es posible que puedas solicitar al asistente que te indique el pronóstico local del clima, por ejemplo, pero se confundirá si le haces una pregunta sencilla como «¿Hace más calor que la semana pasada?».
Con los modelos creados a través de Project CAIRaoke, las personas podrán hablar de manera natural con sus asistentes conversacionales, de modo que puedan retomar el tema de una conversación anterior, cambiar por completo de tema o mencionar asuntos complejos que requieren de entendimiento contextual. También podrán interactuar con ellos de nuevas maneras, por ejemplo, usando gestos.
Empezamos a utilizar este modelo en Portal, el dispositivo de videollamadas de Meta, para facilitar las tareas de crear y administrar recordatorios. Por ejemplo, puedes aclarar con rapidez una solicitud como la siguiente sin tener que repetirla:
👩: Programa un recordatorio para las 6:30.
: ¿De la mañana o de la tarde?
👩: De la tarde y ponle de nombre «Comprar huevos».
: Bien, tu recordatorio para comprar huevos se configuró para mañana a las 6:30 p.m.
Incluso en esta prueba preliminar, pensamos que el modelo supera en eficacia a los enfoques estándar. En Portal, observamos una mejora significativa en comparación con el enfoque actual en la evaluación del dominio de los recordatorios, según la medición de la tasa de éxito al completar un conjunto de objetivos de recordatorios, al tiempo que se mantiene la cantidad necesaria de interacciones sin repetición.
Sin embargo, este es solo un primer paso hacia el uso de esta nueva tecnología. Creemos que el progreso logrado con Project CAIRaoke nos permitirá propiciar una comunicación más enriquecida entre las personas y la IA, lo que se transformará en una herramienta esencial a medida que desarrollamos el metaverso. Un día, podría existir un asistente con tecnología CAIRaoke integrado en lentes de RA de muchas maneras nuevas y útiles. Por ejemplo, si preguntaras «¿Qué combina con estos pantalones?», te podría responder «Aquí tienes una camisa de color rojo, tu favorito» y mostrarte una imagen de la prenda que encontró para ti. Y si dijeras «Me gusta, pero las rayas son demasiado anchas», te mostraría una versión con rayas más finas.
En el futuro, esperamos aprovechar modelos generados a partir de este proyecto en aplicaciones cotidianas como esta, para millones de personas de todo el mundo.
Desarrollo de IA conversacional verdaderamente interactiva
Un paso necesario para que la IA conversacional progrese, es poder entender por completo el alcance del problema. Muchas personas observan los recientes avances en NLU, como BART y GPT-3, y piensan que con eso se supera el desafío de entender y generar texto similar al habla de una persona. Para entender por qué aún no hemos llegado a ese punto, debemos dividir la IA en dos: por un lado, la comprensión y, por otro, la interacción. Respecto de la primera, se realizaron exhaustivas investigaciones y está bien desarrollada en el sector. Esta se utiliza para extraer significado de diferentes modalidades de información, como reconocimiento automático del habla, clasificación de imágenes y comprensión del lenguaje natural. En cuanto a la interacción, se trata de cómo usamos nuestra comprensión del mundo para interactuar con otros por medio de la tecnología. Puede ser enviar un mensaje de texto, utilizar un comando de voz, recibir una retroalimentación háptica, mostrar una imagen, un video, la cara de un avatar, o una combinación de todos ellos.
Los investigadores e ingenieros del sector concuerdan en que los sistemas conversacionales eficaces necesitan una capa de comprensión sólida que funcione con modelos de IA. No obstante, muchos consideran que la interacción es un problema de ingeniería, no de IA. Por lo tanto, un ingeniero que conoce el estado del mundo puede crear una lógica elaborada para abordar la interacción requerida. El enfoque de ingeniería permite entender fácilmente cómo funciona el sistema y corregir con rapidez errores en la lógica de ser necesario. Pero esta creencia generalizada resta solidez a la IA conversacional principal motivo por el que no puedes planificar tus vacaciones con facilidad a través de estos asistentes.
Un enfoque nuevo y unificado
Texto: estos ejemplos de diálogos muestran las competencias clave que queremos que tengan los asistentes. No solo buscamos que proporcionen conocimientos precisos actualizados del mundo real, sino que trabajen de manera multimodal (en este caso, combinando visión y habla), en diferentes dominios (enviar un mensaje y también calcular la hora de llegada a un lugar) y que te permitan dirigir la conversación, en lugar de seguir una plantilla de conversación rígida.
Este enfoque canónico respecto de los asistentes con IA exige cuatro conjuntos de datos de entrada y de salida, uno para cada capa del canal (NLU, DST, DP y NLG). Asimismo, requiere de normas definidas para los datos de entrada y de salida de cada capa. Por ejemplo, para NLU, un sistema de IA conversacional tradicional requiere ontologías definidas (p. ej., diversas intenciones y entidades).
Por su parte, el modelo de Project CAIRaoke usa una red neural y no necesita dictar un flujo conversacional en absoluto. Con este modelo, simplemente necesitamos un conjunto de datos de entrenamiento.
Project CAIRaoke reduce el trabajo requerido para agregar un nuevo dominio. En el enfoque canónico, agregar un nuevo dominio exige que, sucesivamente, se desarrolle y corrija cada módulo para que el próximo se pueda perfeccionar de manera confiable. En otras palabras, no se puede perfeccionar la gestión de la política de diálogos (DP) de manera efectiva si la comprensión del lenguaje natural (NLU) y el seguimiento del estado del diálogo (DST) cambian a diario. Una modificación en un componente podría afectar a los demás y hacer que se deban de entrenar de nuevo a todos los módulos subsiguientes. Esta interdependencia ralentiza el progreso en módulos subsecuentes. Pero, gracias a nuestra técnica extremo a extremo, eliminamos esta dependencia en módulos anteriores, con lo que aumentamos la velocidad de desarrollo y entrenamiento y podemos perfeccionar otros modelos sin tanto esfuerzo y con menos datos.
Con nuestro nuevo enfoque, los diálogos son mucho más sólidos porque los asistentes pueden tomar decisiones observando la gama completa de información en un solo lugar. Antes, incluso un pequeño error en un componente podría propagarse a los demás de formas inesperadas y difíciles de solucionar. Por ejemplo, los asistentes basados en reglas actuales están explícitamente programados para buscar palabras o frases específicas (como «p. m.» después de un número para saber que se trata de la tarde), mientras que Project CAIRaoke usa modelos de lenguaje avanzados entrenados anticipadamente y que comprenden mejor el contexto y pueden reconocer distintas maneras de decir lo mismo.
Por último, Project CAIRaoke fusiona la tecnología detrás del bot conversacional más reciente de Meta AI, BlenderBot 2.0, con diálogos orientados a tareas. Esto significa que los asistentes desarrollados con nuestro modelo podrían exhibir lenguaje empático, transmitir conocimientos obtenidos a partir de búsquedas en internet en tiempo real y mostrar una personalidad consistente.
Cuando los sistemas generan lenguaje natural, es fundamental abordar los posibles desafíos en materia de seguridad y privacidad. Dado que la mayoría de los componentes actuales de NLG siguen un guion, los moderadores de contenido se aseguran de que los asistentes no proporcionen respuestas ofensivas a los usuarios. Sin embargo, al conectar al asistente directamente con el usuario, hay riesgo de errores o interacciones desagradables.
Cabe destacar que incorporamos protecciones intrínsecas en BlenderBot que permitirán reducir las instancias de respuestas ofensivas. Asimismo, estamos desarrollando tecnología para los asistentes teniendo en cuenta la privacidad. Por ejemplo, con Ray-Ban Stories y Portal, el uso de comandos de voz es opcional, puedes ver y eliminar las transcripciones de los comandos de voz y siempre tienes la opción de desactivar el almacenamiento de voz.
Para mitigar el riesgo de que se generen respuestas ofensivas para los usuarios, el primer hito de Project CAIRaoke era generar tanto acción de diálogo como lenguaje natural. En el corto plazo, generamos acciones de diálogo y nos basamos en un sistema de NLG comprobado y estrechamente restringido para proporcionar una respuesta al usuario. En el largo plazo, expondremos las oraciones generadas tras garantizar la integridad extremo a extremode nuestro modelo.
Otro problema que tienen en común otros tipos de sistemas de NLP, es la alucinación, que ocurre cuando un modelo afirma con seguridad cierta información que no es correcta. Este es un enorme desafío para las técnicas extremo a extremo, ya que los modelos pueden tender a introducir o alterar entidades en el diálogo en función de datos de entreanamiento. Por ejemplo, si le pides a un asistente «Configura un recordatorio para llamar a Ankita», puede configurarlo para llamar a Ankit, ya que Ankita es un nombre menos común. Usamos varias técnicas de incremento de datos y redes de atención para aportar solidez a Project CAIRaoke y aprovechamos el trabajo ya hecho con BlenderBot 2.0 para reducir la alucinación.
Uso de la voz para diversas tareas cotidianas
Si bien nuestra implementación del modelo de Project CAIRaoke en el corto plazo es para los recordatorios en Portal, esperamos poder emplearla pronto en dominios más amplios que permitirán que personalicemos las experiencias de compra, que los asistentes mantengan el contexto en diversos chats y que las personas dirijan el flujo de la conversación.
También pensamos que este avance es de particular utilidad en el desarrollo de capacidades de diálogo impulsadas por IA para Realidad Aumentada. En un futuro no tan lejano, las personas usarán asistentes de voz de forma regular en sus lentes de RA, como lo hacen hoy con altavoces, relojes y otros dispositivos inteligentes. Con eso en mente, trabajamos para reducir el tamaño de modelos extremo a extremo como este, para poderlos procesar dentro de los mismos dispositivos, dado que los modelos que se procesan en el dispositivo también ofrecen beneficios adicionales de seguridad, privacidad y desempeño. Asimismo, estamos trabajando para que resulte más fácil corregir errores en el modelo, lo que supone un complicado desafío porque, en este nuevo marco, la información se representa en el espacio de integración, mientras que, en el modelo canónico, es explícito. Para hacer realidad nuestra visión de Project CAIRaoke, también necesitamos incorporar varios idiomas y encontrar formas de usar el modelo con eficiencia a gran escala.
Podemos imaginar que, al cabo de unos años, la tecnología de Project CAIRaoke constituirá la base de la próxima generación de interacción entre personas y dispositivos. En dispositivos como visores de RV y lentes de RA, esperamos que, eventualmente, este tipo de comunicación sea el método predominante y sin fricción de navegación e interacción, tanto como cuando las pantallas táctiles reemplazaron los teclados en los teléfonos móviles. Nuestro modelo actual constituye un paso importante hacia el futuro, pero aún queda mucho por hacer para concretar esta visión. Nos complacen tanto el progreso logrado, como los desafíos que enfrentaremos de cara al futuro.