Les interfaces homme-machine au poignet : des interactions basées sur le poignet pour la plate-forme informatique du futur

Dans le cadre des études menées par les Facebook Reality Labs (FRL), nous développons actuellement une interface de réalité augmentée avec l’objectif de ne pas avoir à faire un choix entre les personnes et nos appareils. Désireux de transformer notre manière de communiquer avec les personnes du monde entier, nous créons de nouvelles manières plus naturelles et intuitives d’interagir avec les lunettes de réalité augmentée.

Contrairement aux téléphones mobiles qui dévient l’attention vers la périphérie sur le creux de la main, les lunettes de réalité augmentée verront le monde exactement comme il est, en plaçant pour la première fois l’humain au cœur de l’expérience informatique et en mettant à sa portée un univers numérique en trois dimensions, pour lui permettre de communiquer, naviguer, apprendre, partager et agir sur le monde.

La semaine dernière, nous avons exposé notre vision sur 10 ans de l’avenir des interfaces homme-machine. Celles-ci demandent une interface offrant très peu de friction, facile à découvrir et à utiliser, d’une grande fiabilité et confidentialité, et nous permettant de toujours rester complètement présent dans le monde réel. Pour devenir notre mode privilégié d’interaction avec l’univers numérique, cette interface va requérir de nombreuses d’innovations. Parmi les points les plus critiques, citons l’AI sensible au contexte, capable de comprendre l’intention, mais aussi les entrées de données à faible degré de friction permettant de communiquer avec le système et d’utiliser ses commandes sans effort. L’AI saura déduire de manière complexe les informations pouvant vous être utiles ou ce que vous êtes susceptible de vouloir faire dans différents contextes, en vous comprenant en profondeur, vous et votre environnement. Cela lui permettra de vous présenter un éventail de choix sur mesure. Grâce à ces données, vous pourrez faire votre choix en toute simplicité, aussi facilement qu’en cliquant sur un bouton disponible en permanence via un léger mouvement du doigt.

Mais le développement de ce système prendra de nombreuses années. Pour l’instant, nous allons regarder de plus près sa version la plus envisageable à court terme : l’alliance entre des données d’entrée au niveau du poignet et une AI contextualisée exploitable mais limitée, s’adaptant dynamiquement à votre environnement et à vous-même.

Nous avons commencé à imaginer le dispositif d’entrée idéal pour les lunettes de réalité augmentée il y a six ans, à l’occasion de la fondation de FRL Research, qui s’appelait alors Oculus Research. Nous nous étions donné comme mission de concevoir une technologie d’entrée généralisée, capable de répondre à la grande variété des besoins de tous les types de personnes et d’être utilisable dans toutes les situations du quotidien. Ce système devait être intuitif, disponible en permanence, non intrusif et facile à utiliser. Dans l’idéal, il devait aussi prendre en charge des commandes complexes à bande passante élevée, afin de couvrir les types d’interaction avec nos dispositifs demandant de l’attention, comme la manipulation d’objets virtuels ou la modification de document. Qui plus est, il devait être compatible avec un facteur de forme suffisamment confortable pour être porté toute la journée et offrir une consommation basse d’énergie lui permettant de fonctionner sans interruption.

En bref, nous avons placé la barre très haut. L’examen des différentes possibilités nous a permis de constater deux choses. Tout d’abord, il n’existait encore rien qui remplissait, ni de loin, tous ces critères. Ensuite, n’importe quelle solution qui se présenterait finalement devrait être localisée au niveau du poignet.

Les avantages du poignet

Mais pourquoi le poignet ? Il existe tellement d’autres sources d’entrée disponibles, aussi utiles les unes que les autres. La voix est intuitive, mais ne permet pas la confidentialité ni la fiabilité. Un dispositif séparé à mettre dans sa poche comme un téléphone ou une manette de jeux est une source de friction entre l’utilisateur et son environnement. Au fil de l’examen des différentes possibilités, une réponse se profilait clairement : il fallait placer le dispositif d’entrée au poignet. Traditionnellement destinée à porter une montre, cette partie du corps est en effet adaptée à tous les contextes sociaux et du quotidien. Elle garantit également le confort tout au long de la journée. Et elle est juste à côté du principal instrument que vous utilisez pour interagir avec le monde, à savoir vos mains. Cette proximité nous permettrait de profiter des grandes capacités de commande de vos mains pour l’AR, avec à l’arrivée des interactions intuitives, performantes et satisfaisantes.

De plus, un accessoire portable au poignet offre l’avantage de pouvoir facilement servir de plate-forme pour le système, la batterie et les antennes, toute en prenant en charge une vaste gamme de capteurs. Il restait à trouver une manière de garantir la richesse des entrées, et la solution idéale semblait passer l’EMG.

L’EMG ou électromyographie fait appel à des capteurs pour traduire les signaux électriques des nerfs moteurs transmis de la moelle épinière vers le poignet et la main, qui sont convertis en commandes utilisées dans le contrôle des fonctionnalités d’un appareil. Ces commandes vous permettent de communiquer avec une grande précision avec votre appareil, avec un degré de contrôle extrêmement personnalisable et adaptable à de nombreuses situations.

Les signaux passant par les poignets sont tellement clairs que l’EMG peut capter un mouvement de doigt d’à peine un millimètre. L’entrée des données se déroule donc de manière très fluide. En fin de compte, il peut même être possible de capter jusqu’à la simple intention de bouger un doigt.

« Avec les interfaces neurales, nous cherchons à vous donner le contrôle direct de la machine, en utilisant les émissions du système nerveux périphérique, les nerfs en dehors du cerveau qui font bouger votre corps », déclare Thomas Reardon, Director of Neuromotor Interfaces au sein des FRL. « Au lieu d’écrire ou de faire glisser, vous exprimez votre intention de la même manière via votre système nerveux, et le bracelet utilise l’activité électrique des neurones de l’ensemble de votre système nerveux pour créer de nouvelles manières intuitives d’interagir avec vos appareils. »

Rien à voir avec la télépathie : il s’agit de canaliser la même action que vous réalisez en choisissant une chanson sur votre téléphone ou en écrivant sur un clavier.

« Nous n’essayons pas de lire vos pensées ; il n’y a même pas de définition claire de ce qui constitue une pensée, et encore moins de comment les détecter, » explique Reardon. « C’est vos intentions que nous tentons de comprendre. Or celles-ci sont exprimées par l’amorce d’un mouvement, l’élan qui le précède. » Autrement dit, nous essayons de réagir plus facilement et rapidement aux consignes que vous allez envoyer à votre appareil.

Reardon a rejoint l’équipe des FRL suite à l’achat par Facebook en 2019 de CTRL-labs, une entreprise neuro-scientifique qui développait une interface neurale portable et non invasive. L’équipe a depuis réalisé d’importants progrès dans l’étude de l’apprentissage moteur, en réduisant par exemple le temps nécessaire à l’apprentissage des modèles de claviers personnalisés.

Contrôle dynamique au poignet

L’EMG a le potentiel nécessaire à faire apparaître de nouvelles formes dynamiques d’interaction. Les bracelets dotés de l’EMG rendent possible des gestes extrêmement fiables comme celui de joindre et séparer le pouce et l’index. Ils sont faciles à exécuter quel que soit le contexte, en marchant, parlant, ou assis les mains de chaque côté, devant vous ou dans vos poches. Le claquement de doigt fonctionne toujours, sans besoin d’ajouter un mot d’activation, ce qui en fait la première interaction à basse friction généralisée pour l’AR.

Mais ce n’est que le début. Il sera peut-être un jour plus rapide d’écrire en utilisant l’EMG qu’un clavier à l’usage. En plus des petits mouvements de doigt utilisés pour choisir entre plusieurs options, notre programme cherche à permettre les interactions reposant sur l’EMG au niveau du poignet, sur des surfaces comme la paume de la main ou une table.

« Toute l’histoire de l’interaction entre l’homme et les machines est marquée par le contrôle croissant de la machine sur l’homme, au détriment de ce dernier, » explique Reardon. « Les interfaces neurales ont pour objectif d’inverser le cours de la longue histoire des interactions homme-ordinateur, afin de reprendre le dessus et d’échapper à ce contrôle. Nous voulons placer l’homme au centre absolu de toute l’expérience informatique. »

Prenez par exemple le clavier QWERTY. Il a déjà plus de 150 ans et mériterait d’être radicalement amélioré. Imaginez plutôt un clavier virtuel capable d’apprendre et de s’adapter à votre manière unique d’écrire (fautes d’orthographe comprises) au fil du temps. Le résultat serait un clavier qui se transforme peu à peu au contact de l’utilisateur, au lieu d’un seul clavier physique que tout le monde est forcé d’apprendre à utiliser. Il serait plus rapide que n’importe quelle interface de frappe, mais également toujours disponible, étant donné que l’utilisateur est le clavier.

« Il nous semble que nos accessoires bracelets peuvent ouvrir un chemin vers une entrée à friction extrêmement faible, disponible en permanence, pour les lunettes de réalité augmentée, mais ils ne constituent pas une solution à part entière, tout comme la souris n’est qu’une pièce de l’interface graphique », déclare Hrvoje Benko, Director of Research Science au sein des FRL. « Ils ont besoin d’être associés à la prévision des intentions et à la modélisation utilisateur, qui s’adapte à vous et votre contexte particulier en temps réel. »

La combinaison entre les micro-gestes pour l’entrée des données et une interface adaptative permet d’aboutir à ce que nous appelons les « clics intelligents. »

« L’AI sous-jacente est en mesure d’avoir une compréhension partielle de ce que vous allez vouloir faire par la suite », explique Tanya Jonke, Research Science Manager pour les FRL. « Prenons que vous sortez courir un peu. Sur la base de votre comportement passé, le système interprète qu’il y a de fortes chances que vous ayez envie d’écouter votre playlist spéciale footing. Il affiche alors cette proposition : « Lire la playlist footing ? » Voilà l’interface adaptative en pleine action. Il s’agit alors pour vous de confirmer ou de modifier cette suggestion en utilisant un micro-geste. Les clics intelligents vous offrent la possibilité de réaliser ces actions hautement contextuelles avec une grande fluidité, lorsque l’interface trouve quelque chose d’extrêmement pertinent sur la base de votre historique et de vos choix personnels. Tout cela avec un minimum de gestes qui transmettent des données d’entrée. »

Certes, vous ne gagnez que quelques secondes par interaction, mais au bout du compte toutes ces secondes viennent s’ajouter les unes aux autres. Et surtout, ces gestes subtiles ne viennent pas vous interrompre dans vos pensées ni vos mouvements. Pensez par exemple à tout le temps que vous gagneriez si vous n’aviez pas à vous détourner de ce que vous êtes en train de faire pour choisir et ouvrir la bonne application avant d’interagir avec l’univers numérique. Pour que les lunettes de réalité augmentée améliorent vraiment notre quotidien et nous permettent d’être présents au monde à chaque instant, il nous faut une interface adaptative identifiant tout en douceur des informations numériques, seulement lorsqu’elles sont pertinentes, en se fondant naturellement dans l’arrière-plan le reste du temps.

« Au lieu de dévier constamment votre attention vers un dispositif, l’interface devrait simplement être présente ou en retrait selon vos besoins », remarque Jonker, « et elle devrait pouvoir réguler son comportement en fonction des signaux de retour extrêmement légers que vous envoyez au système concernant l’utilité de ses suggestions. De cette manière, le système s’améliore au fil du temps ».

Mais ce n’est pas une mince affaire, et certains défis techniques se posent encore. La création d’une interface identifiant et interprétant le contexte d’après l’utilisateur et son environnement exige des progrès dans le domaine du machine learning, des interfaces homme-machine, de la conception de l’interface utilisateur et de la modélisation de l’intégralité de l’état utilisateur. Il nous faut déterminer comment aller au-delà des interfaces traditionnelles, ce qui implique d’améliorer des décennies de théorie sur les interfaces homme-machine en combinant la recherche autour des principes fondamentaux et l’exploration de prototypes.

« Avec les interfaces AR adaptatives, nous inventons une manière complètement innovante de concevoir, contrôler et utiliser la totalité du système interactif », souligne Benko. « L’interface adaptative doit comprendre votre contexte : l’espace autour de vous, vos actions passées, vos liens sociaux, et bien plus encore. Il lui faut utiliser ces informations pour prévoir ce que vous êtes susceptible de faire. Mais il s’agit aussi de tirer un apprentissage de vos actions et améliorer nos modèles à chaque étape du processus. Et tout cela de manière constante pendant son exécution, ce qui la distingue de toutes les autres interfaces que nous connaissions jusqu’alors. »

L’haptique en ligne de mire

Les données d’entrées à très faible friction comme un claquement de doigt ou des micro-gestes nous permettent d’interagir avec les interfaces adaptatives. Mais il nous faut trouver une manière de clore le cercle du retour d’informations, en permettant au système de répondre à l’utilisateur. C’est là que l’haptique entre en jeu.

« De la première fois que le bébé saisit quelque chose à la manipulation adroite d’objets et l’écriture sur un clavier, il existe une riche boucle de retour d’informations. Lorsque vous percevez et faites des choses avec vos mains et vos doigts, vous ressentez des sensations en retour, qui vous font interagir avec le monde », déclare Sean Keller, Research Science Director pour les FRL. « Nous avons évolué de manière à tirer parti de ces signaux haptiques dans notre apprentissage du monde. C’est l’haptique qui nous permet d’apprendre à utiliser des outils et à être aux commandes. Du chirurgien qui utilise un scalpel au pianiste qui joue en sentant les limites des touches, tout dépend de l’haptique. Et ce bracelet n’est que le début. Nous ne pouvons pas reproduire toutes les sensations que vous pouvez connaître en interagissant avec un vrai objet, mais nous sommes sur la bonne voie pour bon nombre d’entre elles. »

Imaginez un arc et une flèche virtuels. Grâce à l’haptique basée sur le poignet, nous sommes en mesure d’imiter la sensation de tirer la corde de l’arc, pour garantir au tireur que l’action est correctement réalisée. Ce n’est qu’un exemple, mais il permet d’illustrer comment l’haptique sera peu à peu capable de reproduire de nouveaux schémas d’interaction.

Grâce au retour d’informations fourni par l’haptique, les interfaces homme-machine deviennent un véritable dialogue entre vos dispositifs et vous. Plusieurs vibrations et battements pourraient ainsi vous avertir de la réception d’un e-mail marqué comme « urgent », alors que les e-mails normaux ne seraient associés qu’à un seul battement ou à aucune information haptique, selon vos préférences. Lorsque vous recevez un appel téléphonique, une pression sur le poignet d’une certaine intensité pourrait vous informer que vous vous trouvez dans la fenêtre d’acceptation ou de rejet de l’appel. Vous aurez alors la possibilité d’effectuer une action (dans ce cas, un clic intelligent pour répondre à l’appel ou activer la messagerie vocale), avec un retour d’informations visuel très faible ou inexistant.

« L’haptique pourrait également transmettre différentes émotions. C’est ce que nous appelons les emojis haptiques », ajoute Nicholas Colonnese, Research Science Manager au sein des FRL. « Si vous vous trouvez dans le bon contexte, différents types de retour d’informations haptique pourraient correspondre à des emojis populaires. Cela représenterait un nouveau type de communication sociale très ludique. »

Nous explorons à l’heure actuelle une série de prototypes d’étude uniques pour réussir à en savoir plus sur l’haptique associée à un bracelet. L’un d’entre eux a été baptisé « Bellowband ». C’est un bracelet souple et léger dotés de huit soufflets (bellow en anglais) répartis autour du poignet. L’air qui pénètre dans les soufflets peut être modulé de manière à produire un retour d’informations haptique intéressant, basé sur la pression et les vibrations. Un autre prototype s’appelle « Tasbi », qui est l’acronyme anglais d’interface de bracelet tactile et par pression (Tactile and Squeeze Bracelet Interface). Tasbi est composé de six actionneurs vibrotactiles et d’un mécanisme innovant exerçant une pression sur le poignet. En utilisant Bellowband et Tasbi, nous avons testé une multitude d’interactions virtuelles différentes, comme la différenciation de boutons virtuels selon leur rigidité.

« Bien sûr, les boutons virtuels ne présentent pas de rigidité dans le sens traditionnel de devoir les déplacer », déclare Colonnese. « Mais nous sommes capables de reproduire une pseudo-rigidité pour tromper le cerveau. Notre méthode est visuelle et joue avec la quantité relative de déplacement nécessaire pour appuyer sur le bouton. Une autre méthode, de type haptique, consiste à exercer une pression sur le poignet de l’utilisateur, dont le degré varie selon si le bouton est dur ou souple. »

Les résultats ont montré que le retour d’informations haptique est plus efficace que le retour visuel lorsqu’il s’agit de distinguer le degré de rigidité des boutons virtuels. Mais la solution la plus efficace restait l’utilisation combinée du retour d’informations haptique et visuel.

Il est encore tôt, mais le futur s’annonce prometteur.

« La recherche haptique de pointe nous pousse à penser qu’une communication d’une grande richesse est réellement envisageable », remarque Keller. « Il est possible d’apprendre un langage en faisant appel au toucher, et potentiellement à travers un simple bracelet. C’est tout un univers qui commence à se dessiner, et il passe en grande partie par des systèmes haptiques plus riches à porter au poignet. »

Tout un monde de possibilités

Les interfaces homme-machine basées sur le poignet ouvrent de nouvelles possibilités que nous commençons tout juste à découvrir. Grâce aux capteurs sur le poignet, une personne handicapée née sans une main peut apprendre à utiliser une main virtuelle. L’utilisateur peut également écrire sur presque n’importe quelle surface ou jouer à des jeux vidéo sans les mains. L’AR vous permet d’interagir avec des objets virtuels tout au long de votre journée ou de moduler l’ambiance de votre salon pratiquement sans aucune friction. Vous pourrez commander les objets à distance : les faire tourner, changer leur vitesse, les lancer, les enclencher, tout cela de manière dynamique.

« Nous limitons notre créativité, notre capacité, nos actions dans le monde en fonction de ce que nous estimons possible », décrit Reardon. « Qu’est-ce que ça fait d’appuyer sur un bouton sans vraiment le faire et de voir la machine répondre ? On dirait de la magie, comme si nos souhaits se réalisaient dès leur apparition dans notre esprit. Et si les mots pouvaient être formés instantanément au lieu d’avoir à égrener les lettres les unes après les autres ? La perspective de pouvoir en faire plus, plus vite, et donc d’expérimenter, créer et explorer davantage se trouve au cœur de la plate-forme informatique du futur. »

L’EMG au poignet permet un contrôle fiable dans n’importe quel contexte. Et comme il mesure directement les signaux d’intention, l’EMG est extrêmement sensible aux actions à faible effort que les caméras et capteurs de mouvement ne peuvent pas complétement détecter.

Nous investissons également dans le contrôle neural compatible avec tous les mouvements du corps : nous avons à cœur de dépasser la simple utilisation de vos mains et les limitations des parties mécaniques de votre corps, afin d’englober toute la capacité cognitive offerte par votre système moteur. L’EMG représente la somme de toutes les données d’entrée neurales, une conversation entre votre cerveau et vos muscles. En utilisant les techniques de traitement des signaux que nous avons conçues, nous sommes en mesure de détecter l’intention de mouvement, probablement même en l’absence d’une réelle activité motrice. La commande du monde virtuel n’a pas besoin de correspondre à ce que vous faites dans le monde physique. Cela ouvre une foule de possibilités, et notamment la création de plates-formes informatiques plus accessibles aux personnes ayant des besoins physiques spécifiques. Baser l’interaction homme-ordinateur sur les intentions personnalisées plutôt que contraindre l’utilisateur à se plier à un paradigme particulier comme la souris ou le clavier permet de tenir compte des besoins de tous.

Le choix entre le monde réel et virtuel nous semble être un faux débat. Avec des données d’entrée à très faible friction basées sur le poignet, des interfaces adaptatives reposant sur une AI sensible au contexte et des retours d’informations haptiques, nous pouvons communiquer avec nos appareils sans avoir à détourner notre attention, ce qui nous permet d’améliorer notre rapport aux autres et notre quotidien.

Et Keller d’ajouter : « Cette phase d’innovation et de découverte est un moment incroyable, parce qu’elle annonce un bouleversement de l’ancien monde. » « Elle constitue un changement dans les règles que nous avons suivies et sur lesquelles nous reposions jusqu’alors pour faire évoluer la technologie. Et c’est l’une des opportunités les plus prometteuses à laquelle j’aurais pu rêver de participer à l’heure actuelle. »