Meta

Faire progresser l’intelligence artificielle grâce à une recherche centrée sur l’homme


Les annonces :

  • Le laboratoire de recherche fondamentale en intelligence artificielle (FAIR) de Meta partage de nouveaux artefacts de recherche qui soulignent notre engagement en faveur de l’Advanced Machine Intelligence (AMI) et l’impact des technologies open-source sur l’avancement de l’IA. En partageant nos recherches, nous visons à créer des systèmes intelligents capables de comprendre les besoins humains complexes et d’y répondre, afin d’améliorer notre vie quotidienne.
  • Le travail que nous partageons comprend l’ensemble de données et le benchmark Meta PARTNR, visant à construire des robots socialement intelligents qui peuvent aider les gens dans les tâches quotidiennes, telles que collecter une livraison à la porte d’entrée ou aider à d’autres tâches ménagères.
  • Dans le cadre du travail continu de FAIR avec l’UNESCO visant à promouvoir la diversité linguistique dans la technologie, les collaborateurs sont invités à se joindre à nous pour améliorer et développer la traduction automatique et les technologies linguistiques afin de promouvoir la diversité linguistique et l’inclusion dans le monde numérique.
  • Nous partageons également les avancées en matière de traitement audio, de communication multilingue et de technologies linguistiques, autant de développements cruciaux sur la voie de la réalisation de l’AMI.
  • En collaboration avec le Centre basque de la cognition, du cerveau et du langage (BCBL), FAIR dévoile deux avancées qui montrent comment l’IA peut contribuer à faire progresser notre compréhension de l’intelligence humaine, rapprochant ainsi FAIR de l’AMI. Dans le prolongement des travaux antérieurs de FAIR sur le décodage de la perception des images et de la parole à partir de l’activité cérébrale, FAIR présente des recherches qui permettent de décoder avec succès la production de phrases à partir d’enregistrements cérébraux non invasifs. 
  • L’avancement de cette recherche majeure ne serait pas possible sans l’étroite collaboration que FAIR favorise au sein de la communauté des neurosciences. Aujourd’hui, Meta annonce un don de 2,2 millions de dollars à la Fondation de l’hôpital Rothschild pour soutenir ces travaux.

L’équipe FAIR (Fundamental AI Research) de Meta se concentre sur la réalisation de l’Advanced Machine Intelligence (AMI) et son utilisation pour alimenter les produits et l’innovation au bénéfice de tous. Aujourd’hui, nous sommes ravis de partager certaines de nos recherches et modèles les plus récents qui soutiennent notre objectif d’atteindre l’AMI et notre engagement de longue date à partager une science ouverte et reproductible.

Meta PARTNR : faire progresser la collaboration homme-robot

Imaginez un monde où les robots seraient des partenaires intuitifs de notre vie quotidienne. Ils font le ménage, s’occupent des livraisons et nous aident à cuisiner, tout en comprenant nos besoins et en s’adaptant à l’environnement dynamique d’une maison en pleine effervescence. Aujourd’hui, nous dévoilons PARTNR, un cadre de recherche qui nous rapproche de cette réalité en alimentant la recherche sur la collaboration fluide entre l’homme et le robot. La plupart des robots actuels fonctionnent de manière isolée, ce qui limite leur potentiel en tant qu’agents d’assistance utiles du futur. Avec PARTNR, nous visons à changer le statu quo en mettant à disposition un benchmark, un ensemble de données et un modèle à grande échelle destinés à étudier la collaboration homme-robot dans les tâches quotidiennes. PARTNR fournit, en son sein, un mécanisme pour former les robots sociaux par le biais d’un entraînement à grande échelle en simulation, suivi d’un déploiement dans le monde réel.

PARTNR s’appuie sur les travaux antérieurs à fort impact partagés avec la communauté open-source. Il s’appuie sur les progrès réalisés avec Habitat 1.0, qui a entraîné des robots virtuels à naviguer dans des scans 3D de maisons réelles, et Habitat 2.0, qui a entraîné des robots virtuels à nettoyer des maisons en réarrangeant des objets. Avec Habitat 3.0, un simulateur conçu pour former des modèles de collaboration homme-robot, Meta a fait un nouveau bond en avant. Habitat 3.0 permet d’entraîner des modèles de collaboration homme-robot à grande échelle, ce qui n’est pas possible dans le monde réel en raison de problèmes de sécurité et d’évolutivité.

Nous présentons également le benchmark PARTNR, qui vise à évaluer les robots collaboratifs et à s’assurer qu’ils sont performants à la fois dans des environnements simulés et dans le monde réel. Notre benchmark consiste en 100 000 tâches, y compris des tâches ménagères telles que le nettoyage de la vaisselle et des jouets. Nous publions également l’ensemble de données PARTNR, qui consiste en des démonstrations humaines des tâches PARTNR en simulation, et qui peut être utilisé pour l’entraînement de modèles d’IA incarnée. Le benchmark PARTNR met en évidence les principales lacunes des modèles existants, telles qu’une mauvaise coordination et des échecs dans le suivi des tâches et la récupération des erreurs. Nous encourageons la communauté universitaire à continuer à s’appuyer sur notre travail et à alimenter les progrès dans le domaine de la collaboration homme-robot.

Nous avons également progressé dans la mise au point de modèles capables de collaborer avec des humains, à la fois en simulation et dans le monde réel. En utilisant des données de simulation à grande échelle, nous avons entraîné un modèle de planification à grande échelle, qui surpasse les modèles de base de l’état de l’art en termes de vitesse et de performance. Ce modèle multiplie par 8,6 la vitesse tout en rendant les humains 24 % plus efficaces dans l’accomplissement des tâches par rapport aux modèles existants les plus performants. Il est capable d’interpréter des instructions à long terme, de décomposer des tâches complexes en étapes exploitables et de fournir une assistance significative aux utilisateurs humains. Nous avons déployé, avec succès, ce modèle sur un robot Spot de Boston Dynamics, démontrant ainsi sa capacité à travailler aux côtés des humains dans le monde réel. Pour renforcer la transparence et la confiance, nous avons également mis au point une interface de réalité mixte qui visualise les actions et les processus de réflexion du robot, offrant ainsi une fenêtre sur sa prise de décision.

Le potentiel d’innovation et de développement dans le domaine de la collaboration homme-robot est immense. Avec PARTNR, nous souhaitons réimaginer les robots comme de futurs partenaires, et non comme de simples agents, et relancer la recherche dans ce domaine passionnant.

Télécharger le code

Télécharger le jeu de données

Lire l’article de recherche

Démocratiser les technologies du langage avec l’UNESCO

Le langage est un élément fondamental de notre identité, et pourtant de nombreuses personnes dans le monde sont exclues de la conversation numérique parce que leur langue n’est pas prise en charge par la technologie. Pour combler ce fossé, nous invitons la communauté linguistique à s’associer à nous pour collaborer à l’amélioration et à l’élargissement de la couverture des technologies linguistiques open-source de Meta, y compris la reconnaissance vocale et la traduction automatique.

Un programme de partenariat pour les technologies linguistiques

Nous recherchons des partenaires pour collaborer avec nous à l’avancement des technologies linguistiques, notamment la reconnaissance vocale et la traduction automatique. Nos efforts sont particulièrement axés sur les langues mal desservies, en soutien au travail de l’UNESCO et dans le cadre de la contribution du secteur privé à l’autonomisation numérique dans le cadre de la Décennie internationale des langues autochtones. Nous recherchons des partenaires qui peuvent fournir plus de 10 heures d’enregistrements vocaux avec transcriptions, de grands corpus de textes écrits (plus de 200 phrases) et des ensembles de phrases traduites dans diverses langues. Les partenaires travailleront avec nos équipes pour aider à intégrer ces langues dans des modèles de reconnaissance vocale et de traduction automatique pilotés par l’IA, que nous avons l’intention de mettre en open-source et de mettre gratuitement à la disposition de la communauté. En tant que partenaire, vous aurez également accès à des ateliers dirigés par nos équipes de recherche, où vous apprendrez comment exploiter nos modèles open-source pour construire des technologies linguistiques. Nous sommes heureux que le gouvernement du Nunavut, au Canada, ait accepté de travailler avec nous sur cette initiative passionnante.

Pour participer à notre programme de partenariat en technologies langagières, veuillez remplir ce formulaire d’intérêt.

Benchmark de traduction automatique open-source

En plus de notre programme de partenariat pour les technologies linguistiques, nous lançons un benchmark de traduction automatique open-source, composé de phrases soigneusement rédigées par des experts linguistiques, afin de mettre en valeur la diversité du langage humain. Nous vous invitons à accéder au benchmark, en 7 langues, et à contribuer aux traductions qui seront mises à la disposition des autres. Notre objectif est de construire collectivement un benchmark de traduction automatique multilingue sans précédent pour la communauté.

Pour en savoir plus, cliquez ici

Notre engagement sur la capacité à prendre en charge davantage de langues et à développer des technologies open-source pour celles-ci est continu. En 2022, nous avons lancé le projet No Language Left Behind (NLLB), un moteur de traduction automatique open-source révolutionnaire qui a jeté les bases de la recherche et du développement futurs dans ce domaine. Premier modèle neuronal de traduction automatique pour de nombreuses langues, NLLB a ouvert la voie à d’autres innovations. Depuis son lancement, la communauté open-source s’est appuyée sur ce travail, étendant ses capacités pour prendre en charge des dizaines de langues supplémentaires. Nous sommes également heureux que l’UNESCO et Hugging Face aient collaboré avec nous pour construire un traducteur linguistique basé sur NLLB, que nous avons annoncé pendant la semaine de l’Assemblée générale des Nations unies en septembre dernier. Alors que nous continuons à développer cette technologie, nous sommes ravis de collaborer avec les communautés linguistiques pour améliorer et développer la traduction automatique et d’autres technologies linguistiques.

Pour soutenir l’autonomisation numérique, qui est un domaine thématique clé du plan d’action mondial de la Décennie internationale des langues autochtones, nous avons lancé le projet Massively Multilingual Speech (MMS), qui étend la transcription audio à plus de 1 100 langues. Depuis lors, nous avons continué d’améliorer et d’étendre ses capacités, notamment en ajoutant la reconnaissance vocale « zero-shot », qui permet au modèle de transcrire de l’audio dans des langues qu’il n’a jamais vues auparavant, sans formation préalable. Ces technologies ont des répercussions importantes sur le soutien linguistique et l’accessibilité, en particulier pour les communautés mal desservies.

En encourageant la mise en œuvre de la Décennie internationale des langues autochtones, nous visons à relever les défis posés par la prolifération des modèles de langue anglaise et à œuvrer en faveur d’une représentation égale de toutes les langues, contribuant ainsi à la réalisation des objectifs de développement durable des Nations unies.

Outre son impact potentiel sur le soutien linguistique et l’accessibilité, notre travail a également des implications plus larges pour le développement de l’AMI. En travaillant sur des problèmes multilingues et des langues mal desservies, le modèle démontre sa capacité à apprendre à partir de données minimales. Ces développements marquent une étape cruciale vers la création de systèmes intelligents capables de s’adapter à de nouvelles situations et d’apprendre par l’expérience.

À terme, notre objectif est de créer des systèmes intelligents capables de comprendre les besoins humains complexes et d’y répondre, indépendamment de la langue ou du contexte culturel, et de mettre au point des technologies qui intègrent les langues et les cultures de notre monde.

Utiliser l’IA pour décoder le langage à partir du cerveau et faire progresser notre compréhension de la communication humaine

Au cours de la dernière décennie, le laboratoire de recherche en intelligence artificielle de Meta à Paris, FAIR, a été à l’avant-garde de l’avancement de la recherche scientifique. Nous avons réalisé des percées dans les domaines de la médecine, de la science du climat et de la conservation, et nous avons respecté notre engagement en faveur d’une science ouverte et reproductible. Pour la prochaine décennie, notre objectif est de parvenir à l’Advanced Machine Intelligence (AMI) et de l’utiliser pour alimenter les produits et l’innovation au bénéfice de tous.

En collaboration avec le Centre basque sur la cognition, le cerveau et le langage (BCBL), un centre de recherche interdisciplinaire de premier plan à Saint-Sébastien, en Espagne, nous sommes heureux de dévoiler aujourd’hui deux avancées qui montrent comment l’IA peut aider à faire progresser notre compréhension de l’intelligence humaine, nous rapprochant ainsi de l’AMI. Dans le prolongement de nos travaux antérieurs sur le décodage de la perception des images et de la parole à partir de l’activité cérébrale, nous présentons des recherches qui décodent avec succès la production de phrases à partir d’enregistrements cérébraux non invasifs, décodant avec précision jusqu’à 80 % des caractères et reconstituant ainsi souvent des phrases entières uniquement à partir de signaux cérébraux. Dans une deuxième étude, nous expliquons en détail comment l’IA peut également aider à comprendre ces signaux cérébraux, et nous clarifions la manière dont le cerveau transforme efficacement les pensées en une séquence de mots.

L’avancement de cette importante recherche ne serait pas possible sans l’étroite collaboration que nous avons favorisée au sein de la communauté des neurosciences. Aujourd’hui, Meta annonce un don de 2,2 millions de dollars à la Fondation de l’hôpital Rothschild pour soutenir ces travaux. Nous continuons ainsi à travailler en étroite collaboration avec certains des principaux instituts de recherche en Europe, notamment NeuroSpin (CEA), l’INRIA et l’ENS PSL. Ces partenariats continueront d’être importants pour nous, car nous travaillons ensemble pour explorer comment ces avancées peuvent faire la différence dans le monde réel et, en fin de compte, améliorer la vie des gens.

L’IA pour décoder le langage à partir d’enregistrements cérébraux non invasifs

Chaque année, des millions de personnes souffrent de lésions cérébrales qui peuvent les empêcher de communiquer. Les approches actuelles montrent que la communication peut être rétablie grâce à une neuroprothèse qui transmet des signaux de commande à un décodeur d’IA. Cependant, les techniques invasives d’enregistrement du cerveau, telles que l’électroencéphalographie stéréotaxique et l’électrocorticographie, nécessitent des interventions neurochirurgicales et sont difficiles à mettre en œuvre. Jusqu’à présent, l’utilisation d’approches non invasives a été limitée par la complexité du bruit des signaux qu’elles enregistrent.

Pour notre première étude, nous utilisons à la fois la magnétoencéphalographie (MEG) et l’électroencéphalographie (EEG)– des dispositifs non invasifs qui mesurent les champs magnétiques et électriques provoqués par l’activité neuronale – pour enregistrer, au BCBL, 35 volontaires sains pendant qu’ils tapent des phrases. Nous entraînons ensuite un nouveau modèle d’IA à reconstruire la phrase uniquement à partir des signaux cérébraux. Sur de nouvelles phrases, notre modèle d’IA décode jusqu’à 80% des caractères tapés par les participants enregistrés avec le MEG, soit au moins deux fois mieux que ce que l’on peut obtenir avec le système EEG classique.

Cette recherche pourrait ouvrir une nouvelle voie pour les interfaces cerveau-ordinateur non invasives afin d’aider à restaurer la communication pour les personnes ayant perdu la capacité de parler, mais plusieurs défis importants restent à relever avant que cette approche puisse être appliquée dans des contextes cliniques. Le premier est lié aux performances : les performances de décodage sont encore imparfaites. Le second est plus pratique : la MEG exige que les sujets se trouvent dans une pièce blindée magnétiquement et qu’ils restent immobiles. Enfin, bien que cette recherche ait été effectuée sur des volontaires sains, des travaux futurs devront être menés afin d’explorer les avantages de cette approche pour les personnes souffrant de lésions cérébrales.

Utiliser l’IA pour comprendre comment le cerveau forme le langage

Nous dévoilons également une avancée dans la compréhension des mécanismes neuronaux qui coordonnent la production du langage dans le cerveau humain. L’étude du cerveau pendant la parole s’est toujours révélée extrêmement difficile pour les neurosciences, en partie à cause d’un simple problème technique : le fait de bouger la bouche et la langue corrompt fortement les signaux de neuro-imagerie.

Pour étudier comment le cerveau transforme les pensées en séquences complexes d’actions motrices, nous avons utilisé l’IA pour aider à interpréter les signaux MEG pendant que les participants tapaient des phrases. En prenant 1 000 clichés du cerveau par seconde, nous pouvons déterminer le moment précis où les pensées sont transformées en mots, en syllabes et même en lettres individuelles. Notre étude montre que le cerveau génère une séquence de représentations qui partent du niveau de représentation le plus abstrait – le sens d’une phrase – et les transforme progressivement en une myriade d’actions, telles que le mouvement réel du doigt sur le clavier.

Fait important, l’étude révèle également comment le cerveau représente de manière cohérente et simultanée des mots et des actions successifs. Nos résultats montrent que le cerveau utilise un « code neuronal dynamique », un mécanisme neuronal spécial qui enchaîne des représentations successives tout en maintenant chacune d’entre elles sur de longues périodes.

Décrypter le code neuronal du langage reste l’un des principaux défis de l’IA et des neurosciences. La capacité de langage, propre à l’homme, a doté notre espèce d’une aptitude à raisonner, à apprendre et à accumuler des connaissances comme aucun autre animal sur la planète. Comprendre son architecture neuronale et ses principes de calcul est donc une voie importante pour développer l’AMI.

Permettre des avancées dans le domaine de la santé grâce à l’IA open-source

Chez Meta, nous sommes dans une position unique pour aider à résoudre certains des plus grands défis mondiaux grâce à l’IA. Notre engagement en faveur de l’open source a permis à la communauté de l’IA de s’appuyer sur nos modèles pour réaliser ses propres percées. Le mois dernier, nous avons expliqué comment BrightHeart, une entreprise basée en France, utilise DINOv2 dans le cadre de son logiciel d’IA pour aider les cliniciens à identifier ou à écarter les signes évocateurs de malformations cardiaques congénitales dans les échographies du cœur du fœtus. L’année dernière, BrightHeart a obtenu l’autorisation 510(k) de la FDA pour son logiciel, qu’elle attribue en partie aux contributions open source de Meta. Nous avons également expliqué comment Virgo, une entreprise basée aux États-Unis, utilise DINOv2 pour analyser des vidéos d’endoscopie, obtenant des performances de pointe dans une large gamme de critères d’évaluation de l’IA pour l’endoscopie, tels que la classification des repères anatomiques, l’évaluation de la gravité de la maladie pour la colite ulcéreuse, et la segmentation des polypes.

Alors que nous nous tournons vers les dix prochaines années, il est passionnant de penser à la manière dont les percées que nous avons partagées aujourd’hui pourraient bénéficier au plus grand nombre. Nous sommes impatients de poursuivre les conversations importantes que nous avons avec la communauté alors que nous allons de l’avant – ensemble – pour relever certains des plus grands défis de la société.

Articles de recherche de Jean-Rémi King :

Brain-to-Text Decoding: A Non-invasive Approach via Typing

From Thought to Action: How a Hierarchy of Neural Dynamics Supports Language Production

Meta Audiobox Aesthetics : une nouvelle norme pour le traitement audio

Traditionnellement, la mesure de l’esthétique audio est une tâche complexe en raison de sa nature subjective. Contrairement aux mesures objectives telles que la réponse en fréquence ou le rapport signal/bruit, l’esthétique audio nécessite une compréhension nuancée de la perception humaine. Aujourd’hui, nous sommes ravis de rendre disponible Meta Audiobox Aesthetics en open-source, un modèle qui permet l’évaluation automatique de l’esthétique audio, en fournissant une évaluation complète de la qualité audio à travers la parole, la musique et le son. Le modèle fait des prédictions qui analysent l’appréciation du contenu, l’utilité du contenu, la complexité de la production et la qualité de la production. Relever les défis de l’évaluation audio subjective permet d’améliorer la qualité du contenu audio et de développer des modèles audio génératifs plus avancés.

Les méthodes d’évaluation existantes fournissent souvent des résultats spécifiques à une sous-modalité avec des instructions vagues qui sont difficiles à interpréter. Audiobox Aesthetics surmonte ces limites en proposant une approche structurée de l’évaluation audio.

Pour développer Audiobox Aesthetics, un protocole d’annotation complet a été conçu, ce qui a permis de collecter 562 heures de données esthétiques audio. Notre ensemble de données a été annoté par des évaluateurs professionnels afin de garantir la qualité des données. Le processus d’annotation a consisté à évaluer les échantillons audio sur une échelle de 1 à 10 en fonction de quatre paramètres définis : qualité de la production, complexité de la production, plaisir du contenu et utilité du contenu. Ce processus a permis la création d’un score esthétique unifié calibré sur différentes modalités audio, garantissant la cohérence et la fiabilité des prédictions du modèle.

Des expériences approfondies ont montré que l’Audiobox Aesthetics surpassait les travaux antérieurs avec une corrélation plus élevée avec le jugement humain, ce qui prouve son efficacité en tant que métrique automatique pour l’évaluation de la qualité. Le modèle, qui est publié sous licence CC-BY 4.0, améliore également la qualité de divers modèles de génération audio grâce au filtrage des données et à l’incitation à la qualité, ce qui permet d’obtenir des améliorations significatives dans les applications de synthèse vocale, de synthèse musicale et de synthèse sonore.

Audiobox Aesthetics a déjà été utilisé pour améliorer Meta Movie Gen, ce qui a permis de faciliter la création de contenus multimédias de haute qualité, et de stimuler le progrès et l’innovation dans l’industrie. Nous espérons que ce travail sera utilisé pour améliorer la qualité du contenu audio et soutenir le développement de modèles audio génératifs plus sophistiqués.

Téléchargez les poids et le code du modèle

Lire l’article de recherche

Transcriptions des messages vocaux de WhatsApp : débloquer une communication fluide

Alors que nous continuons à construire l’avenir de la connexion humaine et de la technologie qui la rend possible, nous avons lancé une mise à jour sur WhatsApp pour rendre la communication encore plus transparente. Les transcriptions de messages vocaux utilisent une technologie avancée sur l’appareil pour générer des transcriptions de messages audio localement et en toute sécurité, garantissant que les messages vocaux personnels sont cryptés de bout en bout. Actuellement, cette fonctionnalité prend en charge l’anglais, l’espagnol, le portugais et le russe, élargissant ainsi sa portée auprès de diverses communautés.

Le développement des transcriptions de messages vocaux a été rendu possible par l’exploitation des résultats de la recherche Meta FAIR Seamless Communication. En tirant parti de cette recherche, WhatsApp peut continuer à innover et à améliorer ses services, ce qui lui permettra de progresser vers l’objectif de l’AMI avec des capacités multilingues. Nous avons largement exploré, développé et partagé les meilleures pratiques pour l’affinage des modèles avec la communauté des chercheurs pour les versions publiques des modèles Seamless M4T. Ces techniques ont été appliquées et améliorées, ainsi que la distillation, pour les adapter au genre des messages vocaux WhatsApp.

Cette avancée permet non seulement d’améliorer l’expérience de l’utilisateur tout en protégeant la messagerie privée, mais elle ouvre également la voie à de futures innovations dans le domaine de la communication multilingue.



Nous utilisons des cookies pour personnaliser le contenu, ajuster et mesurer les publicités et offrir une expérience plus sûre. En cliquant ou en naviguant sur le site, vous nous autorisez à collecter des informations sur et en dehors de Facebook via les cookies. Pour en savoir plus, notamment sur les contrôles disponibles : Politique d’utilisation des cookies