{"id":25105,"date":"2023-08-22T09:00:17","date_gmt":"2023-08-22T12:00:17","guid":{"rendered":"https:\/\/about.fb.com\/br\/?p=25105"},"modified":"2023-09-05T16:55:34","modified_gmt":"2023-09-05T19:55:34","slug":"aproximando-o-mundo-com-um-modelo-multimodal-fundamental-para-traducao-de-fala","status":"publish","type":"post","link":"https:\/\/about.fb.com\/br\/news\/2023\/08\/aproximando-o-mundo-com-um-modelo-multimodal-fundamental-para-traducao-de-fala\/","title":{"rendered":"Aproximando o mundo com um modelo multimodal fundamental para tradu\u00e7\u00e3o de fala"},"content":{"rendered":"<p><img data-recalc-dims=\"1\" loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-large wp-image-25106\" src=\"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/09\/foto-1.jpg?w=960&#038;resize=960%2C540\" alt=\"\" width=\"960\" height=\"540\" srcset=\"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/09\/foto-1.jpg?w=1920 1920w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/09\/foto-1.jpg?w=600 600w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/09\/foto-1.jpg?w=300 300w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/09\/foto-1.jpg?w=768 768w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/09\/foto-1.jpg?w=1024 1024w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/09\/foto-1.jpg?w=1536 1536w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/09\/foto-1.jpg?w=800 800w\" sizes=\"auto, (max-width: 960px) 100vw, 960px\" \/><\/p>\n<p><span style=\"font-weight: 400\">O mundo em que vivemos nunca esteve t\u00e3o interligado \u2013 a prolifera\u00e7\u00e3o global da internet, dispositivos m\u00f3veis, m\u00eddias sociais e plataformas de comunica\u00e7\u00e3o d\u00e3o \u00e0s pessoas acesso a mais conte\u00fado multilingu\u00edstico do que nunca. Nesse contexto, ter uma maneira de se\u00a0 comunicar e compreender informa\u00e7\u00f5es em qualquer idioma torna-se cada vez mais importante. Embora tal capacidade seja sonhada h\u00e1 muito tempo na fic\u00e7\u00e3o cient\u00edfica, a IA est\u00e1 prestes a transformar isso em realidade t\u00e9cnica.<\/span><\/p>\n<p><span style=\"font-weight: 400\">Hoje, apresentamos o <\/span><a href=\"https:\/\/ai.meta.com\/research\/publications\/seamlessm4t-massively-multilingual-multimodal-machine-translation\/\"><span style=\"font-weight: 400\">SeamlessM4T<\/span><\/a><span style=\"font-weight: 400\">, um modelo multil\u00edngue e multitarefa que traduz e transcreve perfeitamente fala e texto. O SeamlessM4T oferece:<\/span><\/p>\n<ul>\n<li><span style=\"font-weight: 400\">Reconhecimento de fala em quase 100 idiomas<\/span><\/li>\n<li><span style=\"font-weight: 400\">Tradu\u00e7\u00e3o de voz para texto para quase 100 idiomas, tanto de entrada e sa\u00edda<\/span><\/li>\n<li><span style=\"font-weight: 400\">Tradu\u00e7\u00e3o de fala para fala, para quase 100 idiomas de entrada e 35 idiomas de sa\u00edda (+ o ingl\u00eas)<\/span><\/li>\n<li><span style=\"font-weight: 400\">Tradu\u00e7\u00e3o de texto para texto para quase 100 idiomas<\/span><\/li>\n<li><span style=\"font-weight: 400\">Tradu\u00e7\u00e3o de texto para fala, com suporte para quase 100 idiomas de entrada e 35 idiomas de sa\u00edda (+ o ingl\u00eas)<\/span><\/li>\n<\/ul>\n<div style=\"width: 960px;\" class=\"wp-video\"><video class=\"wp-video-shortcode\" id=\"video-25105-1\" width=\"960\" height=\"540\" preload=\"metadata\" controls=\"controls\"><source type=\"video\/mp4\" src=\"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/09\/video-1.mp4?_=1\" \/><a href=\"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/09\/video-1.mp4\">https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/09\/video-1.mp4<\/a><\/video><\/div>\n<p><span style=\"font-weight: 400\">Mantendo nossa abordagem de ci\u00eancia aberta, estamos lan\u00e7ando publicamente o SeamlessM4T no <\/span><a href=\"https:\/\/creativecommons.org\/licenses\/by-nc\/4.0\/\"><span style=\"font-weight: 400\">CC BY-NC 4.0<\/span><\/a><span style=\"font-weight: 400\"> permitindo que pesquisadores e desenvolvedores ampliem esse trabalho. Tamb\u00e9m estamos lan\u00e7ando metadados do SeamlessAlign, o maior conjunto de dados de tradu\u00e7\u00e3o multimodal aberto at\u00e9 o momento, totalizando 270 mil horas de fala trabalhadas e alinhamentos de texto. Tornamos mais f\u00e1cil para a comunidade realizar a explora\u00e7\u00e3o em seus pr\u00f3prios conjuntos de dados monol\u00edngues com o SONAR, um conjunto completo de codificadores de frases de fala e texto, e <\/span><a href=\"https:\/\/github.com\/facebookresearch\/stopes\"><span style=\"font-weight: 400\">&#8220;stopes&#8221;<\/span><\/a><span style=\"font-weight: 400\">, nossa biblioteca para processamento de dados multimodais e minera\u00e7\u00e3o de dados paralela. Todos os avan\u00e7os da pesquisa s\u00e3o apoiados pelo <\/span><a href=\"https:\/\/github.com\/facebookresearch\/fairseq2\"><span style=\"font-weight: 400\">fairseq2<\/span><\/a><span style=\"font-weight: 400\">, nossa biblioteca de modelos sequenciais de \u00faltima gera\u00e7\u00e3o.<\/span><\/p>\n<p><span style=\"font-weight: 400\">\u00c9 desafiador construir um tradutor de linguagem universal, como o fict\u00edcio Babel Fish em <\/span><i><span style=\"font-weight: 400\">O Guia do Mochileiro das Gal\u00e1xias<\/span><\/i><span style=\"font-weight: 400\">, porque os sistemas existentes de fala para fala, e fala para texto cobrem apenas uma pequena parcela dos idiomas do mundo. O SeamlessM4T representa um avan\u00e7o significativo no campo da convers\u00e3o de fala para fala, e de fala para texto, pois abrange os desafios da cobertura lingu\u00edstica limitada e da depend\u00eancia de sistemas separados, que dividem a tarefa de tradu\u00e7\u00e3o de fala para fala em v\u00e1rios subsistemas. Esses sistemas aproveitam essa grande quantidade de dados e geralmente funcionam bem em uma modalidade. Nosso desafio era criar um modelo multil\u00edngue unificado que pudesse fazer tudo.<\/span><\/p>\n<p><span style=\"font-weight: 400\">N\u00f3s acreditamos que o trabalho anunciado hoje \u00e9 um passo significativo nesta jornada. Nosso modelo \u00e9 \u00fanico e oferece tradu\u00e7\u00f5es sob demanda, permitindo que pessoas que falam diferentes idiomas se comuniquem de maneira mais eficaz. Melhoramos significativamente a performance dos idiomas com poucos e m\u00e9dios recursos que oferecemos suporte. Estas s\u00e3o l\u00ednguas que t\u00eam pegadas lingu\u00edsticas digitais menores. Tamb\u00e9m mantemos um forte desempenho em idiomas com muitos recursos, como o\u00a0 ingl\u00eas, o espanhol e o alem\u00e3o. O SeamlessM4T reconhece implicitamente os idiomas de origem, sem a necessidade de um modelo de identifica\u00e7\u00e3o de idioma separado.<\/span><\/p>\n<div style=\"width: 960px;\" class=\"wp-video\"><video class=\"wp-video-shortcode\" id=\"video-25105-2\" width=\"960\" height=\"540\" preload=\"metadata\" controls=\"controls\"><source type=\"video\/mp4\" src=\"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/09\/video-2.mp4?_=2\" \/><a href=\"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/09\/video-2.mp4\">https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/09\/video-2.mp4<\/a><\/video><\/div>\n<p><span style=\"font-weight: 400\">Este trabalho baseia-se nos avan\u00e7os que a Meta e outras pessoas fizeram ao longo dos anos na busca por criar um tradutor universal. No ano passado, lan\u00e7amos <\/span><i><span style=\"font-weight: 400\">No Language Left Behind<\/span><\/i><span style=\"font-weight: 400\"> (NLLB), um <\/span><a href=\"https:\/\/ai.meta.com\/research\/no-language-left-behind\/\"><span style=\"font-weight: 400\">modelo de tradu\u00e7\u00e3o autom\u00e1tica de texto para texto<\/span><\/a><span style=\"font-weight: 400\"> que suporta 200 idiomas e desde ent\u00e3o foi integrado \u00e0 Wikip\u00e9dia como um de seus fornecedores de tradu\u00e7\u00e3o. Alguns meses depois, compartilhamos uma demonstra\u00e7\u00e3o do <\/span><a href=\"https:\/\/ai.meta.com\/blog\/ai-translation-hokkien\/\"><i><span style=\"font-weight: 400\">Universal Speech Translator<\/span><\/i><\/a><span style=\"font-weight: 400\">, nosso primeiro sistema de tradu\u00e7\u00e3o direta de fala para fala para Hokkien, um idioma sem um sistema de escrita amplamente utilizado. Com isso, desenvolvemos o <\/span><a href=\"https:\/\/arxiv.org\/abs\/2211.04508\"><span style=\"font-weight: 400\">SpeechMatrix<\/span><\/a><span style=\"font-weight: 400\">, primeiro conjunto de dados de tradu\u00e7\u00e3o de fala para fala multil\u00edngue em grande escala, derivado do SpeechLASER, um avan\u00e7o no aprendizado supervisionado de representa\u00e7\u00e3o. No in\u00edcio deste ano, tamb\u00e9m compartilhamos o<\/span><a href=\"https:\/\/ai.meta.com\/blog\/multilingual-model-speech-recognition\/\"><i><span style=\"font-weight: 400\"> Massively Multilingual Speech<\/span><\/i><\/a><span style=\"font-weight: 400\">, que fornece reconhecimento de fala, identifica\u00e7\u00e3o de idioma e tecnologia de s\u00edntese de fala em mais de 1.100 idiomas. O SeamlessM4T baseia-se nas descobertas de todos esses projetos, permitindo uma experi\u00eancia de tradu\u00e7\u00e3o multil\u00edngue e multimodal resultante de um modelo \u00fanico, constru\u00eddo em uma ampla variedade de fontes de dados faladas e com resultados de \u00faltima gera\u00e7\u00e3o.<\/span><\/p>\n<p><b>Nossa abordagem<\/b><\/p>\n<p><span style=\"font-weight: 400\">Construir um modelo unificado requer um kit de ferramentas de modelagem de sequ\u00eancia que seja leve e facilmente combin\u00e1vel com outras bibliotecas modernas do ecossistema PyTorch. N\u00f3s redesenhamos o Fairseq, nosso kit de ferramentas original de modelagem de sequ\u00eancia e com APIs de modelagem e carregador de dados mais eficientes, o fairseq2 ajuda a potencializar a modelagem por tr\u00e1s do SeamlessM4T.<\/span><\/p>\n<p><span style=\"font-weight: 400\">Para o modelo, utilizamos a arquitetura do modelo multitarefa UnitY, que \u00e9 capaz de gerar diretamente texto e fala traduzidos. Esta nova arquitetura tamb\u00e9m suporta reconhecimento autom\u00e1tico de fala, convers\u00e3o de texto em texto, convers\u00e3o de texto em fala, convers\u00e3o de fala em texto e tradu\u00e7\u00f5es de fala em fala que j\u00e1 fazem parte do modelo <\/span><a href=\"https:\/\/arxiv.org\/abs\/2212.08055\"><span style=\"font-weight: 400\">b\u00e1sico UnitY<\/span><\/a><span style=\"font-weight: 400\">. O modelo UnitY multitarefa consiste em tr\u00eas componentes sequenciais principais. Os codificadores de texto e fala t\u00eam a tarefa de reconhecer entradas de fala em quase 100 idiomas. O decodificador de texto ent\u00e3o transfere esse significado para quase 100 idiomas de texto, seguido por um modelo de texto para decodificar em unidades ac\u00fasticas discretas para 36 idiomas de fala. Cada um desses componentes no UnitY multitarefa \u00e9 pr\u00e9-treinado por um modelo de componente para uma subtarefa de texto para texto, fala para texto e fala para fala. As unidades discretas decodificadas s\u00e3o ent\u00e3o convertidas em fala usando um vocoder de unidade HiFi-GAN multil\u00edngue.<\/span><\/p>\n<p><img data-recalc-dims=\"1\" loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-large wp-image-25109\" src=\"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/09\/foto-2.jpg?w=960&#038;resize=960%2C642\" alt=\"\" width=\"960\" height=\"642\" srcset=\"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/09\/foto-2.jpg?w=1920 1920w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/09\/foto-2.jpg?w=598 598w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/09\/foto-2.jpg?w=300 300w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/09\/foto-2.jpg?w=768 768w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/09\/foto-2.jpg?w=1024 1024w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/09\/foto-2.jpg?w=1536 1536w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/09\/foto-2.jpg?w=1615 1615w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/09\/foto-2.jpg?w=800 800w\" sizes=\"auto, (max-width: 960px) 100vw, 960px\" \/><\/p>\n<p><b>Como o codificador processa a fala<\/b><\/p>\n<p><span style=\"font-weight: 400\">Nosso codificador de fala auto supervisionado, w2v-BERT 2.0 &#8211; que \u00e9 uma vers\u00e3o aprimorada do w2v-BERT, melhora sua estabilidade de treinamento e qualidade de representa\u00e7\u00e3o, aprende a encontrar estrutura e significado na fala analisando milh\u00f5es de horas de fala multil\u00edngue. O codificador pega o sinal de \u00e1udio, divide-o em partes menores e constr\u00f3i uma representa\u00e7\u00e3o interna do que est\u00e1 sendo dito. Como as palavras faladas s\u00e3o compostas por muitos desses sons e caracteres, usamos um adaptador de comprimento para mape\u00e1-las em palavras reais.<\/span><\/p>\n<p><b>Como o codificador processa o texto<\/b><\/p>\n<p><span style=\"font-weight: 400\">Da mesma forma, temos um codificador de texto baseado no modelo NLLB, que foi treinado para compreender textos em quase 100 idiomas e produzir representa\u00e7\u00f5es \u00fateis para tradu\u00e7\u00e3o.<\/span><\/p>\n<p><b>Produzindo texto<\/b><\/p>\n<p><span style=\"font-weight: 400\">Nosso decodificador de texto \u00e9 treinado para receber representa\u00e7\u00f5es de fala codificadas ou representa\u00e7\u00f5es de texto. Isso pode ser aplicado a tarefas no mesmo idioma, como reconhecimento de fala e tarefas de uma tradu\u00e7\u00e3o multil\u00edngue. Por exemplo, algu\u00e9m pode dizer a palavra \u201cbonjour\u201d em franc\u00eas e esperar que o texto traduzido em sua\u00edli seja \u201chabari\u201d. Com o treinamento multitarefa, aproveitamos os pontos fortes de um forte modelo de tradu\u00e7\u00e3o de texto para texto (NLLB) para orientar nosso modelo de tradu\u00e7\u00e3o de fala para texto por meio da destila\u00e7\u00e3o de conhecimento em n\u00edvel de token.<\/span><\/p>\n<p><b>Produzindo falas<\/b><\/p>\n<p><span style=\"font-weight: 400\">Usamos unidades ac\u00fasticas para representar a fala, o componente texto para unidade (T2U) no modelo UnitY gera essas unidades de fala discretas com base na sa\u00edda de texto e \u00e9 pr\u00e9-treinado em dados ASR antes do ajuste fino da UnitY. Um vocoder de unidade HiFi-GAN multil\u00edngue \u00e9 ent\u00e3o usado para converter essas unidades discretas em formas de onda de \u00e1udio.<\/span><\/p>\n<p><b>Dimensionamento de dados<\/b><\/p>\n<p><span style=\"font-weight: 400\">Os modelos baseados em dados como o SeamlessM4T geralmente se beneficiam de grandes quantidades de alta qualidade, ou seja, dados de fala para texto e de fala para fala. Depender apenas da fala humana transcrita e traduzida n\u00e3o \u00e9 suficiente para enfrentar a desafiadora tarefa de tradu\u00e7\u00e3o de fala para 100 idiomas. Ent\u00e3o, nos baseamos no nosso trabalho pioneiro de minera\u00e7\u00e3o de texto para texto, usando uma medida de similaridade em um espa\u00e7o de incorpora\u00e7\u00e3o conjunta e no trabalho inicial na minera\u00e7\u00e3o de fala para criar recursos adicionais e treinar o modelo SeamlessM4T.<\/span><\/p>\n<p><span style=\"font-weight: 400\">Primeiramente, constru\u00edmos um novo espa\u00e7o de incorpora\u00e7\u00e3o de texto massivamente multil\u00edngue e modal para 200 idiomas, denominado <\/span><a href=\"https:\/\/ai.meta.com\/research\/publications\/sonar-sentence-level-multimodal-and-language-agnostic-representations\/\"><span style=\"font-weight: 400\">SONAR<\/span><\/a><span style=\"font-weight: 400\"> (<\/span><b><i>S<\/i><\/b><i><span style=\"font-weight: 400\">entence-level m<\/span><\/i><b><i>O<\/i><\/b><i><span style=\"font-weight: 400\">dality- and la<\/span><\/i><b><i>N<\/i><\/b><i><span style=\"font-weight: 400\">ganguage-<\/span><\/i><b><i>A<\/i><\/b><i><span style=\"font-weight: 400\">gnostic <\/span><\/i><b><i>R<\/i><\/b><i><span style=\"font-weight: 400\">epresentations<\/span><\/i><span style=\"font-weight: 400\">), que supera substancialmente as abordagens existentes como LASER3 ou LaBSE na pesquisa de similaridade multil\u00edngue. Em seguida, aplicamos uma abordagem professor-aluno para estender esse espa\u00e7o de incorpora\u00e7\u00e3o \u00e0 modalidade de fala, atualmente abrangemos 36 idiomas. A minera\u00e7\u00e3o \u00e9 realizada em dados de reposit\u00f3rios p\u00fablicos de dados da web (dezenas de bilh\u00f5es de frases) e de fala (4 milh\u00f5es de horas). No total, conseguimos alinhar automaticamente mais de 443 mil horas de fala com textos e criar cerca de 29 mil horas de alinhamentos de fala para fala. Este conjunto, denominado SeamlessAlign, \u00e9 o maior conjunto aberto de fala\/fala e fala\/texto paralelo em termos de volume total e cobertura lingu\u00edstica at\u00e9 o momento.<\/span><span style=\"font-weight: 400\">\u00a0<\/span><\/p>\n<p><b>Resultados<\/b><\/p>\n<p><span style=\"font-weight: 400\">Para essas tarefas e idiomas, o SeamlessM4T alcan\u00e7a resultados de \u00faltima gera\u00e7\u00e3o para quase 100 idiomas e tamb\u00e9m oferece suporte multitarefa em reconhecimento autom\u00e1tico de fala, fala para texto, fala para fala, texto para fala e texto para tradu\u00e7\u00e3o de texto \u2013 tudo em um \u00fanico modelo. Tamb\u00e9m melhoramos significativamente o desempenho para idiomas com recursos baixos e m\u00e9dios suportados e mantemos um forte desempenho em idiomas com recursos altos.<\/span><\/p>\n<p><span style=\"font-weight: 400\">Para avaliar o sistema com mais precis\u00e3o, sem depender de m\u00e9tricas baseadas em texto, estendemos nossa m\u00e9trica sem texto para o BLASER 2.0, que agora permite avalia\u00e7\u00e3o em unidades de fala e texto com precis\u00e3o semelhante em compara\u00e7\u00e3o com seu antecessor. Quando testado, em rela\u00e7\u00e3o a robustez, nosso sistema tem melhor desempenho contra ru\u00eddos de fundo e varia\u00e7\u00f5es de locutor em tarefas de fala para texto (melhorias m\u00e9dias de 37% e 48%, respectivamente) em compara\u00e7\u00e3o com o modelo atual de \u00faltima gera\u00e7\u00e3o.<\/span><\/p>\n<p><span style=\"font-weight: 400\">O SeamlessM4T tamb\u00e9m supera concorrentes de \u00faltima gera\u00e7\u00e3o anteriores.<\/span><\/p>\n<p><img data-recalc-dims=\"1\" loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-large wp-image-25110\" src=\"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/09\/foto-3.jpg?w=960&#038;resize=960%2C575\" alt=\"\" width=\"960\" height=\"575\" srcset=\"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/09\/foto-3.jpg?w=1920 1920w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/09\/foto-3.jpg?w=600 600w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/09\/foto-3.jpg?w=300 300w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/09\/foto-3.jpg?w=768 768w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/09\/foto-3.jpg?w=1024 1024w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/09\/foto-3.jpg?w=1536 1536w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/09\/foto-3.jpg?w=1803 1803w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/09\/foto-3.jpg?w=800 800w\" sizes=\"auto, (max-width: 960px) 100vw, 960px\" \/><\/p>\n<p><b>Como constru\u00edmos o SeamlessM4T de forma respons\u00e1vel<\/b><\/p>\n<p><span style=\"font-weight: 400\">\u00c9 importante que os sistemas de tradu\u00e7\u00e3o sejam precisos, mas, assim como acontece com todos os sistemas de IA, existem riscos inerentes de que o modelo possa transcrever incorretamente o que uma pessoa quer dizer ou gerar resultados t\u00f3xicos ou imprecisos.<\/span><\/p>\n<p><span style=\"font-weight: 400\">Na Meta, nossa pesquisa e desenvolvimento de IA segue uma estrutura respons\u00e1vel que \u00e9 guiada pelos nossos <\/span><a href=\"https:\/\/ai.meta.com\/blog\/responsible-ai-progress-meta-2022\/\"><span style=\"font-weight: 400\">cinco pilares de IA Respons\u00e1vel<\/span><\/a><span style=\"font-weight: 400\">. Em linha com o nosso compromisso com a IA respons\u00e1vel, conduzimos pesquisas sobre toxicidade e preconceito para nos ajudar a compreender quais \u00e1reas do modelo podem ser sens\u00edveis. Para toxicidade, expandimos nosso classificador de toxicidade altamente multil\u00edngue \u00e0 fala, assim conseguimos identificar palavras t\u00f3xicas a partir de entradas e sa\u00eddas de fala. Tamb\u00e9m filtramos a toxicidade nos dados de treinamento, pois se a entrada ou sa\u00edda tivesse diferentes quantidades de toxicidade, conseguimos remover essa sequ\u00eancia de treinamento.<\/span><\/p>\n<p><span style=\"font-weight: 400\">A demonstra\u00e7\u00e3o que anunciamos hoje mostra os recursos do SeamlessM4T e \u00e9 uma parte importante da pesquisa. Detectamos toxicidade tanto na entrada quanto na sa\u00edda da demonstra\u00e7\u00e3o. Caso a toxicidade for detectada apenas na sa\u00edda, significa que ela foi adicionada. Neste caso, inclu\u00edmos um aviso e n\u00e3o mostramos a sa\u00edda. Ao comparar nossos modelos de \u00faltima gera\u00e7\u00e3o, reduzimos significativamente a toxicidade adicional na tradu\u00e7\u00e3o de fala para fala e de fala para texto.<\/span><\/p>\n<p><span style=\"font-weight: 400\">O vi\u00e9s de g\u00eanero, em que os resultados favorecem injustamente um deles e por vezes recorrem a estere\u00f3tipos, \u00e9 outra \u00e1rea que estamos come\u00e7ando a avaliar nas l\u00ednguas em grande escala. No que diz respeito ao vi\u00e9s, investimos esfor\u00e7os para avaliar o vi\u00e9s de g\u00eanero nas l\u00ednguas em grande escala. Agora somos capazes de quantificar o vi\u00e9s de g\u00eanero em dezenas de dire\u00e7\u00f5es de tradu\u00e7\u00e3o de fala, por meio do nosso conjunto de dados <\/span><a href=\"https:\/\/arxiv.org\/abs\/2305.13198\"><span style=\"font-weight: 400\">Multilingual HolisticBias<\/span><\/a><span style=\"font-weight: 400\">, previamente projetado para a fala.<\/span><\/p>\n<p><span style=\"font-weight: 400\">Nosso trabalho em torno da seguran\u00e7a e prote\u00e7\u00e3o \u00e9 um esfor\u00e7o cont\u00ednuo. Continuaremos pesquisando e tomando medidas nesta \u00e1rea para melhorar continuamente o SeamlessM4T e reduzir quaisquer casos de toxicidade que vemos no modelo.<\/span><\/p>\n<p><b>Fornecendo acesso \u00e0 nossa tecnologia<\/b><\/p>\n<p><span style=\"font-weight: 400\">Com resultados de \u00faltima gera\u00e7\u00e3o, acreditamos que o SeamlessM4T \u00e9 um avan\u00e7o importante na busca da comunidade de IA para criar sistemas multitarefa universais. Mantendo nossa abordagem \u00e0 ci\u00eancia aberta, estamos animados para compartilhar publicamente nosso modelo e permitir que pesquisadores e desenvolvedores explorem essa tecnologia.<\/span><\/p>\n<p><span style=\"font-weight: 400\">Este \u00e9 apenas o passo mais recente em nosso esfor\u00e7o cont\u00ednuo para criar uma tecnologia baseada em IA que ajude a conectar pessoas em v\u00e1rios idiomas. No futuro, queremos explorar como este modelo fundamental pode permitir novas capacidades de comunica\u00e7\u00e3o, nos aproximando de um mundo onde todos podem ser compreendidos.<\/span><\/p>\n<p><a href=\"https:\/\/ai.meta.com\/research\/publications\/seamlessm4t-massively-multilingual-multimodal-machine-translation\/\"><span style=\"font-weight: 400\">Acesse o artigo de pesquisa<\/span><\/a><span style=\"font-weight: 400\">\u00a0<\/span><\/p>\n<p><a href=\"https:\/\/github.com\/facebookresearch\/seamless_communication\"><span style=\"font-weight: 400\">Fa\u00e7a download do c\u00f3digo, modelo e dados<\/span><\/a><\/p>\n<p><a href=\"https:\/\/seamless.metademolab.com\/\"><span style=\"font-weight: 400\">Teste a demonstra\u00e7\u00e3o<\/span><\/a><\/p>\n<p><a href=\"https:\/\/huggingface.co\/spaces\/facebook\/seamless_m4t\"><span style=\"font-weight: 400\">Experimente a demonstra\u00e7\u00e3o do Face Hugging<\/span><\/a><\/p>\n","protected":false},"excerpt":{"rendered":"O mundo em que vivemos nunca esteve t\u00e3o interligado \u2013 a prolifera\u00e7\u00e3o global da internet, dispositivos m\u00f3veis, m\u00eddias sociais e plataformas de comunica\u00e7\u00e3o d\u00e3o \u00e0s pessoas acesso a mais conte\u00fado multilingu\u00edstico do que nunca. Nesse contexto, ter uma maneira de se\u00a0 comunicar e compreender informa\u00e7\u00f5es em qualquer idioma torna-se cada vez mais importante. Embora tal capacidade seja sonhada h\u00e1 muito tempo na fic\u00e7\u00e3o cient\u00edfica, a IA est\u00e1 prestes a transformar isso em realidade t\u00e9cnica. Hoje, apresentamos o SeamlessM4T, um modelo multil\u00edngue e multitarefa que traduz e transcreve perfeitamente fala e texto. O SeamlessM4T oferece: Reconhecimento de fala em quase 100 idiomas Tradu\u00e7\u00e3o de voz para texto para quase 100 idiomas, tanto de entrada e sa\u00edda Tradu\u00e7\u00e3o de fala para fala, para quase 100 idiomas de entrada e 35 idiomas de sa\u00edda (+ o ingl\u00eas) Tradu\u00e7\u00e3o de texto para texto para quase 100 idiomas Tradu\u00e7\u00e3o de texto para fala, com suporte para quase 100 idiomas de entrada e 35 idiomas de sa\u00edda (+ o ingl\u00eas) Mantendo nossa abordagem de ci\u00eancia aberta, estamos lan\u00e7ando publicamente o SeamlessM4T no CC BY-NC 4.0 permitindo que pesquisadores e desenvolvedores ampliem esse trabalho. Tamb\u00e9m estamos lan\u00e7ando metadados do SeamlessAlign, o maior conjunto de dados de tradu\u00e7\u00e3o multimodal aberto at\u00e9 o momento, totalizando 270 mil horas de fala trabalhadas e alinhamentos de texto. Tornamos mais f\u00e1cil para a comunidade realizar a explora\u00e7\u00e3o em seus pr\u00f3prios conjuntos de dados monol\u00edngues com o SONAR, um conjunto completo de codificadores de frases de fala e texto, e &#8220;stopes&#8221;, nossa biblioteca para processamento de dados multimodais e minera\u00e7\u00e3o de dados paralela. Todos os avan\u00e7os da pesquisa s\u00e3o apoiados pelo fairseq2, nossa biblioteca de modelos sequenciais de \u00faltima gera\u00e7\u00e3o. \u00c9 desafiador construir um tradutor de linguagem universal, como o fict\u00edcio Babel Fish em O Guia do Mochileiro das Gal\u00e1xias, porque os sistemas existentes de fala para fala, e fala para texto cobrem apenas uma pequena parcela dos idiomas do mundo. O SeamlessM4T representa um avan\u00e7o significativo no campo da convers\u00e3o de fala para fala, e de fala para texto, pois abrange os desafios da cobertura lingu\u00edstica limitada e da depend\u00eancia de sistemas separados, que dividem a tarefa de tradu\u00e7\u00e3o de fala para fala em v\u00e1rios subsistemas. Esses sistemas aproveitam essa grande quantidade de dados e geralmente funcionam bem em uma modalidade. Nosso desafio era criar um modelo multil\u00edngue unificado que pudesse fazer tudo. N\u00f3s acreditamos que o trabalho anunciado hoje \u00e9 um passo significativo nesta jornada. Nosso modelo \u00e9 \u00fanico e oferece tradu\u00e7\u00f5es sob demanda, permitindo que pessoas que falam diferentes idiomas se comuniquem de maneira mais eficaz. Melhoramos significativamente a performance dos idiomas com poucos e m\u00e9dios recursos que oferecemos suporte. Estas s\u00e3o l\u00ednguas que t\u00eam pegadas lingu\u00edsticas digitais menores. Tamb\u00e9m mantemos um forte desempenho em idiomas com muitos recursos, como o\u00a0 ingl\u00eas, o espanhol e o alem\u00e3o. O SeamlessM4T reconhece implicitamente os idiomas de origem, sem a necessidade de um modelo de identifica\u00e7\u00e3o de idioma separado. Este trabalho baseia-se nos avan\u00e7os que a Meta e outras pessoas fizeram ao longo dos anos na busca por criar um tradutor universal. No ano passado, lan\u00e7amos No Language Left Behind (NLLB), um modelo de tradu\u00e7\u00e3o autom\u00e1tica de texto para texto que suporta 200 idiomas e desde ent\u00e3o foi integrado \u00e0 Wikip\u00e9dia como um de seus fornecedores de tradu\u00e7\u00e3o. Alguns meses depois, compartilhamos uma demonstra\u00e7\u00e3o do Universal Speech Translator, nosso primeiro sistema de tradu\u00e7\u00e3o direta de fala para fala para Hokkien, um idioma sem um sistema de escrita amplamente utilizado. Com isso, desenvolvemos o SpeechMatrix, primeiro conjunto de dados de tradu\u00e7\u00e3o de fala para fala multil\u00edngue em grande escala, derivado do SpeechLASER, um avan\u00e7o no aprendizado supervisionado de representa\u00e7\u00e3o. No in\u00edcio deste ano, tamb\u00e9m compartilhamos o Massively Multilingual Speech, que fornece reconhecimento de fala, identifica\u00e7\u00e3o de idioma e tecnologia de s\u00edntese de fala em mais de 1.100 idiomas. O SeamlessM4T baseia-se nas descobertas de todos esses projetos, permitindo uma experi\u00eancia de tradu\u00e7\u00e3o multil\u00edngue e multimodal resultante de um modelo \u00fanico, constru\u00eddo em uma ampla variedade de fontes de dados faladas e com resultados de \u00faltima gera\u00e7\u00e3o. Nossa abordagem Construir um modelo unificado requer um kit de ferramentas de modelagem de sequ\u00eancia que seja leve e facilmente combin\u00e1vel com outras bibliotecas modernas do ecossistema PyTorch. N\u00f3s redesenhamos o Fairseq, nosso kit de ferramentas original de modelagem de sequ\u00eancia e com APIs de modelagem e carregador de dados mais eficientes, o fairseq2 ajuda a potencializar a modelagem por tr\u00e1s do SeamlessM4T. Para o modelo, utilizamos a arquitetura do modelo multitarefa UnitY, que \u00e9 capaz de gerar diretamente texto e fala traduzidos. Esta nova arquitetura tamb\u00e9m suporta reconhecimento autom\u00e1tico de fala, convers\u00e3o de texto em texto, convers\u00e3o de texto em fala, convers\u00e3o de fala em texto e tradu\u00e7\u00f5es de fala em fala que j\u00e1 fazem parte do modelo b\u00e1sico UnitY. O modelo UnitY multitarefa consiste em tr\u00eas componentes sequenciais principais. Os codificadores de texto e fala t\u00eam a tarefa de reconhecer entradas de fala em quase 100 idiomas. O decodificador de texto ent\u00e3o transfere esse significado para quase 100 idiomas de texto, seguido por um modelo de texto para decodificar em unidades ac\u00fasticas discretas para 36 idiomas de fala. Cada um desses componentes no UnitY multitarefa \u00e9 pr\u00e9-treinado por um modelo de componente para uma subtarefa de texto para texto, fala para texto e fala para fala. As unidades discretas decodificadas s\u00e3o ent\u00e3o convertidas em fala usando um vocoder de unidade HiFi-GAN multil\u00edngue. Como o codificador processa a fala Nosso codificador de fala auto supervisionado, w2v-BERT 2.0 &#8211; que \u00e9 uma vers\u00e3o aprimorada do w2v-BERT, melhora sua estabilidade de treinamento e qualidade de representa\u00e7\u00e3o, aprende a encontrar estrutura e significado na fala analisando milh\u00f5es de horas de fala multil\u00edngue. O codificador pega o sinal de \u00e1udio, divide-o em partes menores e constr\u00f3i uma representa\u00e7\u00e3o interna do que est\u00e1 sendo dito. Como as palavras faladas s\u00e3o compostas por muitos desses sons e caracteres, usamos um adaptador de comprimento para mape\u00e1-las em palavras reais. Como o codificador processa o texto Da mesma forma, temos um codificador de texto baseado no modelo NLLB, que foi treinado para compreender textos em quase 100 idiomas e produzir representa\u00e7\u00f5es \u00fateis para tradu\u00e7\u00e3o. Produzindo texto Nosso decodificador de texto \u00e9 treinado para receber representa\u00e7\u00f5es de fala codificadas ou representa\u00e7\u00f5es de texto. Isso pode ser aplicado a tarefas no mesmo idioma, como reconhecimento de fala e tarefas de uma tradu\u00e7\u00e3o multil\u00edngue. Por exemplo, algu\u00e9m pode dizer a palavra \u201cbonjour\u201d em franc\u00eas e esperar que o texto traduzido em sua\u00edli seja \u201chabari\u201d. Com o treinamento multitarefa, aproveitamos os pontos fortes de um forte modelo de tradu\u00e7\u00e3o de texto para texto (NLLB) para orientar nosso modelo de tradu\u00e7\u00e3o de fala para texto por meio da destila\u00e7\u00e3o de conhecimento em n\u00edvel de token. Produzindo falas Usamos unidades ac\u00fasticas para representar a fala, o componente texto para unidade (T2U) no modelo UnitY gera essas unidades de fala discretas com base na sa\u00edda de texto e \u00e9 pr\u00e9-treinado em dados ASR antes do ajuste fino da UnitY. Um vocoder de unidade HiFi-GAN multil\u00edngue \u00e9 ent\u00e3o usado para converter essas unidades discretas em formas de onda de \u00e1udio. Dimensionamento de dados Os modelos baseados em dados como o SeamlessM4T geralmente se beneficiam de grandes quantidades de alta qualidade, ou seja, dados de fala para texto e de fala para fala. Depender apenas da fala humana transcrita e traduzida n\u00e3o \u00e9 suficiente para enfrentar a desafiadora tarefa de tradu\u00e7\u00e3o de fala para 100 idiomas. Ent\u00e3o, nos baseamos no nosso trabalho pioneiro de minera\u00e7\u00e3o de texto para texto, usando uma medida de similaridade em um espa\u00e7o de incorpora\u00e7\u00e3o conjunta e no trabalho inicial na minera\u00e7\u00e3o de fala para criar recursos adicionais e treinar o modelo SeamlessM4T. Primeiramente, constru\u00edmos um novo espa\u00e7o de incorpora\u00e7\u00e3o de texto massivamente multil\u00edngue e modal para 200 idiomas, denominado SONAR (Sentence-level mOdality- and laNganguage-Agnostic Representations), que supera substancialmente as abordagens existentes como LASER3 ou LaBSE na pesquisa de similaridade multil\u00edngue. Em seguida, aplicamos uma abordagem professor-aluno para estender esse espa\u00e7o de incorpora\u00e7\u00e3o \u00e0 modalidade de fala, atualmente abrangemos 36 idiomas. A minera\u00e7\u00e3o \u00e9 realizada em dados de reposit\u00f3rios p\u00fablicos de dados da web (dezenas de bilh\u00f5es de frases) e de fala (4 milh\u00f5es de horas). No total, conseguimos alinhar automaticamente mais de 443 mil horas de fala com textos e criar cerca de 29 mil horas de alinhamentos de fala para fala. Este conjunto, denominado SeamlessAlign, \u00e9 o maior conjunto aberto de fala\/fala e fala\/texto paralelo em termos de volume total e cobertura lingu\u00edstica at\u00e9 o momento.\u00a0 Resultados Para essas tarefas e idiomas, o SeamlessM4T alcan\u00e7a resultados de \u00faltima gera\u00e7\u00e3o para quase 100 idiomas e tamb\u00e9m oferece suporte multitarefa em reconhecimento autom\u00e1tico de fala, fala para texto, fala para fala, texto para fala e texto para tradu\u00e7\u00e3o de texto \u2013 tudo em um \u00fanico modelo. Tamb\u00e9m melhoramos significativamente o desempenho para idiomas com recursos baixos e m\u00e9dios suportados e mantemos um forte desempenho em idiomas com recursos altos. Para avaliar o sistema com mais precis\u00e3o, sem depender de m\u00e9tricas baseadas em texto, estendemos nossa m\u00e9trica sem texto para o BLASER 2.0, que agora permite avalia\u00e7\u00e3o em unidades de fala e texto com precis\u00e3o semelhante em compara\u00e7\u00e3o com seu antecessor. Quando testado, em rela\u00e7\u00e3o a robustez, nosso sistema tem melhor desempenho contra ru\u00eddos de fundo e varia\u00e7\u00f5es de locutor em tarefas de fala para texto (melhorias m\u00e9dias de 37% e 48%, respectivamente) em compara\u00e7\u00e3o com o modelo atual de \u00faltima gera\u00e7\u00e3o. O SeamlessM4T tamb\u00e9m supera concorrentes de \u00faltima gera\u00e7\u00e3o anteriores. Como constru\u00edmos o SeamlessM4T de forma respons\u00e1vel \u00c9 importante que os sistemas de tradu\u00e7\u00e3o sejam precisos, mas, assim como acontece com todos os sistemas de IA, existem riscos inerentes de que o modelo possa transcrever incorretamente o que uma pessoa quer dizer ou gerar resultados t\u00f3xicos ou imprecisos. Na Meta, nossa pesquisa e desenvolvimento de IA segue uma estrutura respons\u00e1vel que \u00e9 guiada pelos nossos cinco pilares de IA Respons\u00e1vel. Em linha com o nosso compromisso com a IA respons\u00e1vel, conduzimos pesquisas sobre toxicidade e preconceito para nos ajudar a compreender quais \u00e1reas do modelo podem ser sens\u00edveis. Para toxicidade, expandimos nosso classificador de toxicidade altamente multil\u00edngue \u00e0 fala, assim conseguimos identificar palavras t\u00f3xicas a partir de entradas e sa\u00eddas de fala. Tamb\u00e9m filtramos a toxicidade nos dados de treinamento, pois se a entrada ou sa\u00edda tivesse diferentes quantidades de toxicidade, conseguimos remover essa sequ\u00eancia de treinamento. A demonstra\u00e7\u00e3o que anunciamos hoje mostra os recursos do SeamlessM4T e \u00e9 uma parte importante da pesquisa. Detectamos toxicidade tanto na entrada quanto na sa\u00edda da demonstra\u00e7\u00e3o. Caso a toxicidade for detectada apenas na sa\u00edda, significa que ela foi adicionada. Neste caso, inclu\u00edmos um aviso e n\u00e3o mostramos a sa\u00edda. Ao comparar nossos modelos de \u00faltima gera\u00e7\u00e3o, reduzimos significativamente a toxicidade adicional na tradu\u00e7\u00e3o de fala para fala e de fala para texto. O vi\u00e9s de g\u00eanero, em que os resultados favorecem injustamente um deles e por vezes recorrem a estere\u00f3tipos, \u00e9 outra \u00e1rea que estamos come\u00e7ando a avaliar nas l\u00ednguas em grande escala. No que diz respeito ao vi\u00e9s, investimos esfor\u00e7os para avaliar o vi\u00e9s de g\u00eanero nas l\u00ednguas em grande escala. Agora somos capazes de quantificar o vi\u00e9s de g\u00eanero em dezenas de dire\u00e7\u00f5es de tradu\u00e7\u00e3o de fala, por meio do nosso conjunto de dados Multilingual HolisticBias, previamente projetado para a fala. Nosso trabalho em torno da seguran\u00e7a e prote\u00e7\u00e3o \u00e9 um esfor\u00e7o cont\u00ednuo. Continuaremos pesquisando e tomando medidas nesta \u00e1rea para melhorar continuamente o SeamlessM4T e reduzir quaisquer casos de toxicidade que vemos no modelo. Fornecendo acesso \u00e0 nossa tecnologia Com resultados de \u00faltima gera\u00e7\u00e3o, acreditamos que o SeamlessM4T \u00e9 um avan\u00e7o importante na busca da comunidade de IA para criar sistemas multitarefa universais. Mantendo nossa abordagem \u00e0 ci\u00eancia aberta, estamos animados para compartilhar publicamente nosso modelo e permitir que pesquisadores e desenvolvedores explorem essa tecnologia. Este \u00e9 apenas o passo mais recente em nosso esfor\u00e7o cont\u00ednuo para criar uma tecnologia baseada em IA que ajude a conectar pessoas em v\u00e1rios idiomas. No futuro, queremos explorar como este modelo fundamental pode permitir novas capacidades de comunica\u00e7\u00e3o, nos aproximando de um mundo onde todos podem ser compreendidos. Acesse o artigo de pesquisa\u00a0 Fa\u00e7a download do c\u00f3digo, modelo e dados Teste a demonstra\u00e7\u00e3o Experimente a demonstra\u00e7\u00e3o do Face Hugging","protected":false},"author":164097222,"featured_media":0,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_jetpack_memberships_contains_paid_content":false,"footnotes":""},"categories":[396542114,396542170],"tags":[],"class_list":["post-25105","post","type-post","status-publish","format-standard","hentry","category-meta","category-tecnologia-e-inovacao"],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v27.2 - https:\/\/yoast.com\/product\/yoast-seo-wordpress\/ -->\n<title>Aproximando o mundo com um modelo multimodal fundamental para tradu\u00e7\u00e3o de fala | Sobre a Meta<\/title>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/about.fb.com\/br\/news\/2023\/08\/aproximando-o-mundo-com-um-modelo-multimodal-fundamental-para-traducao-de-fala\/\" \/>\n<meta property=\"og:locale\" content=\"pt_BR\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Aproximando o mundo com um modelo multimodal fundamental para tradu\u00e7\u00e3o de fala | Sobre a Meta\" \/>\n<meta property=\"og:description\" content=\"O mundo em que vivemos nunca esteve t\u00e3o interligado \u2013 a prolifera\u00e7\u00e3o global da internet, dispositivos m\u00f3veis, m\u00eddias sociais e plataformas de comunica\u00e7\u00e3o d\u00e3o \u00e0s pessoas acesso a mais conte\u00fado multilingu\u00edstico do que nunca. Nesse contexto, ter uma maneira de se\u00a0 comunicar e compreender informa\u00e7\u00f5es em qualquer idioma torna-se cada vez mais importante. Embora tal capacidade seja sonhada h\u00e1 muito tempo na fic\u00e7\u00e3o cient\u00edfica, a IA est\u00e1 prestes a transformar isso em realidade t\u00e9cnica. Hoje, apresentamos o SeamlessM4T, um modelo multil\u00edngue e multitarefa que traduz e transcreve perfeitamente fala e texto. O SeamlessM4T oferece: Reconhecimento de fala em quase 100 idiomas Tradu\u00e7\u00e3o de voz para texto para quase 100 idiomas, tanto de entrada e sa\u00edda Tradu\u00e7\u00e3o de fala para fala, para quase 100 idiomas de entrada e 35 idiomas de sa\u00edda (+ o ingl\u00eas) Tradu\u00e7\u00e3o de texto para texto para quase 100 idiomas Tradu\u00e7\u00e3o de texto para fala, com suporte para quase 100 idiomas de entrada e 35 idiomas de sa\u00edda (+ o ingl\u00eas) Mantendo nossa abordagem de ci\u00eancia aberta, estamos lan\u00e7ando publicamente o SeamlessM4T no CC BY-NC 4.0 permitindo que pesquisadores e desenvolvedores ampliem esse trabalho. Tamb\u00e9m estamos lan\u00e7ando metadados do SeamlessAlign, o maior conjunto de dados de tradu\u00e7\u00e3o multimodal aberto at\u00e9 o momento, totalizando 270 mil horas de fala trabalhadas e alinhamentos de texto. Tornamos mais f\u00e1cil para a comunidade realizar a explora\u00e7\u00e3o em seus pr\u00f3prios conjuntos de dados monol\u00edngues com o SONAR, um conjunto completo de codificadores de frases de fala e texto, e &#8220;stopes&#8221;, nossa biblioteca para processamento de dados multimodais e minera\u00e7\u00e3o de dados paralela. Todos os avan\u00e7os da pesquisa s\u00e3o apoiados pelo fairseq2, nossa biblioteca de modelos sequenciais de \u00faltima gera\u00e7\u00e3o. \u00c9 desafiador construir um tradutor de linguagem universal, como o fict\u00edcio Babel Fish em O Guia do Mochileiro das Gal\u00e1xias, porque os sistemas existentes de fala para fala, e fala para texto cobrem apenas uma pequena parcela dos idiomas do mundo. O SeamlessM4T representa um avan\u00e7o significativo no campo da convers\u00e3o de fala para fala, e de fala para texto, pois abrange os desafios da cobertura lingu\u00edstica limitada e da depend\u00eancia de sistemas separados, que dividem a tarefa de tradu\u00e7\u00e3o de fala para fala em v\u00e1rios subsistemas. Esses sistemas aproveitam essa grande quantidade de dados e geralmente funcionam bem em uma modalidade. Nosso desafio era criar um modelo multil\u00edngue unificado que pudesse fazer tudo. N\u00f3s acreditamos que o trabalho anunciado hoje \u00e9 um passo significativo nesta jornada. Nosso modelo \u00e9 \u00fanico e oferece tradu\u00e7\u00f5es sob demanda, permitindo que pessoas que falam diferentes idiomas se comuniquem de maneira mais eficaz. Melhoramos significativamente a performance dos idiomas com poucos e m\u00e9dios recursos que oferecemos suporte. Estas s\u00e3o l\u00ednguas que t\u00eam pegadas lingu\u00edsticas digitais menores. Tamb\u00e9m mantemos um forte desempenho em idiomas com muitos recursos, como o\u00a0 ingl\u00eas, o espanhol e o alem\u00e3o. O SeamlessM4T reconhece implicitamente os idiomas de origem, sem a necessidade de um modelo de identifica\u00e7\u00e3o de idioma separado. Este trabalho baseia-se nos avan\u00e7os que a Meta e outras pessoas fizeram ao longo dos anos na busca por criar um tradutor universal. No ano passado, lan\u00e7amos No Language Left Behind (NLLB), um modelo de tradu\u00e7\u00e3o autom\u00e1tica de texto para texto que suporta 200 idiomas e desde ent\u00e3o foi integrado \u00e0 Wikip\u00e9dia como um de seus fornecedores de tradu\u00e7\u00e3o. Alguns meses depois, compartilhamos uma demonstra\u00e7\u00e3o do Universal Speech Translator, nosso primeiro sistema de tradu\u00e7\u00e3o direta de fala para fala para Hokkien, um idioma sem um sistema de escrita amplamente utilizado. Com isso, desenvolvemos o SpeechMatrix, primeiro conjunto de dados de tradu\u00e7\u00e3o de fala para fala multil\u00edngue em grande escala, derivado do SpeechLASER, um avan\u00e7o no aprendizado supervisionado de representa\u00e7\u00e3o. No in\u00edcio deste ano, tamb\u00e9m compartilhamos o Massively Multilingual Speech, que fornece reconhecimento de fala, identifica\u00e7\u00e3o de idioma e tecnologia de s\u00edntese de fala em mais de 1.100 idiomas. O SeamlessM4T baseia-se nas descobertas de todos esses projetos, permitindo uma experi\u00eancia de tradu\u00e7\u00e3o multil\u00edngue e multimodal resultante de um modelo \u00fanico, constru\u00eddo em uma ampla variedade de fontes de dados faladas e com resultados de \u00faltima gera\u00e7\u00e3o. Nossa abordagem Construir um modelo unificado requer um kit de ferramentas de modelagem de sequ\u00eancia que seja leve e facilmente combin\u00e1vel com outras bibliotecas modernas do ecossistema PyTorch. N\u00f3s redesenhamos o Fairseq, nosso kit de ferramentas original de modelagem de sequ\u00eancia e com APIs de modelagem e carregador de dados mais eficientes, o fairseq2 ajuda a potencializar a modelagem por tr\u00e1s do SeamlessM4T. Para o modelo, utilizamos a arquitetura do modelo multitarefa UnitY, que \u00e9 capaz de gerar diretamente texto e fala traduzidos. Esta nova arquitetura tamb\u00e9m suporta reconhecimento autom\u00e1tico de fala, convers\u00e3o de texto em texto, convers\u00e3o de texto em fala, convers\u00e3o de fala em texto e tradu\u00e7\u00f5es de fala em fala que j\u00e1 fazem parte do modelo b\u00e1sico UnitY. O modelo UnitY multitarefa consiste em tr\u00eas componentes sequenciais principais. Os codificadores de texto e fala t\u00eam a tarefa de reconhecer entradas de fala em quase 100 idiomas. O decodificador de texto ent\u00e3o transfere esse significado para quase 100 idiomas de texto, seguido por um modelo de texto para decodificar em unidades ac\u00fasticas discretas para 36 idiomas de fala. Cada um desses componentes no UnitY multitarefa \u00e9 pr\u00e9-treinado por um modelo de componente para uma subtarefa de texto para texto, fala para texto e fala para fala. As unidades discretas decodificadas s\u00e3o ent\u00e3o convertidas em fala usando um vocoder de unidade HiFi-GAN multil\u00edngue. Como o codificador processa a fala Nosso codificador de fala auto supervisionado, w2v-BERT 2.0 &#8211; que \u00e9 uma vers\u00e3o aprimorada do w2v-BERT, melhora sua estabilidade de treinamento e qualidade de representa\u00e7\u00e3o, aprende a encontrar estrutura e significado na fala analisando milh\u00f5es de horas de fala multil\u00edngue. O codificador pega o sinal de \u00e1udio, divide-o em partes menores e constr\u00f3i uma representa\u00e7\u00e3o interna do que est\u00e1 sendo dito. Como as palavras faladas s\u00e3o compostas por muitos desses sons e caracteres, usamos um adaptador de comprimento para mape\u00e1-las em palavras reais. Como o codificador processa o texto Da mesma forma, temos um codificador de texto baseado no modelo NLLB, que foi treinado para compreender textos em quase 100 idiomas e produzir representa\u00e7\u00f5es \u00fateis para tradu\u00e7\u00e3o. Produzindo texto Nosso decodificador de texto \u00e9 treinado para receber representa\u00e7\u00f5es de fala codificadas ou representa\u00e7\u00f5es de texto. Isso pode ser aplicado a tarefas no mesmo idioma, como reconhecimento de fala e tarefas de uma tradu\u00e7\u00e3o multil\u00edngue. Por exemplo, algu\u00e9m pode dizer a palavra \u201cbonjour\u201d em franc\u00eas e esperar que o texto traduzido em sua\u00edli seja \u201chabari\u201d. Com o treinamento multitarefa, aproveitamos os pontos fortes de um forte modelo de tradu\u00e7\u00e3o de texto para texto (NLLB) para orientar nosso modelo de tradu\u00e7\u00e3o de fala para texto por meio da destila\u00e7\u00e3o de conhecimento em n\u00edvel de token. Produzindo falas Usamos unidades ac\u00fasticas para representar a fala, o componente texto para unidade (T2U) no modelo UnitY gera essas unidades de fala discretas com base na sa\u00edda de texto e \u00e9 pr\u00e9-treinado em dados ASR antes do ajuste fino da UnitY. Um vocoder de unidade HiFi-GAN multil\u00edngue \u00e9 ent\u00e3o usado para converter essas unidades discretas em formas de onda de \u00e1udio. Dimensionamento de dados Os modelos baseados em dados como o SeamlessM4T geralmente se beneficiam de grandes quantidades de alta qualidade, ou seja, dados de fala para texto e de fala para fala. Depender apenas da fala humana transcrita e traduzida n\u00e3o \u00e9 suficiente para enfrentar a desafiadora tarefa de tradu\u00e7\u00e3o de fala para 100 idiomas. Ent\u00e3o, nos baseamos no nosso trabalho pioneiro de minera\u00e7\u00e3o de texto para texto, usando uma medida de similaridade em um espa\u00e7o de incorpora\u00e7\u00e3o conjunta e no trabalho inicial na minera\u00e7\u00e3o de fala para criar recursos adicionais e treinar o modelo SeamlessM4T. Primeiramente, constru\u00edmos um novo espa\u00e7o de incorpora\u00e7\u00e3o de texto massivamente multil\u00edngue e modal para 200 idiomas, denominado SONAR (Sentence-level mOdality- and laNganguage-Agnostic Representations), que supera substancialmente as abordagens existentes como LASER3 ou LaBSE na pesquisa de similaridade multil\u00edngue. Em seguida, aplicamos uma abordagem professor-aluno para estender esse espa\u00e7o de incorpora\u00e7\u00e3o \u00e0 modalidade de fala, atualmente abrangemos 36 idiomas. A minera\u00e7\u00e3o \u00e9 realizada em dados de reposit\u00f3rios p\u00fablicos de dados da web (dezenas de bilh\u00f5es de frases) e de fala (4 milh\u00f5es de horas). No total, conseguimos alinhar automaticamente mais de 443 mil horas de fala com textos e criar cerca de 29 mil horas de alinhamentos de fala para fala. Este conjunto, denominado SeamlessAlign, \u00e9 o maior conjunto aberto de fala\/fala e fala\/texto paralelo em termos de volume total e cobertura lingu\u00edstica at\u00e9 o momento.\u00a0 Resultados Para essas tarefas e idiomas, o SeamlessM4T alcan\u00e7a resultados de \u00faltima gera\u00e7\u00e3o para quase 100 idiomas e tamb\u00e9m oferece suporte multitarefa em reconhecimento autom\u00e1tico de fala, fala para texto, fala para fala, texto para fala e texto para tradu\u00e7\u00e3o de texto \u2013 tudo em um \u00fanico modelo. Tamb\u00e9m melhoramos significativamente o desempenho para idiomas com recursos baixos e m\u00e9dios suportados e mantemos um forte desempenho em idiomas com recursos altos. Para avaliar o sistema com mais precis\u00e3o, sem depender de m\u00e9tricas baseadas em texto, estendemos nossa m\u00e9trica sem texto para o BLASER 2.0, que agora permite avalia\u00e7\u00e3o em unidades de fala e texto com precis\u00e3o semelhante em compara\u00e7\u00e3o com seu antecessor. Quando testado, em rela\u00e7\u00e3o a robustez, nosso sistema tem melhor desempenho contra ru\u00eddos de fundo e varia\u00e7\u00f5es de locutor em tarefas de fala para texto (melhorias m\u00e9dias de 37% e 48%, respectivamente) em compara\u00e7\u00e3o com o modelo atual de \u00faltima gera\u00e7\u00e3o. O SeamlessM4T tamb\u00e9m supera concorrentes de \u00faltima gera\u00e7\u00e3o anteriores. Como constru\u00edmos o SeamlessM4T de forma respons\u00e1vel \u00c9 importante que os sistemas de tradu\u00e7\u00e3o sejam precisos, mas, assim como acontece com todos os sistemas de IA, existem riscos inerentes de que o modelo possa transcrever incorretamente o que uma pessoa quer dizer ou gerar resultados t\u00f3xicos ou imprecisos. Na Meta, nossa pesquisa e desenvolvimento de IA segue uma estrutura respons\u00e1vel que \u00e9 guiada pelos nossos cinco pilares de IA Respons\u00e1vel. Em linha com o nosso compromisso com a IA respons\u00e1vel, conduzimos pesquisas sobre toxicidade e preconceito para nos ajudar a compreender quais \u00e1reas do modelo podem ser sens\u00edveis. Para toxicidade, expandimos nosso classificador de toxicidade altamente multil\u00edngue \u00e0 fala, assim conseguimos identificar palavras t\u00f3xicas a partir de entradas e sa\u00eddas de fala. Tamb\u00e9m filtramos a toxicidade nos dados de treinamento, pois se a entrada ou sa\u00edda tivesse diferentes quantidades de toxicidade, conseguimos remover essa sequ\u00eancia de treinamento. A demonstra\u00e7\u00e3o que anunciamos hoje mostra os recursos do SeamlessM4T e \u00e9 uma parte importante da pesquisa. Detectamos toxicidade tanto na entrada quanto na sa\u00edda da demonstra\u00e7\u00e3o. Caso a toxicidade for detectada apenas na sa\u00edda, significa que ela foi adicionada. Neste caso, inclu\u00edmos um aviso e n\u00e3o mostramos a sa\u00edda. Ao comparar nossos modelos de \u00faltima gera\u00e7\u00e3o, reduzimos significativamente a toxicidade adicional na tradu\u00e7\u00e3o de fala para fala e de fala para texto. O vi\u00e9s de g\u00eanero, em que os resultados favorecem injustamente um deles e por vezes recorrem a estere\u00f3tipos, \u00e9 outra \u00e1rea que estamos come\u00e7ando a avaliar nas l\u00ednguas em grande escala. No que diz respeito ao vi\u00e9s, investimos esfor\u00e7os para avaliar o vi\u00e9s de g\u00eanero nas l\u00ednguas em grande escala. Agora somos capazes de quantificar o vi\u00e9s de g\u00eanero em dezenas de dire\u00e7\u00f5es de tradu\u00e7\u00e3o de fala, por meio do nosso conjunto de dados Multilingual HolisticBias, previamente projetado para a fala. Nosso trabalho em torno da seguran\u00e7a e prote\u00e7\u00e3o \u00e9 um esfor\u00e7o cont\u00ednuo. Continuaremos pesquisando e tomando medidas nesta \u00e1rea para melhorar continuamente o SeamlessM4T e reduzir quaisquer casos de toxicidade que vemos no modelo. Fornecendo acesso \u00e0 nossa tecnologia Com resultados de \u00faltima gera\u00e7\u00e3o, acreditamos que o SeamlessM4T \u00e9 um avan\u00e7o importante na busca da comunidade de IA para criar sistemas multitarefa universais. Mantendo nossa abordagem \u00e0 ci\u00eancia aberta, estamos animados para compartilhar publicamente nosso modelo e permitir que pesquisadores e desenvolvedores explorem essa tecnologia. Este \u00e9 apenas o passo mais recente em nosso esfor\u00e7o cont\u00ednuo para criar uma tecnologia baseada em IA que ajude a conectar pessoas em v\u00e1rios idiomas. No futuro, queremos explorar como este modelo fundamental pode permitir novas capacidades de comunica\u00e7\u00e3o, nos aproximando de um mundo onde todos podem ser compreendidos. Acesse o artigo de pesquisa\u00a0 Fa\u00e7a download do c\u00f3digo, modelo e dados Teste a demonstra\u00e7\u00e3o Experimente a demonstra\u00e7\u00e3o do Face Hugging\" \/>\n<meta property=\"og:url\" content=\"https:\/\/about.fb.com\/br\/news\/2023\/08\/aproximando-o-mundo-com-um-modelo-multimodal-fundamental-para-traducao-de-fala\/\" \/>\n<meta property=\"og:site_name\" content=\"Sobre a Meta\" \/>\n<meta property=\"article:published_time\" content=\"2023-08-22T12:00:17+00:00\" \/>\n<meta property=\"article:modified_time\" content=\"2023-09-05T19:55:34+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/09\/foto-1.jpg?w=960\" \/>\n<meta name=\"author\" content=\"vivianlusor\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:label1\" content=\"Written by\" \/>\n\t<meta name=\"twitter:data1\" content=\"Meta\" \/>\n\t<meta name=\"twitter:label2\" content=\"Est. reading time\" \/>\n\t<meta name=\"twitter:data2\" content=\"10 minutos\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\/\/schema.org\",\"@graph\":[{\"@type\":\"Article\",\"@id\":\"https:\/\/about.fb.com\/br\/news\/2023\/08\/aproximando-o-mundo-com-um-modelo-multimodal-fundamental-para-traducao-de-fala\/#article\",\"isPartOf\":{\"@id\":\"https:\/\/about.fb.com\/br\/news\/2023\/08\/aproximando-o-mundo-com-um-modelo-multimodal-fundamental-para-traducao-de-fala\/\"},\"author\":\"Facebook company\",\"headline\":\"Aproximando o mundo com um modelo multimodal fundamental para tradu\u00e7\u00e3o de fala\",\"datePublished\":\"2023-08-22T12:00:17+00:00\",\"dateModified\":\"2023-09-05T19:55:34+00:00\",\"mainEntityOfPage\":{\"@id\":\"https:\/\/about.fb.com\/br\/news\/2023\/08\/aproximando-o-mundo-com-um-modelo-multimodal-fundamental-para-traducao-de-fala\/\"},\"wordCount\":2260,\"publisher\":{\"@id\":\"https:\/\/about.fb.com\/br\/#organization\"},\"image\":{\"@id\":\"https:\/\/about.fb.com\/br\/news\/2023\/08\/aproximando-o-mundo-com-um-modelo-multimodal-fundamental-para-traducao-de-fala\/#primaryimage\"},\"thumbnailUrl\":\"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/09\/foto-1.jpg?w=960\",\"articleSection\":[\"Meta\",\"Tecnologia e Inova\u00e7\u00e3o\"],\"inLanguage\":\"pt-BR\"},{\"@type\":\"WebPage\",\"@id\":\"https:\/\/about.fb.com\/br\/news\/2023\/08\/aproximando-o-mundo-com-um-modelo-multimodal-fundamental-para-traducao-de-fala\/\",\"url\":\"https:\/\/about.fb.com\/br\/news\/2023\/08\/aproximando-o-mundo-com-um-modelo-multimodal-fundamental-para-traducao-de-fala\/\",\"name\":\"Aproximando o mundo com um modelo multimodal fundamental para tradu\u00e7\u00e3o de fala | Sobre a Meta\",\"isPartOf\":{\"@id\":\"https:\/\/about.fb.com\/br\/#website\"},\"primaryImageOfPage\":{\"@id\":\"https:\/\/about.fb.com\/br\/news\/2023\/08\/aproximando-o-mundo-com-um-modelo-multimodal-fundamental-para-traducao-de-fala\/#primaryimage\"},\"image\":{\"@id\":\"https:\/\/about.fb.com\/br\/news\/2023\/08\/aproximando-o-mundo-com-um-modelo-multimodal-fundamental-para-traducao-de-fala\/#primaryimage\"},\"thumbnailUrl\":\"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/09\/foto-1.jpg?w=960\",\"datePublished\":\"2023-08-22T12:00:17+00:00\",\"dateModified\":\"2023-09-05T19:55:34+00:00\",\"breadcrumb\":{\"@id\":\"https:\/\/about.fb.com\/br\/news\/2023\/08\/aproximando-o-mundo-com-um-modelo-multimodal-fundamental-para-traducao-de-fala\/#breadcrumb\"},\"inLanguage\":\"pt-BR\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\/\/about.fb.com\/br\/news\/2023\/08\/aproximando-o-mundo-com-um-modelo-multimodal-fundamental-para-traducao-de-fala\/\"]}],\"author\":\"Sobre a Meta\"},{\"@type\":\"ImageObject\",\"inLanguage\":\"pt-BR\",\"@id\":\"https:\/\/about.fb.com\/br\/news\/2023\/08\/aproximando-o-mundo-com-um-modelo-multimodal-fundamental-para-traducao-de-fala\/#primaryimage\",\"url\":\"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/09\/foto-1.jpg?w=960\",\"contentUrl\":\"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/09\/foto-1.jpg?w=960\"},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\/\/about.fb.com\/br\/news\/2023\/08\/aproximando-o-mundo-com-um-modelo-multimodal-fundamental-para-traducao-de-fala\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Home\",\"item\":\"https:\/\/about.fb.com\/br\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Aproximando o mundo com um modelo multimodal fundamental para tradu\u00e7\u00e3o de fala\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\/\/about.fb.com\/br\/#website\",\"url\":\"https:\/\/about.fb.com\/news\/\",\"name\":\"Sobre a Meta\",\"description\":\"\",\"publisher\":{\"@id\":\"https:\/\/about.fb.com\/br\/#organization\"},\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\/\/about.fb.com\/br\/?s={search_term_string}\"},\"query-input\":{\"@type\":\"PropertyValueSpecification\",\"valueRequired\":true,\"valueName\":\"search_term_string\"}}],\"inLanguage\":\"pt-BR\",\"alternateName\":[\"Meta Newsroom\",\"Meta\"]},{\"@type\":\"Organization\",\"@id\":\"https:\/\/about.fb.com\/br\/#organization\",\"name\":\"Meta\",\"url\":\"https:\/\/about.fb.com\/br\/\",\"logo\":{\"@type\":\"ImageObject\",\"inLanguage\":\"pt-BR\",\"@id\":\"https:\/\/about.fb.com\/br\/#\/schema\/logo\/image\/\",\"url\":\"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2021\/10\/meta-social-16x9-1.jpg?fit=8000%2C4500\",\"contentUrl\":\"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2021\/10\/meta-social-16x9-1.jpg?fit=8000%2C4500\",\"width\":8000,\"height\":4500,\"caption\":\"Meta\"},\"image\":{\"@id\":\"https:\/\/about.fb.com\/br\/#\/schema\/logo\/image\/\"}}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"Aproximando o mundo com um modelo multimodal fundamental para tradu\u00e7\u00e3o de fala | Sobre a Meta","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/about.fb.com\/br\/news\/2023\/08\/aproximando-o-mundo-com-um-modelo-multimodal-fundamental-para-traducao-de-fala\/","og_locale":"pt_BR","og_type":"article","og_title":"Aproximando o mundo com um modelo multimodal fundamental para tradu\u00e7\u00e3o de fala | Sobre a Meta","og_description":"O mundo em que vivemos nunca esteve t\u00e3o interligado \u2013 a prolifera\u00e7\u00e3o global da internet, dispositivos m\u00f3veis, m\u00eddias sociais e plataformas de comunica\u00e7\u00e3o d\u00e3o \u00e0s pessoas acesso a mais conte\u00fado multilingu\u00edstico do que nunca. Nesse contexto, ter uma maneira de se\u00a0 comunicar e compreender informa\u00e7\u00f5es em qualquer idioma torna-se cada vez mais importante. Embora tal capacidade seja sonhada h\u00e1 muito tempo na fic\u00e7\u00e3o cient\u00edfica, a IA est\u00e1 prestes a transformar isso em realidade t\u00e9cnica. Hoje, apresentamos o SeamlessM4T, um modelo multil\u00edngue e multitarefa que traduz e transcreve perfeitamente fala e texto. O SeamlessM4T oferece: Reconhecimento de fala em quase 100 idiomas Tradu\u00e7\u00e3o de voz para texto para quase 100 idiomas, tanto de entrada e sa\u00edda Tradu\u00e7\u00e3o de fala para fala, para quase 100 idiomas de entrada e 35 idiomas de sa\u00edda (+ o ingl\u00eas) Tradu\u00e7\u00e3o de texto para texto para quase 100 idiomas Tradu\u00e7\u00e3o de texto para fala, com suporte para quase 100 idiomas de entrada e 35 idiomas de sa\u00edda (+ o ingl\u00eas) Mantendo nossa abordagem de ci\u00eancia aberta, estamos lan\u00e7ando publicamente o SeamlessM4T no CC BY-NC 4.0 permitindo que pesquisadores e desenvolvedores ampliem esse trabalho. Tamb\u00e9m estamos lan\u00e7ando metadados do SeamlessAlign, o maior conjunto de dados de tradu\u00e7\u00e3o multimodal aberto at\u00e9 o momento, totalizando 270 mil horas de fala trabalhadas e alinhamentos de texto. Tornamos mais f\u00e1cil para a comunidade realizar a explora\u00e7\u00e3o em seus pr\u00f3prios conjuntos de dados monol\u00edngues com o SONAR, um conjunto completo de codificadores de frases de fala e texto, e &#8220;stopes&#8221;, nossa biblioteca para processamento de dados multimodais e minera\u00e7\u00e3o de dados paralela. Todos os avan\u00e7os da pesquisa s\u00e3o apoiados pelo fairseq2, nossa biblioteca de modelos sequenciais de \u00faltima gera\u00e7\u00e3o. \u00c9 desafiador construir um tradutor de linguagem universal, como o fict\u00edcio Babel Fish em O Guia do Mochileiro das Gal\u00e1xias, porque os sistemas existentes de fala para fala, e fala para texto cobrem apenas uma pequena parcela dos idiomas do mundo. O SeamlessM4T representa um avan\u00e7o significativo no campo da convers\u00e3o de fala para fala, e de fala para texto, pois abrange os desafios da cobertura lingu\u00edstica limitada e da depend\u00eancia de sistemas separados, que dividem a tarefa de tradu\u00e7\u00e3o de fala para fala em v\u00e1rios subsistemas. Esses sistemas aproveitam essa grande quantidade de dados e geralmente funcionam bem em uma modalidade. Nosso desafio era criar um modelo multil\u00edngue unificado que pudesse fazer tudo. N\u00f3s acreditamos que o trabalho anunciado hoje \u00e9 um passo significativo nesta jornada. Nosso modelo \u00e9 \u00fanico e oferece tradu\u00e7\u00f5es sob demanda, permitindo que pessoas que falam diferentes idiomas se comuniquem de maneira mais eficaz. Melhoramos significativamente a performance dos idiomas com poucos e m\u00e9dios recursos que oferecemos suporte. Estas s\u00e3o l\u00ednguas que t\u00eam pegadas lingu\u00edsticas digitais menores. Tamb\u00e9m mantemos um forte desempenho em idiomas com muitos recursos, como o\u00a0 ingl\u00eas, o espanhol e o alem\u00e3o. O SeamlessM4T reconhece implicitamente os idiomas de origem, sem a necessidade de um modelo de identifica\u00e7\u00e3o de idioma separado. Este trabalho baseia-se nos avan\u00e7os que a Meta e outras pessoas fizeram ao longo dos anos na busca por criar um tradutor universal. No ano passado, lan\u00e7amos No Language Left Behind (NLLB), um modelo de tradu\u00e7\u00e3o autom\u00e1tica de texto para texto que suporta 200 idiomas e desde ent\u00e3o foi integrado \u00e0 Wikip\u00e9dia como um de seus fornecedores de tradu\u00e7\u00e3o. Alguns meses depois, compartilhamos uma demonstra\u00e7\u00e3o do Universal Speech Translator, nosso primeiro sistema de tradu\u00e7\u00e3o direta de fala para fala para Hokkien, um idioma sem um sistema de escrita amplamente utilizado. Com isso, desenvolvemos o SpeechMatrix, primeiro conjunto de dados de tradu\u00e7\u00e3o de fala para fala multil\u00edngue em grande escala, derivado do SpeechLASER, um avan\u00e7o no aprendizado supervisionado de representa\u00e7\u00e3o. No in\u00edcio deste ano, tamb\u00e9m compartilhamos o Massively Multilingual Speech, que fornece reconhecimento de fala, identifica\u00e7\u00e3o de idioma e tecnologia de s\u00edntese de fala em mais de 1.100 idiomas. O SeamlessM4T baseia-se nas descobertas de todos esses projetos, permitindo uma experi\u00eancia de tradu\u00e7\u00e3o multil\u00edngue e multimodal resultante de um modelo \u00fanico, constru\u00eddo em uma ampla variedade de fontes de dados faladas e com resultados de \u00faltima gera\u00e7\u00e3o. Nossa abordagem Construir um modelo unificado requer um kit de ferramentas de modelagem de sequ\u00eancia que seja leve e facilmente combin\u00e1vel com outras bibliotecas modernas do ecossistema PyTorch. N\u00f3s redesenhamos o Fairseq, nosso kit de ferramentas original de modelagem de sequ\u00eancia e com APIs de modelagem e carregador de dados mais eficientes, o fairseq2 ajuda a potencializar a modelagem por tr\u00e1s do SeamlessM4T. Para o modelo, utilizamos a arquitetura do modelo multitarefa UnitY, que \u00e9 capaz de gerar diretamente texto e fala traduzidos. Esta nova arquitetura tamb\u00e9m suporta reconhecimento autom\u00e1tico de fala, convers\u00e3o de texto em texto, convers\u00e3o de texto em fala, convers\u00e3o de fala em texto e tradu\u00e7\u00f5es de fala em fala que j\u00e1 fazem parte do modelo b\u00e1sico UnitY. O modelo UnitY multitarefa consiste em tr\u00eas componentes sequenciais principais. Os codificadores de texto e fala t\u00eam a tarefa de reconhecer entradas de fala em quase 100 idiomas. O decodificador de texto ent\u00e3o transfere esse significado para quase 100 idiomas de texto, seguido por um modelo de texto para decodificar em unidades ac\u00fasticas discretas para 36 idiomas de fala. Cada um desses componentes no UnitY multitarefa \u00e9 pr\u00e9-treinado por um modelo de componente para uma subtarefa de texto para texto, fala para texto e fala para fala. As unidades discretas decodificadas s\u00e3o ent\u00e3o convertidas em fala usando um vocoder de unidade HiFi-GAN multil\u00edngue. Como o codificador processa a fala Nosso codificador de fala auto supervisionado, w2v-BERT 2.0 &#8211; que \u00e9 uma vers\u00e3o aprimorada do w2v-BERT, melhora sua estabilidade de treinamento e qualidade de representa\u00e7\u00e3o, aprende a encontrar estrutura e significado na fala analisando milh\u00f5es de horas de fala multil\u00edngue. O codificador pega o sinal de \u00e1udio, divide-o em partes menores e constr\u00f3i uma representa\u00e7\u00e3o interna do que est\u00e1 sendo dito. Como as palavras faladas s\u00e3o compostas por muitos desses sons e caracteres, usamos um adaptador de comprimento para mape\u00e1-las em palavras reais. Como o codificador processa o texto Da mesma forma, temos um codificador de texto baseado no modelo NLLB, que foi treinado para compreender textos em quase 100 idiomas e produzir representa\u00e7\u00f5es \u00fateis para tradu\u00e7\u00e3o. Produzindo texto Nosso decodificador de texto \u00e9 treinado para receber representa\u00e7\u00f5es de fala codificadas ou representa\u00e7\u00f5es de texto. Isso pode ser aplicado a tarefas no mesmo idioma, como reconhecimento de fala e tarefas de uma tradu\u00e7\u00e3o multil\u00edngue. Por exemplo, algu\u00e9m pode dizer a palavra \u201cbonjour\u201d em franc\u00eas e esperar que o texto traduzido em sua\u00edli seja \u201chabari\u201d. Com o treinamento multitarefa, aproveitamos os pontos fortes de um forte modelo de tradu\u00e7\u00e3o de texto para texto (NLLB) para orientar nosso modelo de tradu\u00e7\u00e3o de fala para texto por meio da destila\u00e7\u00e3o de conhecimento em n\u00edvel de token. Produzindo falas Usamos unidades ac\u00fasticas para representar a fala, o componente texto para unidade (T2U) no modelo UnitY gera essas unidades de fala discretas com base na sa\u00edda de texto e \u00e9 pr\u00e9-treinado em dados ASR antes do ajuste fino da UnitY. Um vocoder de unidade HiFi-GAN multil\u00edngue \u00e9 ent\u00e3o usado para converter essas unidades discretas em formas de onda de \u00e1udio. Dimensionamento de dados Os modelos baseados em dados como o SeamlessM4T geralmente se beneficiam de grandes quantidades de alta qualidade, ou seja, dados de fala para texto e de fala para fala. Depender apenas da fala humana transcrita e traduzida n\u00e3o \u00e9 suficiente para enfrentar a desafiadora tarefa de tradu\u00e7\u00e3o de fala para 100 idiomas. Ent\u00e3o, nos baseamos no nosso trabalho pioneiro de minera\u00e7\u00e3o de texto para texto, usando uma medida de similaridade em um espa\u00e7o de incorpora\u00e7\u00e3o conjunta e no trabalho inicial na minera\u00e7\u00e3o de fala para criar recursos adicionais e treinar o modelo SeamlessM4T. Primeiramente, constru\u00edmos um novo espa\u00e7o de incorpora\u00e7\u00e3o de texto massivamente multil\u00edngue e modal para 200 idiomas, denominado SONAR (Sentence-level mOdality- and laNganguage-Agnostic Representations), que supera substancialmente as abordagens existentes como LASER3 ou LaBSE na pesquisa de similaridade multil\u00edngue. Em seguida, aplicamos uma abordagem professor-aluno para estender esse espa\u00e7o de incorpora\u00e7\u00e3o \u00e0 modalidade de fala, atualmente abrangemos 36 idiomas. A minera\u00e7\u00e3o \u00e9 realizada em dados de reposit\u00f3rios p\u00fablicos de dados da web (dezenas de bilh\u00f5es de frases) e de fala (4 milh\u00f5es de horas). No total, conseguimos alinhar automaticamente mais de 443 mil horas de fala com textos e criar cerca de 29 mil horas de alinhamentos de fala para fala. Este conjunto, denominado SeamlessAlign, \u00e9 o maior conjunto aberto de fala\/fala e fala\/texto paralelo em termos de volume total e cobertura lingu\u00edstica at\u00e9 o momento.\u00a0 Resultados Para essas tarefas e idiomas, o SeamlessM4T alcan\u00e7a resultados de \u00faltima gera\u00e7\u00e3o para quase 100 idiomas e tamb\u00e9m oferece suporte multitarefa em reconhecimento autom\u00e1tico de fala, fala para texto, fala para fala, texto para fala e texto para tradu\u00e7\u00e3o de texto \u2013 tudo em um \u00fanico modelo. Tamb\u00e9m melhoramos significativamente o desempenho para idiomas com recursos baixos e m\u00e9dios suportados e mantemos um forte desempenho em idiomas com recursos altos. Para avaliar o sistema com mais precis\u00e3o, sem depender de m\u00e9tricas baseadas em texto, estendemos nossa m\u00e9trica sem texto para o BLASER 2.0, que agora permite avalia\u00e7\u00e3o em unidades de fala e texto com precis\u00e3o semelhante em compara\u00e7\u00e3o com seu antecessor. Quando testado, em rela\u00e7\u00e3o a robustez, nosso sistema tem melhor desempenho contra ru\u00eddos de fundo e varia\u00e7\u00f5es de locutor em tarefas de fala para texto (melhorias m\u00e9dias de 37% e 48%, respectivamente) em compara\u00e7\u00e3o com o modelo atual de \u00faltima gera\u00e7\u00e3o. O SeamlessM4T tamb\u00e9m supera concorrentes de \u00faltima gera\u00e7\u00e3o anteriores. Como constru\u00edmos o SeamlessM4T de forma respons\u00e1vel \u00c9 importante que os sistemas de tradu\u00e7\u00e3o sejam precisos, mas, assim como acontece com todos os sistemas de IA, existem riscos inerentes de que o modelo possa transcrever incorretamente o que uma pessoa quer dizer ou gerar resultados t\u00f3xicos ou imprecisos. Na Meta, nossa pesquisa e desenvolvimento de IA segue uma estrutura respons\u00e1vel que \u00e9 guiada pelos nossos cinco pilares de IA Respons\u00e1vel. Em linha com o nosso compromisso com a IA respons\u00e1vel, conduzimos pesquisas sobre toxicidade e preconceito para nos ajudar a compreender quais \u00e1reas do modelo podem ser sens\u00edveis. Para toxicidade, expandimos nosso classificador de toxicidade altamente multil\u00edngue \u00e0 fala, assim conseguimos identificar palavras t\u00f3xicas a partir de entradas e sa\u00eddas de fala. Tamb\u00e9m filtramos a toxicidade nos dados de treinamento, pois se a entrada ou sa\u00edda tivesse diferentes quantidades de toxicidade, conseguimos remover essa sequ\u00eancia de treinamento. A demonstra\u00e7\u00e3o que anunciamos hoje mostra os recursos do SeamlessM4T e \u00e9 uma parte importante da pesquisa. Detectamos toxicidade tanto na entrada quanto na sa\u00edda da demonstra\u00e7\u00e3o. Caso a toxicidade for detectada apenas na sa\u00edda, significa que ela foi adicionada. Neste caso, inclu\u00edmos um aviso e n\u00e3o mostramos a sa\u00edda. Ao comparar nossos modelos de \u00faltima gera\u00e7\u00e3o, reduzimos significativamente a toxicidade adicional na tradu\u00e7\u00e3o de fala para fala e de fala para texto. O vi\u00e9s de g\u00eanero, em que os resultados favorecem injustamente um deles e por vezes recorrem a estere\u00f3tipos, \u00e9 outra \u00e1rea que estamos come\u00e7ando a avaliar nas l\u00ednguas em grande escala. No que diz respeito ao vi\u00e9s, investimos esfor\u00e7os para avaliar o vi\u00e9s de g\u00eanero nas l\u00ednguas em grande escala. Agora somos capazes de quantificar o vi\u00e9s de g\u00eanero em dezenas de dire\u00e7\u00f5es de tradu\u00e7\u00e3o de fala, por meio do nosso conjunto de dados Multilingual HolisticBias, previamente projetado para a fala. Nosso trabalho em torno da seguran\u00e7a e prote\u00e7\u00e3o \u00e9 um esfor\u00e7o cont\u00ednuo. Continuaremos pesquisando e tomando medidas nesta \u00e1rea para melhorar continuamente o SeamlessM4T e reduzir quaisquer casos de toxicidade que vemos no modelo. Fornecendo acesso \u00e0 nossa tecnologia Com resultados de \u00faltima gera\u00e7\u00e3o, acreditamos que o SeamlessM4T \u00e9 um avan\u00e7o importante na busca da comunidade de IA para criar sistemas multitarefa universais. Mantendo nossa abordagem \u00e0 ci\u00eancia aberta, estamos animados para compartilhar publicamente nosso modelo e permitir que pesquisadores e desenvolvedores explorem essa tecnologia. Este \u00e9 apenas o passo mais recente em nosso esfor\u00e7o cont\u00ednuo para criar uma tecnologia baseada em IA que ajude a conectar pessoas em v\u00e1rios idiomas. No futuro, queremos explorar como este modelo fundamental pode permitir novas capacidades de comunica\u00e7\u00e3o, nos aproximando de um mundo onde todos podem ser compreendidos. Acesse o artigo de pesquisa\u00a0 Fa\u00e7a download do c\u00f3digo, modelo e dados Teste a demonstra\u00e7\u00e3o Experimente a demonstra\u00e7\u00e3o do Face Hugging","og_url":"https:\/\/about.fb.com\/br\/news\/2023\/08\/aproximando-o-mundo-com-um-modelo-multimodal-fundamental-para-traducao-de-fala\/","og_site_name":"Sobre a Meta","article_published_time":"2023-08-22T12:00:17+00:00","article_modified_time":"2023-09-05T19:55:34+00:00","og_image":[{"url":"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/09\/foto-1.jpg?w=960","type":"","width":"","height":""}],"author":"vivianlusor","twitter_card":"summary_large_image","twitter_misc":{"Written by":"Meta","Est. reading time":"10 minutos"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"Article","@id":"https:\/\/about.fb.com\/br\/news\/2023\/08\/aproximando-o-mundo-com-um-modelo-multimodal-fundamental-para-traducao-de-fala\/#article","isPartOf":{"@id":"https:\/\/about.fb.com\/br\/news\/2023\/08\/aproximando-o-mundo-com-um-modelo-multimodal-fundamental-para-traducao-de-fala\/"},"author":"Facebook company","headline":"Aproximando o mundo com um modelo multimodal fundamental para tradu\u00e7\u00e3o de fala","datePublished":"2023-08-22T12:00:17+00:00","dateModified":"2023-09-05T19:55:34+00:00","mainEntityOfPage":{"@id":"https:\/\/about.fb.com\/br\/news\/2023\/08\/aproximando-o-mundo-com-um-modelo-multimodal-fundamental-para-traducao-de-fala\/"},"wordCount":2260,"publisher":{"@id":"https:\/\/about.fb.com\/br\/#organization"},"image":{"@id":"https:\/\/about.fb.com\/br\/news\/2023\/08\/aproximando-o-mundo-com-um-modelo-multimodal-fundamental-para-traducao-de-fala\/#primaryimage"},"thumbnailUrl":"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/09\/foto-1.jpg?w=960","articleSection":["Meta","Tecnologia e Inova\u00e7\u00e3o"],"inLanguage":"pt-BR"},{"@type":"WebPage","@id":"https:\/\/about.fb.com\/br\/news\/2023\/08\/aproximando-o-mundo-com-um-modelo-multimodal-fundamental-para-traducao-de-fala\/","url":"https:\/\/about.fb.com\/br\/news\/2023\/08\/aproximando-o-mundo-com-um-modelo-multimodal-fundamental-para-traducao-de-fala\/","name":"Aproximando o mundo com um modelo multimodal fundamental para tradu\u00e7\u00e3o de fala | Sobre a Meta","isPartOf":{"@id":"https:\/\/about.fb.com\/br\/#website"},"primaryImageOfPage":{"@id":"https:\/\/about.fb.com\/br\/news\/2023\/08\/aproximando-o-mundo-com-um-modelo-multimodal-fundamental-para-traducao-de-fala\/#primaryimage"},"image":{"@id":"https:\/\/about.fb.com\/br\/news\/2023\/08\/aproximando-o-mundo-com-um-modelo-multimodal-fundamental-para-traducao-de-fala\/#primaryimage"},"thumbnailUrl":"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/09\/foto-1.jpg?w=960","datePublished":"2023-08-22T12:00:17+00:00","dateModified":"2023-09-05T19:55:34+00:00","breadcrumb":{"@id":"https:\/\/about.fb.com\/br\/news\/2023\/08\/aproximando-o-mundo-com-um-modelo-multimodal-fundamental-para-traducao-de-fala\/#breadcrumb"},"inLanguage":"pt-BR","potentialAction":[{"@type":"ReadAction","target":["https:\/\/about.fb.com\/br\/news\/2023\/08\/aproximando-o-mundo-com-um-modelo-multimodal-fundamental-para-traducao-de-fala\/"]}],"author":"Sobre a Meta"},{"@type":"ImageObject","inLanguage":"pt-BR","@id":"https:\/\/about.fb.com\/br\/news\/2023\/08\/aproximando-o-mundo-com-um-modelo-multimodal-fundamental-para-traducao-de-fala\/#primaryimage","url":"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/09\/foto-1.jpg?w=960","contentUrl":"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/09\/foto-1.jpg?w=960"},{"@type":"BreadcrumbList","@id":"https:\/\/about.fb.com\/br\/news\/2023\/08\/aproximando-o-mundo-com-um-modelo-multimodal-fundamental-para-traducao-de-fala\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Home","item":"https:\/\/about.fb.com\/br\/"},{"@type":"ListItem","position":2,"name":"Aproximando o mundo com um modelo multimodal fundamental para tradu\u00e7\u00e3o de fala"}]},{"@type":"WebSite","@id":"https:\/\/about.fb.com\/br\/#website","url":"https:\/\/about.fb.com\/news\/","name":"Sobre a Meta","description":"","publisher":{"@id":"https:\/\/about.fb.com\/br\/#organization"},"potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/about.fb.com\/br\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"pt-BR","alternateName":["Meta Newsroom","Meta"]},{"@type":"Organization","@id":"https:\/\/about.fb.com\/br\/#organization","name":"Meta","url":"https:\/\/about.fb.com\/br\/","logo":{"@type":"ImageObject","inLanguage":"pt-BR","@id":"https:\/\/about.fb.com\/br\/#\/schema\/logo\/image\/","url":"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2021\/10\/meta-social-16x9-1.jpg?fit=8000%2C4500","contentUrl":"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2021\/10\/meta-social-16x9-1.jpg?fit=8000%2C4500","width":8000,"height":4500,"caption":"Meta"},"image":{"@id":"https:\/\/about.fb.com\/br\/#\/schema\/logo\/image\/"}}]}},"jetpack_featured_media_url":"","jetpack-related-posts":[{"id":26157,"url":"https:\/\/about.fb.com\/br\/news\/2025\/02\/avancando-na-inteligencia-de-maquina-por-meio-de-pesquisas-centradas-no-ser-humano\/","url_meta":{"origin":25105,"position":0},"title":"Avan\u00e7ando na intelig\u00eancia de m\u00e1quina por meio de pesquisas centradas no ser humano","author":"Meta","date":"07\/02\/2025","format":false,"excerpt":"A equipe do Fundamental AI Research (FAIR) da Meta est\u00e1 focada em alcan\u00e7ar intelig\u00eancia avan\u00e7ada de m\u00e1quina (AMI na sigla em ingl\u00eas) e us\u00e1-la para impulsionar produtos e inova\u00e7\u00e3o para o benef\u00edcio de todos. Hoje, estamos animados em compartilhar algumas de nossas pesquisas e modelos mais recentes que apoiam nossa\u2026","rel":"","context":"In &quot;Meta&quot;","block_context":{"text":"Meta","link":"https:\/\/about.fb.com\/br\/news\/category\/temas-home\/meta\/"},"img":{"alt_text":"","src":"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2025\/02\/476277621_1657111108571585_1619174158963619715_n.jpg?fit=1920%2C1080&resize=350%2C200","width":350,"height":200,"srcset":"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2025\/02\/476277621_1657111108571585_1619174158963619715_n.jpg?fit=1920%2C1080&resize=350%2C200 1x, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2025\/02\/476277621_1657111108571585_1619174158963619715_n.jpg?fit=1920%2C1080&resize=525%2C300 1.5x, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2025\/02\/476277621_1657111108571585_1619174158963619715_n.jpg?fit=1920%2C1080&resize=700%2C400 2x, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2025\/02\/476277621_1657111108571585_1619174158963619715_n.jpg?fit=1920%2C1080&resize=1050%2C600 3x, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2025\/02\/476277621_1657111108571585_1619174158963619715_n.jpg?fit=1920%2C1080&resize=1400%2C800 4x"},"classes":[]},{"id":26149,"url":"https:\/\/about.fb.com\/br\/news\/2025\/02\/26149-usando-ia-para-decodificar-a-linguagem-do-cerebro-e-avancar-nossa-compreensao-da-comunicacao-humana\/","url_meta":{"origin":25105,"position":1},"title":"Usando IA para decodificar a linguagem do c\u00e9rebro e avan\u00e7ar nossa compreens\u00e3o da comunica\u00e7\u00e3o humana","author":"Meta","date":"07\/02\/2025","format":false,"excerpt":"Na \u00faltima d\u00e9cada, o laborat\u00f3rio Fundamental Artificial Intelligence Research da Meta, em Paris, tem estado na vanguarda do avan\u00e7o da pesquisa cient\u00edfica. Lideramos avan\u00e7os na medicina, ci\u00eancia clim\u00e1tica e conserva\u00e7\u00e3o, e mantivemos nosso compromisso com a ci\u00eancia aberta e reproduz\u00edvel. Ao olharmos para a pr\u00f3xima d\u00e9cada, nosso foco \u00e9 alcan\u00e7ar\u2026","rel":"","context":"In &quot;Meta&quot;","block_context":{"text":"Meta","link":"https:\/\/about.fb.com\/br\/news\/category\/temas-home\/meta\/"},"img":{"alt_text":"","src":"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2025\/02\/475953576_2885433131755414_7907212147273826314_n.jpg?fit=1920%2C1080&resize=350%2C200","width":350,"height":200,"srcset":"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2025\/02\/475953576_2885433131755414_7907212147273826314_n.jpg?fit=1920%2C1080&resize=350%2C200 1x, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2025\/02\/475953576_2885433131755414_7907212147273826314_n.jpg?fit=1920%2C1080&resize=525%2C300 1.5x, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2025\/02\/475953576_2885433131755414_7907212147273826314_n.jpg?fit=1920%2C1080&resize=700%2C400 2x, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2025\/02\/475953576_2885433131755414_7907212147273826314_n.jpg?fit=1920%2C1080&resize=1050%2C600 3x, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2025\/02\/475953576_2885433131755414_7907212147273826314_n.jpg?fit=1920%2C1080&resize=1400%2C800 4x"},"classes":[]},{"id":26166,"url":"https:\/\/about.fb.com\/br\/news\/2025\/02\/anunciando-o-programa-de-parceria-em-tecnologia-de-linguagem\/","url_meta":{"origin":25105,"position":2},"title":"Anunciando o Programa de Parceria em Tecnologia de Linguagem","author":"Meta","date":"07\/02\/2025","format":false,"excerpt":"A equipe do Fundamental AI Research (FAIR) da Meta est\u00e1 focada em alcan\u00e7ar a intelig\u00eancia avan\u00e7ada de m\u00e1quina (AMI, na sigla em ingl\u00eas) \u2014 uma IA que pode usar o racioc\u00ednio humano para realizar tarefas cognitivamente exigentes, como a tradu\u00e7\u00e3o \u2014 e us\u00e1-la para impulsionar produtos e inova\u00e7\u00f5es que beneficiem\u2026","rel":"","context":"In &quot;Meta&quot;","block_context":{"text":"Meta","link":"https:\/\/about.fb.com\/br\/news\/category\/temas-home\/meta\/"},"img":{"alt_text":"","src":"","width":0,"height":0},"classes":[]},{"id":26881,"url":"https:\/\/about.fb.com\/br\/news\/2025\/12\/nosso-novo-modelo-sam-audio-revoluciona-a-edicao-de-audio\/","url_meta":{"origin":25105,"position":3},"title":"Nosso Novo Modelo SAM Audio Revoluciona a Edi\u00e7\u00e3o de \u00c1udio","author":"Meta","date":"16\/12\/2025","format":false,"excerpt":"Destaques: O SAM Audio \u00e9 o primeiro modelo de IA unificado capaz de segmentar sons de misturas de \u00e1udio complexas usando prompts de texto, visuais e de intervalo de tempo. Essa tecnologia tem potencial para transformar a edi\u00e7\u00e3o de \u00e1udio e v\u00eddeo, impulsionando inova\u00e7\u00e3o em \u00e1reas como m\u00fasica, podcast, televis\u00e3o,\u2026","rel":"","context":"In &quot;Feed - Temas&quot;","block_context":{"text":"Feed - Temas","link":"https:\/\/about.fb.com\/br\/news\/category\/temas-home\/"},"img":{"alt_text":"","src":"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2025\/07\/Logo-Meta-1.jpg?fit=633%2C356&resize=350%2C200","width":350,"height":200,"srcset":"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2025\/07\/Logo-Meta-1.jpg?fit=633%2C356&resize=350%2C200 1x, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2025\/07\/Logo-Meta-1.jpg?fit=633%2C356&resize=525%2C300 1.5x"},"classes":[]},{"id":26179,"url":"https:\/\/about.fb.com\/br\/news\/2025\/02\/ampliando-o-potencial-global-da-ia-com-infraestrutura-submarina-de-futura-geracao\/","url_meta":{"origin":25105,"position":4},"title":"Ampliando o potencial global da IA com infraestrutura submarina de futura gera\u00e7\u00e3o","author":"Meta","date":"14\/02\/2025","format":false,"excerpt":"Hoje, estamos anunciando nosso projeto de cabo submarino mais ambicioso at\u00e9 o momento: o Waterworth. Uma vez conclu\u00eddo, ele alcan\u00e7ar\u00e1 os cinco principais continentes e se estender\u00e1 por mais de 50 mil quil\u00f4metros (mais do que a circunfer\u00eancia da Terra), tornando-se o projeto de cabo submarino mais longo do mundo,\u2026","rel":"","context":"In &quot;Homepage - Hidden&quot;","block_context":{"text":"Homepage - Hidden","link":"https:\/\/about.fb.com\/br\/news\/category\/homepage-hidden\/"},"img":{"alt_text":"","src":"","width":0,"height":0},"classes":[]},{"id":26823,"url":"https:\/\/about.fb.com\/br\/news\/2025\/11\/nossos-novos-modelos-sam-facilitam-a-deteccao-de-objetos-e-a-criacao-de-reconstrucoes-3d\/","url_meta":{"origin":25105,"position":5},"title":"Nossos Novos Modelos SAM Facilitam a Detec\u00e7\u00e3o de Objetos e a Cria\u00e7\u00e3o de Reconstru\u00e7\u00f5es 3D","author":"Meta","date":"19\/11\/2025","format":false,"excerpt":"Hoje, estamos animados em anunciar o SAM 3 e o SAM 3D, as mais novas adi\u00e7\u00f5es \u00e0 nossa Segment Anything Collection. O SAM 3 permite a detec\u00e7\u00e3o e o rastreamento de objetos em imagens e v\u00eddeos usando prompts de texto, e o SAM 3D possibilita a reconstru\u00e7\u00e3o 3D de objetos\u2026","rel":"","context":"In &quot;Meta&quot;","block_context":{"text":"Meta","link":"https:\/\/about.fb.com\/br\/news\/category\/temas-home\/meta\/"},"img":{"alt_text":"","src":"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2025\/11\/SAM3_Header-1-1.gif?fit=960%2C540&resize=350%2C200","width":350,"height":200,"srcset":"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2025\/11\/SAM3_Header-1-1.gif?fit=960%2C540&resize=350%2C200 1x, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2025\/11\/SAM3_Header-1-1.gif?fit=960%2C540&resize=525%2C300 1.5x, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2025\/11\/SAM3_Header-1-1.gif?fit=960%2C540&resize=700%2C400 2x"},"classes":[]}],"jetpack_sharing_enabled":true,"amp_enabled":true,"_links":{"self":[{"href":"https:\/\/about.fb.com\/br\/wp-json\/wp\/v2\/posts\/25105","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/about.fb.com\/br\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/about.fb.com\/br\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/about.fb.com\/br\/wp-json\/wp\/v2\/users\/164097222"}],"replies":[{"embeddable":true,"href":"https:\/\/about.fb.com\/br\/wp-json\/wp\/v2\/comments?post=25105"}],"version-history":[{"count":2,"href":"https:\/\/about.fb.com\/br\/wp-json\/wp\/v2\/posts\/25105\/revisions"}],"predecessor-version":[{"id":25112,"href":"https:\/\/about.fb.com\/br\/wp-json\/wp\/v2\/posts\/25105\/revisions\/25112"}],"wp:attachment":[{"href":"https:\/\/about.fb.com\/br\/wp-json\/wp\/v2\/media?parent=25105"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/about.fb.com\/br\/wp-json\/wp\/v2\/categories?post=25105"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/about.fb.com\/br\/wp-json\/wp\/v2\/tags?post=25105"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}