{"id":24903,"date":"2023-05-22T13:30:18","date_gmt":"2023-05-22T16:30:18","guid":{"rendered":"https:\/\/about.fb.com\/br\/?p=24903"},"modified":"2023-05-23T10:23:30","modified_gmt":"2023-05-23T13:23:30","slug":"apresentamos-a-conversao-de-fala-para-texto-texto-para-fala-e-mais-novidades-para-mais-de-1-100-idiomas","status":"publish","type":"post","link":"https:\/\/about.fb.com\/br\/news\/2023\/05\/apresentamos-a-conversao-de-fala-para-texto-texto-para-fala-e-mais-novidades-para-mais-de-1-100-idiomas\/","title":{"rendered":"Apresentamos a convers\u00e3o de fala para texto, texto para fala e mais novidades para mais de 1.100 idiomas"},"content":{"rendered":"<p><em><span style=\"font-weight: 400\">Expandimos a tecnologia de convers\u00e3o de fala de cerca de 100 idiomas para mais de 1.000, criando um \u00fanico modelo de reconhecimento de fala multil\u00edngue que suporta mais de 1.100 idiomas (10 vezes mais do que antes), al\u00e9m de modelos de identifica\u00e7\u00e3o de idiomas capazes de identificar 4.000 idiomas (40 vezes mais do que antes), e outros modelos pr\u00e9-treinados que suportam 1.400 idiomas e modelos de convers\u00e3o de texto em fala para mais de 1.100 idiomas. Nosso objetivo \u00e9 facilitar o acesso das pessoas \u00e0s informa\u00e7\u00f5es e o uso de dispositivos no idioma de sua prefer\u00eancia.<\/span><\/em><\/p>\n<figure id=\"attachment_24904\" aria-describedby=\"caption-attachment-24904\" style=\"width: 960px\" class=\"wp-caption aligncenter\"><img data-recalc-dims=\"1\" loading=\"lazy\" decoding=\"async\" class=\"size-large wp-image-24904\" src=\"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/Imagem-modelo.png?w=960&#038;resize=960%2C540\" alt=\"\" width=\"960\" height=\"540\" srcset=\"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/Imagem-modelo.png?w=1003 1003w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/Imagem-modelo.png?w=600 600w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/Imagem-modelo.png?w=300 300w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/Imagem-modelo.png?w=768 768w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/Imagem-modelo.png?w=800 800w\" sizes=\"auto, (max-width: 960px) 100vw, 960px\" \/><figcaption id=\"caption-attachment-24904\" class=\"wp-caption-text\">Demonstra\u00e7\u00e3o de nossos modelos de convers\u00e3o de fala para texto para alguns dos mais de 1.100 idiomas suportados pelo nosso modelo.<\/figcaption><\/figure>\n<p><span style=\"font-weight: 400\">Equipar m\u00e1quinas com a capacidade de entender e produzir falas, pode tornar as informa\u00e7\u00f5es acess\u00edveis para muito mais pessoas, incluindo aquelas que dependem inteiramente da voz para acessarem informa\u00e7\u00f5es. No entanto, produzir modelos de aprendizado de m\u00e1quina de boa qualidade para essas tarefas, requer grandes quantidades de dados rotulados <\/span><span style=\"font-weight: 400\">\u2013<\/span><span style=\"font-weight: 400\"> neste caso, milhares de horas de \u00e1udio, juntamente com transcri\u00e7\u00f5es <\/span><span style=\"font-weight: 400\">\u2013 e <\/span><span style=\"font-weight: 400\">para a maioria dos idiomas, esses dados simplesmente n\u00e3o existem. Por exemplo, os modelos de reconhecimento de fala existentes cobrem apenas cerca de 100 idiomas, uma fra\u00e7\u00e3o dos mais de 7 mil idiomas conhecidos no planeta. Uma situa\u00e7\u00e3o ainda mais preocupante \u00e9 que quase metade desses idiomas correm o risco de <\/span><a href=\"https:\/\/www.nytimes.com\/2007\/09\/18\/world\/18cnd-language.html\"><span style=\"font-weight: 400\">desaparecer com o tempo.<\/span><\/a><\/p>\n<p><span style=\"font-weight: 400\">No projeto Massively Multilingual Speech (MMS), superamos alguns desses desafios ao combinar nossa t\u00e9cnica pioneira de aprendizado autossupervisionado, o <\/span><a href=\"https:\/\/ai.facebook.com\/blog\/wav2vec-20-learning-the-structure-of-speech-from-raw-audio\/\"><span style=\"font-weight: 400\">wav2vec 2.0<\/span><\/a><span style=\"font-weight: 400\">, com um novo conjunto de informa\u00e7\u00f5es que fornece dados rotulados para mais de 1.100 idiomas e dados n\u00e3o rotulados para quase quatro mil idiomas. Alguns desses idiomas, como o Tatuyo, possui apenas algumas centenas de falantes e, na maioria deles, n\u00e3o h\u00e1 tecnologia de fala existente. Nossos resultados mostram que os modelos de Massively Multilingual Speech apresentam um bom desempenho quando comparados aos modelos existentes, e cobrem 10 vezes mais idiomas. A Meta tem foco na multilinguagem em geral: para texto, o projeto <\/span><a href=\"https:\/\/about.fb.com\/br\/news\/2022\/02\/ensinando-a-inteligencia-artificial-a-traduzir-em-tempo-real-centenas-de-idiomas-falados-e-escritos\/\"><span style=\"font-weight: 400\">No Language Left Behind<\/span><\/a><span style=\"font-weight: 400\"> ampliou a tradu\u00e7\u00e3o multil\u00edngue para 200 idiomas, enquanto o projeto Massively Multilingual Speech ampliou a tecnologia de fala para muitos mais.<\/span><\/p>\n<p><span style=\"font-weight: 400\">Hoje, estamos compartilhando nossos modelos e c\u00f3digo para que outros na comunidade de pesquisa possam criar a partir do nosso trabalho. Por meio desse projeto, esperamos fazer uma pequena contribui\u00e7\u00e3o para preservar a incr\u00edvel diversidade lingu\u00edstica do mundo.<\/span><\/p>\n<figure id=\"attachment_24905\" aria-describedby=\"caption-attachment-24905\" style=\"width: 960px\" class=\"wp-caption aligncenter\"><img data-recalc-dims=\"1\" loading=\"lazy\" decoding=\"async\" class=\"size-large wp-image-24905\" src=\"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI23_MMS_Map_Visual1.png?w=960&#038;resize=960%2C585\" alt=\"\" width=\"960\" height=\"585\" srcset=\"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI23_MMS_Map_Visual1.png?w=3039 3039w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI23_MMS_Map_Visual1.png?w=600 600w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI23_MMS_Map_Visual1.png?w=300 300w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI23_MMS_Map_Visual1.png?w=768 768w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI23_MMS_Map_Visual1.png?w=1024 1024w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI23_MMS_Map_Visual1.png?w=1536 1536w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI23_MMS_Map_Visual1.png?w=2048 2048w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI23_MMS_Map_Visual1.png?w=1773 1773w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI23_MMS_Map_Visual1.png?w=800 800w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI23_MMS_Map_Visual1.png?w=1920 1920w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI23_MMS_Map_Visual1.png?w=2880 2880w\" sizes=\"auto, (max-width: 960px) 100vw, 960px\" \/><figcaption id=\"caption-attachment-24905\" class=\"wp-caption-text\">Ilustra\u00e7\u00e3o dos idiomas suportados pelo modelo de reconhecimento de fala Massively Multilingual Speech (MMS). O MMS oferece suporte para a convers\u00e3o de fala em texto e texto em fala para 1.107 idiomas e identifica\u00e7\u00e3o para mais de 4.000 idiomas.<\/figcaption><\/figure>\n<h2><b>Nossa abordagem<\/b><\/h2>\n<p><span style=\"font-weight: 400\">O primeiro desafio foi coletar dados de \u00e1udio de milhares de idiomas, j\u00e1 que os maiores conjuntos de dados de fala existentes cobrem no m\u00e1ximo 100 idiomas. Para superar esse desafio, recorremos a textos religiosos, como a B\u00edblia, que foram traduzidos em diferentes idiomas e cujas tradu\u00e7\u00f5es foram amplamente estudadas para pesquisas de tradu\u00e7\u00e3o de idiomas baseadas em texto. Essas tradu\u00e7\u00f5es, dispon\u00edveis publicamente, possuem grava\u00e7\u00f5es de \u00e1udio de pessoas lendo esses textos em diferentes idiomas. Como parte deste projeto, criamos um conjunto de dados de leituras do Novo Testamento em mais de 1.100 idiomas, que forneceu em m\u00e9dia 32 horas de dados por idioma.<\/span><\/p>\n<p><span style=\"font-weight: 400\">Ao considerar grava\u00e7\u00f5es n\u00e3o rotuladas de v\u00e1rias outras leituras religiosas crist\u00e3s, aumentamos o n\u00famero de idiomas dispon\u00edveis para mais de quatro mil. Embora esses dados sejam de um dom\u00ednio espec\u00edfico e frequentemente lidos por falantes do g\u00eanero masculino, nossa an\u00e1lise mostra que nossos modelos apresentam um desempenho igualmente bom para vozes masculinas e femininas. E apesar de o conte\u00fado das grava\u00e7\u00f5es de \u00e1udio ser religioso, nossa an\u00e1lise mostra que isso n\u00e3o influencia o modelo a produzir uma linguagem mais religiosa. Acreditamos que isso se deve ao fato de usarmos uma abordagem de classifica\u00e7\u00e3o temporal conexionista (CTC), que \u00e9 muito mais restrita em compara\u00e7\u00e3o aos grandes modelos de linguagem (LLMs) ou modelos de sequ\u00eancia para sequ\u00eancia para reconhecimento de fala.<\/span><\/p>\n<figure id=\"attachment_24907\" aria-describedby=\"caption-attachment-24907\" style=\"width: 960px\" class=\"wp-caption aligncenter\"><img data-recalc-dims=\"1\" loading=\"lazy\" decoding=\"async\" class=\"size-large wp-image-24907\" src=\"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI23_MMS_Visual2.png?w=960&#038;resize=960%2C507\" alt=\"\" width=\"960\" height=\"507\" srcset=\"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI23_MMS_Visual2.png?w=1920 1920w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI23_MMS_Visual2.png?w=600 600w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI23_MMS_Visual2.png?w=300 300w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI23_MMS_Visual2.png?w=768 768w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI23_MMS_Visual2.png?w=1024 1024w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI23_MMS_Visual2.png?w=1536 1536w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI23_MMS_Visual2.png?w=800 800w\" sizes=\"auto, (max-width: 960px) 100vw, 960px\" \/><figcaption id=\"caption-attachment-24907\" class=\"wp-caption-text\">An\u00e1lise de poss\u00edvel vi\u00e9s de g\u00eanero. Os modelos de reconhecimento autom\u00e1tico de fala treinados nos dados de Massively Multilingual Speech, t\u00eam uma taxa de erro semelhante para falantes dos g\u00eaneros masculino e feminino no benchmark FLEURS.<\/figcaption><\/figure>\n<p><span style=\"font-weight: 400\">N\u00f3s processamos previamente os dados para melhorar a qualidade e torn\u00e1-los utiliz\u00e1veis pelos nossos algoritmos de aprendizado de m\u00e1quina. Para isso, treinamos um modelo de alinhamento em dados existentes em mais de 100 idiomas, que tamb\u00e9m foi utilizado juntamente com um algoritmo de alinhamento de for\u00e7a eficiente, no qual pode processar grava\u00e7\u00f5es longas de cerca de 20 minutos ou mais. Realizamos esse processo v\u00e1rias vezes e executamos uma etapa final de filtragem por valida\u00e7\u00e3o cruzada com base na precis\u00e3o do modelo para remover dados potencialmente desalinhados. Para permitir que outros pesquisadores criem novos conjuntos de dados de fala, adicionamos o algoritmo de alinhamento ao PyTorch e disponibilizamos o modelo de alinhamento.<\/span><\/p>\n<p><span style=\"font-weight: 400\">Trinta e duas horas de dados por idioma n\u00e3o s\u00e3o suficientes para treinar modelos convencionais de reconhecimento de fala supervisionados. Devido a isso, criamos o <\/span><a href=\"https:\/\/ai.facebook.com\/blog\/wav2vec-20-learning-the-structure-of-speech-from-raw-audio\/\"><span style=\"font-weight: 400\">wav2vec 2.0<\/span><\/a><span style=\"font-weight: 400\">, nosso trabalho anterior sobre aprendizado de representa\u00e7\u00e3o de fala autossupervisionado, que reduziu consideravelmente a quantidade de dados rotulados necess\u00e1rios para treinar bons sistemas. De forma concreta, treinamos modelos autossupervisionados com cerca de 500 mil horas de dados de fala em mais de 1.400 idiomas \u2014 isso \u00e9 quase tr\u00eas vezes mais idiomas do que qualquer trabalho anterior conhecido. Os modelos resultantes foram ent\u00e3o ajustados para uma tarefa espec\u00edfica de fala, como reconhecimento de fala multil\u00edngue ou identifica\u00e7\u00e3o de idioma.<\/span><\/p>\n<h2><b>Resultados<\/b><\/h2>\n<p><span style=\"font-weight: 400\">Para entender melhor o desempenho dos modelos treinados nos dados de Massively Multilingual Speech, avaliamos esses modelos em conjuntos de dados de refer\u00eancia j\u00e1 existentes, como o <\/span><a href=\"https:\/\/arxiv.org\/abs\/2205.12446\"><span style=\"font-weight: 400\">FLEURS<\/span><\/a><span style=\"font-weight: 400\">.<\/span><\/p>\n<p><span style=\"font-weight: 400\">Treinamos modelos de reconhecimento de fala multil\u00edngues em mais de 1.100 idiomas usando um modelo wav2vec 2.0 de um bilh\u00e3o de par\u00e2metros. Conforme o n\u00famero de idiomas aumenta, o desempenho diminui um pouco: a mudan\u00e7a de 61 para 1.107 idiomas aumenta a taxa de erro de caracteres em cerca de 0,4%, mas a cobertura de idiomas aumenta mais de 17 vezes.<\/span><\/p>\n<figure id=\"attachment_24906\" aria-describedby=\"caption-attachment-24906\" style=\"width: 960px\" class=\"wp-caption aligncenter\"><img data-recalc-dims=\"1\" loading=\"lazy\" decoding=\"async\" class=\"size-large wp-image-24906\" src=\"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI23_MMS_Visual3.png?w=960&#038;resize=960%2C465\" alt=\"\" width=\"960\" height=\"465\" srcset=\"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI23_MMS_Visual3.png?w=1920 1920w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI23_MMS_Visual3.png?w=600 600w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI23_MMS_Visual3.png?w=300 300w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI23_MMS_Visual3.png?w=768 768w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI23_MMS_Visual3.png?w=1024 1024w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI23_MMS_Visual3.png?w=1536 1536w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI23_MMS_Visual3.png?w=800 800w\" sizes=\"auto, (max-width: 960px) 100vw, 960px\" \/><figcaption id=\"caption-attachment-24906\" class=\"wp-caption-text\">Taxa de erro em 61 idiomas FLEURS para sistemas de reconhecimento de fala multil\u00edngue treinados em dados de fala massivamente multil\u00edngue, ao aumentar o n\u00famero de idiomas suportados por cada sistema de 61 para 1.107. Taxas de erro mais altas indicam desempenho inferior.<\/figcaption><\/figure>\n<p><span style=\"font-weight: 400\">Em uma compara\u00e7\u00e3o direta com o <\/span><a href=\"https:\/\/arxiv.org\/abs\/2212.04356\"><span style=\"font-weight: 400\">Whisper da OpenAI<\/span><\/a><span style=\"font-weight: 400\">, descobrimos que os modelos treinados nos dados de Massively Multilingual Speech alcan\u00e7am metade da taxa de erro de palavras, mas cobrem 11 vezes mais idiomas. Isso demonstra que nosso modelo pode ter um desempenho muito bom em compara\u00e7\u00e3o aos melhores modelos de fala atuais.<\/span><\/p>\n<figure id=\"attachment_24908\" aria-describedby=\"caption-attachment-24908\" style=\"width: 960px\" class=\"wp-caption aligncenter\"><img data-recalc-dims=\"1\" loading=\"lazy\" decoding=\"async\" class=\"size-large wp-image-24908\" src=\"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI23_MMS_Visual4.png?w=960&#038;resize=960%2C544\" alt=\"\" width=\"960\" height=\"544\" srcset=\"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI23_MMS_Visual4.png?w=1920 1920w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI23_MMS_Visual4.png?w=600 600w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI23_MMS_Visual4.png?w=300 300w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI23_MMS_Visual4.png?w=768 768w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI23_MMS_Visual4.png?w=1024 1024w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI23_MMS_Visual4.png?w=1536 1536w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI23_MMS_Visual4.png?w=1906 1906w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI23_MMS_Visual4.png?w=800 800w\" sizes=\"auto, (max-width: 960px) 100vw, 960px\" \/><figcaption id=\"caption-attachment-24908\" class=\"wp-caption-text\">Taxa de erro de palavras do OpenAI Whisper em compara\u00e7\u00e3o com o Massively Multilingual Speech nos 54 idiomas FLEURS que permitem uma compara\u00e7\u00e3o direta.<\/figcaption><\/figure>\n<p><span style=\"font-weight: 400\">Em seguida, treinamos um modelo de identifica\u00e7\u00e3o de idioma (LID) para mais de quatro mil idiomas usando nossos conjuntos de dados e conjuntos de dados existentes, como FLEURS e CommonVoice, e o avaliamos na tarefa de LID do FLEURS. Disponibilizar 40 vezes mais idiomas ainda resulta em um desempenho muito bom.<\/span><\/p>\n<figure id=\"attachment_24909\" aria-describedby=\"caption-attachment-24909\" style=\"width: 960px\" class=\"wp-caption aligncenter\"><img data-recalc-dims=\"1\" loading=\"lazy\" decoding=\"async\" class=\"size-large wp-image-24909\" src=\"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI23_MMS_Visual5.png?w=960&#038;resize=960%2C524\" alt=\"\" width=\"960\" height=\"524\" srcset=\"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI23_MMS_Visual5.png?w=1920 1920w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI23_MMS_Visual5.png?w=600 600w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI23_MMS_Visual5.png?w=300 300w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI23_MMS_Visual5.png?w=768 768w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI23_MMS_Visual5.png?w=1024 1024w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI23_MMS_Visual5.png?w=1536 1536w, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI23_MMS_Visual5.png?w=800 800w\" sizes=\"auto, (max-width: 960px) 100vw, 960px\" \/><figcaption id=\"caption-attachment-24909\" class=\"wp-caption-text\">Precis\u00e3o da identifica\u00e7\u00e3o de idiomas no benchmark VoxLingua-107 do trabalho existente, que suporta pouco mais de 100 idiomas, e MMS, que suporta mais de 4.000 idiomas.<\/figcaption><\/figure>\n<p><span style=\"font-weight: 400\">Tamb\u00e9m criamos sistemas de texto para fala para mais de 1.100 idiomas. Os modelos atuais de texto para fala geralmente s\u00e3o treinados em corpora de fala que cont\u00eam um \u00fanico locutor. Uma limita\u00e7\u00e3o dos dados de Massively Multilingual Speech \u00e9 que, eles possuem relativamente poucos falantes diferentes para v\u00e1rios idiomas e, muitas vezes, apenas um \u00fanico falante. No entanto, isso \u00e9 uma vantagem para a cria\u00e7\u00e3o de sistemas de texto para fala. Por isso, treinamos esses sistemas para mais de 1.100 idiomas. Constatamos que a fala produzida por esses sistemas \u00e9 de boa qualidade, como mostram os exemplos abaixo.<\/span><\/p>\n<div style=\"width: 960px;\" class=\"wp-video\"><video class=\"wp-video-shortcode\" id=\"video-24903-1\" width=\"960\" height=\"541\" preload=\"metadata\" controls=\"controls\"><source type=\"video\/mp4\" src=\"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/MMS-audio-samples.mp4?_=1\" \/><a href=\"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/MMS-audio-samples.mp4\">https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/MMS-audio-samples.mp4<\/a><\/video><\/div>\n<p><span style=\"font-weight: 400\">Estamos animados com nossos resultados, mas, como acontece com todas as novas tecnologias de IA, nossos modelos n\u00e3o s\u00e3o perfeitos. Por exemplo, existe certo risco de que o modelo de fala para texto possa transcrever incorretamente algumas palavras ou frases. Dependendo da transcri\u00e7\u00e3o gerada, isso pode resultar em linguagem ofensiva e\/ou imprecisa. Continuamos acreditando que a colabora\u00e7\u00e3o na comunidade \u00e9 fundamental para o desenvolvimento respons\u00e1vel das tecnologias de IA.<\/span><\/p>\n<h2><b>Rumo a um \u00fanico modelo de fala dispon\u00edvel para milhares de idiomas<\/b><\/h2>\n<p><span style=\"font-weight: 400\">Muitos dos idiomas do mundo correm perigo de desaparecer, e as limita\u00e7\u00f5es das tecnologias atuais de reconhecimento e gera\u00e7\u00e3o de fala s\u00f3 ir\u00e3o acelerar essa tend\u00eancia. Visamos um mundo em que a tecnologia tenha o efeito oposto, incentivando as pessoas a manterem os idiomas vivos, pois podem acessar informa\u00e7\u00f5es e usar a tecnologia falando em seu idioma preferido.<\/span><\/p>\n<p><span style=\"font-weight: 400\">O projeto Massively Multilingual Speech representa um avan\u00e7o significativo nessa dire\u00e7\u00e3o. No futuro, queremos aumentar a cobertura para disponibilizar ainda mais idiomas e tamb\u00e9m enfrentar o desafio de lidar com dialetos, o que geralmente \u00e9 dif\u00edcil para a tecnologia de fala existente. Nosso objetivo \u00e9 facilitar o acesso das pessoas \u00e0s informa\u00e7\u00f5es e permitir que elas usem dispositivos em seu idioma preferido. H\u00e1 muitos casos de uso concretos para a tecnologia de fala, como as tecnologias VR e AR, que podem ser usadas no idioma preferido de uma pessoa, bem como servi\u00e7os de mensagens que podem entender a voz de todos.<\/span><\/p>\n<p><span style=\"font-weight: 400\">Tamb\u00e9m visamos um futuro em que um \u00fanico modelo possa resolver diversas tarefas de fala para todos os idiomas. Embora tenhamos treinado modelos separados para reconhecimento de fala, s\u00edntese de fala e identifica\u00e7\u00e3o de idioma, acreditamos que, no futuro, um \u00fanico modelo ser\u00e1 capaz de realizar todas essas tarefas e muito mais, levando a um melhor desempenho geral.<\/span><\/p>\n<div style=\"width: 960px;\" class=\"wp-video\"><video class=\"wp-video-shortcode\" id=\"video-24903-2\" width=\"960\" height=\"540\" preload=\"metadata\" controls=\"controls\"><source type=\"video\/mp4\" src=\"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI_MMS_PT_Captions.mp4?_=2\" \/><a href=\"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI_MMS_PT_Captions.mp4\">https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI_MMS_PT_Captions.mp4<\/a><\/video><\/div>\n","protected":false},"excerpt":{"rendered":"Expandimos a tecnologia de convers\u00e3o de fala de cerca de 100 idiomas para mais de 1.000, criando um \u00fanico modelo de reconhecimento de fala multil\u00edngue que suporta mais de 1.100 idiomas (10 vezes mais do que antes), al\u00e9m de modelos de identifica\u00e7\u00e3o de idiomas capazes de identificar 4.000 idiomas (40 vezes mais do que antes), e outros modelos pr\u00e9-treinados que suportam 1.400 idiomas e modelos de convers\u00e3o de texto em fala para mais de 1.100 idiomas. Nosso objetivo \u00e9 facilitar o acesso das pessoas \u00e0s informa\u00e7\u00f5es e o uso de dispositivos no idioma de sua prefer\u00eancia. Equipar m\u00e1quinas com a capacidade de entender e produzir falas, pode tornar as informa\u00e7\u00f5es acess\u00edveis para muito mais pessoas, incluindo aquelas que dependem inteiramente da voz para acessarem informa\u00e7\u00f5es. No entanto, produzir modelos de aprendizado de m\u00e1quina de boa qualidade para essas tarefas, requer grandes quantidades de dados rotulados \u2013 neste caso, milhares de horas de \u00e1udio, juntamente com transcri\u00e7\u00f5es \u2013 e para a maioria dos idiomas, esses dados simplesmente n\u00e3o existem. Por exemplo, os modelos de reconhecimento de fala existentes cobrem apenas cerca de 100 idiomas, uma fra\u00e7\u00e3o dos mais de 7 mil idiomas conhecidos no planeta. Uma situa\u00e7\u00e3o ainda mais preocupante \u00e9 que quase metade desses idiomas correm o risco de desaparecer com o tempo. No projeto Massively Multilingual Speech (MMS), superamos alguns desses desafios ao combinar nossa t\u00e9cnica pioneira de aprendizado autossupervisionado, o wav2vec 2.0, com um novo conjunto de informa\u00e7\u00f5es que fornece dados rotulados para mais de 1.100 idiomas e dados n\u00e3o rotulados para quase quatro mil idiomas. Alguns desses idiomas, como o Tatuyo, possui apenas algumas centenas de falantes e, na maioria deles, n\u00e3o h\u00e1 tecnologia de fala existente. Nossos resultados mostram que os modelos de Massively Multilingual Speech apresentam um bom desempenho quando comparados aos modelos existentes, e cobrem 10 vezes mais idiomas. A Meta tem foco na multilinguagem em geral: para texto, o projeto No Language Left Behind ampliou a tradu\u00e7\u00e3o multil\u00edngue para 200 idiomas, enquanto o projeto Massively Multilingual Speech ampliou a tecnologia de fala para muitos mais. Hoje, estamos compartilhando nossos modelos e c\u00f3digo para que outros na comunidade de pesquisa possam criar a partir do nosso trabalho. Por meio desse projeto, esperamos fazer uma pequena contribui\u00e7\u00e3o para preservar a incr\u00edvel diversidade lingu\u00edstica do mundo. Nossa abordagem O primeiro desafio foi coletar dados de \u00e1udio de milhares de idiomas, j\u00e1 que os maiores conjuntos de dados de fala existentes cobrem no m\u00e1ximo 100 idiomas. Para superar esse desafio, recorremos a textos religiosos, como a B\u00edblia, que foram traduzidos em diferentes idiomas e cujas tradu\u00e7\u00f5es foram amplamente estudadas para pesquisas de tradu\u00e7\u00e3o de idiomas baseadas em texto. Essas tradu\u00e7\u00f5es, dispon\u00edveis publicamente, possuem grava\u00e7\u00f5es de \u00e1udio de pessoas lendo esses textos em diferentes idiomas. Como parte deste projeto, criamos um conjunto de dados de leituras do Novo Testamento em mais de 1.100 idiomas, que forneceu em m\u00e9dia 32 horas de dados por idioma. Ao considerar grava\u00e7\u00f5es n\u00e3o rotuladas de v\u00e1rias outras leituras religiosas crist\u00e3s, aumentamos o n\u00famero de idiomas dispon\u00edveis para mais de quatro mil. Embora esses dados sejam de um dom\u00ednio espec\u00edfico e frequentemente lidos por falantes do g\u00eanero masculino, nossa an\u00e1lise mostra que nossos modelos apresentam um desempenho igualmente bom para vozes masculinas e femininas. E apesar de o conte\u00fado das grava\u00e7\u00f5es de \u00e1udio ser religioso, nossa an\u00e1lise mostra que isso n\u00e3o influencia o modelo a produzir uma linguagem mais religiosa. Acreditamos que isso se deve ao fato de usarmos uma abordagem de classifica\u00e7\u00e3o temporal conexionista (CTC), que \u00e9 muito mais restrita em compara\u00e7\u00e3o aos grandes modelos de linguagem (LLMs) ou modelos de sequ\u00eancia para sequ\u00eancia para reconhecimento de fala. N\u00f3s processamos previamente os dados para melhorar a qualidade e torn\u00e1-los utiliz\u00e1veis pelos nossos algoritmos de aprendizado de m\u00e1quina. Para isso, treinamos um modelo de alinhamento em dados existentes em mais de 100 idiomas, que tamb\u00e9m foi utilizado juntamente com um algoritmo de alinhamento de for\u00e7a eficiente, no qual pode processar grava\u00e7\u00f5es longas de cerca de 20 minutos ou mais. Realizamos esse processo v\u00e1rias vezes e executamos uma etapa final de filtragem por valida\u00e7\u00e3o cruzada com base na precis\u00e3o do modelo para remover dados potencialmente desalinhados. Para permitir que outros pesquisadores criem novos conjuntos de dados de fala, adicionamos o algoritmo de alinhamento ao PyTorch e disponibilizamos o modelo de alinhamento. Trinta e duas horas de dados por idioma n\u00e3o s\u00e3o suficientes para treinar modelos convencionais de reconhecimento de fala supervisionados. Devido a isso, criamos o wav2vec 2.0, nosso trabalho anterior sobre aprendizado de representa\u00e7\u00e3o de fala autossupervisionado, que reduziu consideravelmente a quantidade de dados rotulados necess\u00e1rios para treinar bons sistemas. De forma concreta, treinamos modelos autossupervisionados com cerca de 500 mil horas de dados de fala em mais de 1.400 idiomas \u2014 isso \u00e9 quase tr\u00eas vezes mais idiomas do que qualquer trabalho anterior conhecido. Os modelos resultantes foram ent\u00e3o ajustados para uma tarefa espec\u00edfica de fala, como reconhecimento de fala multil\u00edngue ou identifica\u00e7\u00e3o de idioma. Resultados Para entender melhor o desempenho dos modelos treinados nos dados de Massively Multilingual Speech, avaliamos esses modelos em conjuntos de dados de refer\u00eancia j\u00e1 existentes, como o FLEURS. Treinamos modelos de reconhecimento de fala multil\u00edngues em mais de 1.100 idiomas usando um modelo wav2vec 2.0 de um bilh\u00e3o de par\u00e2metros. Conforme o n\u00famero de idiomas aumenta, o desempenho diminui um pouco: a mudan\u00e7a de 61 para 1.107 idiomas aumenta a taxa de erro de caracteres em cerca de 0,4%, mas a cobertura de idiomas aumenta mais de 17 vezes. Em uma compara\u00e7\u00e3o direta com o Whisper da OpenAI, descobrimos que os modelos treinados nos dados de Massively Multilingual Speech alcan\u00e7am metade da taxa de erro de palavras, mas cobrem 11 vezes mais idiomas. Isso demonstra que nosso modelo pode ter um desempenho muito bom em compara\u00e7\u00e3o aos melhores modelos de fala atuais. Em seguida, treinamos um modelo de identifica\u00e7\u00e3o de idioma (LID) para mais de quatro mil idiomas usando nossos conjuntos de dados e conjuntos de dados existentes, como FLEURS e CommonVoice, e o avaliamos na tarefa de LID do FLEURS. Disponibilizar 40 vezes mais idiomas ainda resulta em um desempenho muito bom. Tamb\u00e9m criamos sistemas de texto para fala para mais de 1.100 idiomas. Os modelos atuais de texto para fala geralmente s\u00e3o treinados em corpora de fala que cont\u00eam um \u00fanico locutor. Uma limita\u00e7\u00e3o dos dados de Massively Multilingual Speech \u00e9 que, eles possuem relativamente poucos falantes diferentes para v\u00e1rios idiomas e, muitas vezes, apenas um \u00fanico falante. No entanto, isso \u00e9 uma vantagem para a cria\u00e7\u00e3o de sistemas de texto para fala. Por isso, treinamos esses sistemas para mais de 1.100 idiomas. Constatamos que a fala produzida por esses sistemas \u00e9 de boa qualidade, como mostram os exemplos abaixo. Estamos animados com nossos resultados, mas, como acontece com todas as novas tecnologias de IA, nossos modelos n\u00e3o s\u00e3o perfeitos. Por exemplo, existe certo risco de que o modelo de fala para texto possa transcrever incorretamente algumas palavras ou frases. Dependendo da transcri\u00e7\u00e3o gerada, isso pode resultar em linguagem ofensiva e\/ou imprecisa. Continuamos acreditando que a colabora\u00e7\u00e3o na comunidade \u00e9 fundamental para o desenvolvimento respons\u00e1vel das tecnologias de IA. Rumo a um \u00fanico modelo de fala dispon\u00edvel para milhares de idiomas Muitos dos idiomas do mundo correm perigo de desaparecer, e as limita\u00e7\u00f5es das tecnologias atuais de reconhecimento e gera\u00e7\u00e3o de fala s\u00f3 ir\u00e3o acelerar essa tend\u00eancia. Visamos um mundo em que a tecnologia tenha o efeito oposto, incentivando as pessoas a manterem os idiomas vivos, pois podem acessar informa\u00e7\u00f5es e usar a tecnologia falando em seu idioma preferido. O projeto Massively Multilingual Speech representa um avan\u00e7o significativo nessa dire\u00e7\u00e3o. No futuro, queremos aumentar a cobertura para disponibilizar ainda mais idiomas e tamb\u00e9m enfrentar o desafio de lidar com dialetos, o que geralmente \u00e9 dif\u00edcil para a tecnologia de fala existente. Nosso objetivo \u00e9 facilitar o acesso das pessoas \u00e0s informa\u00e7\u00f5es e permitir que elas usem dispositivos em seu idioma preferido. H\u00e1 muitos casos de uso concretos para a tecnologia de fala, como as tecnologias VR e AR, que podem ser usadas no idioma preferido de uma pessoa, bem como servi\u00e7os de mensagens que podem entender a voz de todos. Tamb\u00e9m visamos um futuro em que um \u00fanico modelo possa resolver diversas tarefas de fala para todos os idiomas. Embora tenhamos treinado modelos separados para reconhecimento de fala, s\u00edntese de fala e identifica\u00e7\u00e3o de idioma, acreditamos que, no futuro, um \u00fanico modelo ser\u00e1 capaz de realizar todas essas tarefas e muito mais, levando a um melhor desempenho geral.","protected":false},"author":164097222,"featured_media":24913,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_jetpack_memberships_contains_paid_content":false,"footnotes":""},"categories":[396542114,1,396542170],"tags":[],"class_list":["post-24903","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-meta","category-recent-news","category-tecnologia-e-inovacao"],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v27.2 - https:\/\/yoast.com\/product\/yoast-seo-wordpress\/ -->\n<title>Apresentamos a convers\u00e3o de fala para texto, texto para fala e mais novidades para mais de 1.100 idiomas | Sobre a Meta<\/title>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/about.fb.com\/br\/news\/2023\/05\/apresentamos-a-conversao-de-fala-para-texto-texto-para-fala-e-mais-novidades-para-mais-de-1-100-idiomas\/\" \/>\n<meta property=\"og:locale\" content=\"pt_BR\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Apresentamos a convers\u00e3o de fala para texto, texto para fala e mais novidades para mais de 1.100 idiomas | Sobre a Meta\" \/>\n<meta property=\"og:description\" content=\"Expandimos a tecnologia de convers\u00e3o de fala de cerca de 100 idiomas para mais de 1.000, criando um \u00fanico modelo de reconhecimento de fala multil\u00edngue que suporta mais de 1.100 idiomas (10 vezes mais do que antes), al\u00e9m de modelos de identifica\u00e7\u00e3o de idiomas capazes de identificar 4.000 idiomas (40 vezes mais do que antes), e outros modelos pr\u00e9-treinados que suportam 1.400 idiomas e modelos de convers\u00e3o de texto em fala para mais de 1.100 idiomas. Nosso objetivo \u00e9 facilitar o acesso das pessoas \u00e0s informa\u00e7\u00f5es e o uso de dispositivos no idioma de sua prefer\u00eancia. Equipar m\u00e1quinas com a capacidade de entender e produzir falas, pode tornar as informa\u00e7\u00f5es acess\u00edveis para muito mais pessoas, incluindo aquelas que dependem inteiramente da voz para acessarem informa\u00e7\u00f5es. No entanto, produzir modelos de aprendizado de m\u00e1quina de boa qualidade para essas tarefas, requer grandes quantidades de dados rotulados \u2013 neste caso, milhares de horas de \u00e1udio, juntamente com transcri\u00e7\u00f5es \u2013 e para a maioria dos idiomas, esses dados simplesmente n\u00e3o existem. Por exemplo, os modelos de reconhecimento de fala existentes cobrem apenas cerca de 100 idiomas, uma fra\u00e7\u00e3o dos mais de 7 mil idiomas conhecidos no planeta. Uma situa\u00e7\u00e3o ainda mais preocupante \u00e9 que quase metade desses idiomas correm o risco de desaparecer com o tempo. No projeto Massively Multilingual Speech (MMS), superamos alguns desses desafios ao combinar nossa t\u00e9cnica pioneira de aprendizado autossupervisionado, o wav2vec 2.0, com um novo conjunto de informa\u00e7\u00f5es que fornece dados rotulados para mais de 1.100 idiomas e dados n\u00e3o rotulados para quase quatro mil idiomas. Alguns desses idiomas, como o Tatuyo, possui apenas algumas centenas de falantes e, na maioria deles, n\u00e3o h\u00e1 tecnologia de fala existente. Nossos resultados mostram que os modelos de Massively Multilingual Speech apresentam um bom desempenho quando comparados aos modelos existentes, e cobrem 10 vezes mais idiomas. A Meta tem foco na multilinguagem em geral: para texto, o projeto No Language Left Behind ampliou a tradu\u00e7\u00e3o multil\u00edngue para 200 idiomas, enquanto o projeto Massively Multilingual Speech ampliou a tecnologia de fala para muitos mais. Hoje, estamos compartilhando nossos modelos e c\u00f3digo para que outros na comunidade de pesquisa possam criar a partir do nosso trabalho. Por meio desse projeto, esperamos fazer uma pequena contribui\u00e7\u00e3o para preservar a incr\u00edvel diversidade lingu\u00edstica do mundo. Nossa abordagem O primeiro desafio foi coletar dados de \u00e1udio de milhares de idiomas, j\u00e1 que os maiores conjuntos de dados de fala existentes cobrem no m\u00e1ximo 100 idiomas. Para superar esse desafio, recorremos a textos religiosos, como a B\u00edblia, que foram traduzidos em diferentes idiomas e cujas tradu\u00e7\u00f5es foram amplamente estudadas para pesquisas de tradu\u00e7\u00e3o de idiomas baseadas em texto. Essas tradu\u00e7\u00f5es, dispon\u00edveis publicamente, possuem grava\u00e7\u00f5es de \u00e1udio de pessoas lendo esses textos em diferentes idiomas. Como parte deste projeto, criamos um conjunto de dados de leituras do Novo Testamento em mais de 1.100 idiomas, que forneceu em m\u00e9dia 32 horas de dados por idioma. Ao considerar grava\u00e7\u00f5es n\u00e3o rotuladas de v\u00e1rias outras leituras religiosas crist\u00e3s, aumentamos o n\u00famero de idiomas dispon\u00edveis para mais de quatro mil. Embora esses dados sejam de um dom\u00ednio espec\u00edfico e frequentemente lidos por falantes do g\u00eanero masculino, nossa an\u00e1lise mostra que nossos modelos apresentam um desempenho igualmente bom para vozes masculinas e femininas. E apesar de o conte\u00fado das grava\u00e7\u00f5es de \u00e1udio ser religioso, nossa an\u00e1lise mostra que isso n\u00e3o influencia o modelo a produzir uma linguagem mais religiosa. Acreditamos que isso se deve ao fato de usarmos uma abordagem de classifica\u00e7\u00e3o temporal conexionista (CTC), que \u00e9 muito mais restrita em compara\u00e7\u00e3o aos grandes modelos de linguagem (LLMs) ou modelos de sequ\u00eancia para sequ\u00eancia para reconhecimento de fala. N\u00f3s processamos previamente os dados para melhorar a qualidade e torn\u00e1-los utiliz\u00e1veis pelos nossos algoritmos de aprendizado de m\u00e1quina. Para isso, treinamos um modelo de alinhamento em dados existentes em mais de 100 idiomas, que tamb\u00e9m foi utilizado juntamente com um algoritmo de alinhamento de for\u00e7a eficiente, no qual pode processar grava\u00e7\u00f5es longas de cerca de 20 minutos ou mais. Realizamos esse processo v\u00e1rias vezes e executamos uma etapa final de filtragem por valida\u00e7\u00e3o cruzada com base na precis\u00e3o do modelo para remover dados potencialmente desalinhados. Para permitir que outros pesquisadores criem novos conjuntos de dados de fala, adicionamos o algoritmo de alinhamento ao PyTorch e disponibilizamos o modelo de alinhamento. Trinta e duas horas de dados por idioma n\u00e3o s\u00e3o suficientes para treinar modelos convencionais de reconhecimento de fala supervisionados. Devido a isso, criamos o wav2vec 2.0, nosso trabalho anterior sobre aprendizado de representa\u00e7\u00e3o de fala autossupervisionado, que reduziu consideravelmente a quantidade de dados rotulados necess\u00e1rios para treinar bons sistemas. De forma concreta, treinamos modelos autossupervisionados com cerca de 500 mil horas de dados de fala em mais de 1.400 idiomas \u2014 isso \u00e9 quase tr\u00eas vezes mais idiomas do que qualquer trabalho anterior conhecido. Os modelos resultantes foram ent\u00e3o ajustados para uma tarefa espec\u00edfica de fala, como reconhecimento de fala multil\u00edngue ou identifica\u00e7\u00e3o de idioma. Resultados Para entender melhor o desempenho dos modelos treinados nos dados de Massively Multilingual Speech, avaliamos esses modelos em conjuntos de dados de refer\u00eancia j\u00e1 existentes, como o FLEURS. Treinamos modelos de reconhecimento de fala multil\u00edngues em mais de 1.100 idiomas usando um modelo wav2vec 2.0 de um bilh\u00e3o de par\u00e2metros. Conforme o n\u00famero de idiomas aumenta, o desempenho diminui um pouco: a mudan\u00e7a de 61 para 1.107 idiomas aumenta a taxa de erro de caracteres em cerca de 0,4%, mas a cobertura de idiomas aumenta mais de 17 vezes. Em uma compara\u00e7\u00e3o direta com o Whisper da OpenAI, descobrimos que os modelos treinados nos dados de Massively Multilingual Speech alcan\u00e7am metade da taxa de erro de palavras, mas cobrem 11 vezes mais idiomas. Isso demonstra que nosso modelo pode ter um desempenho muito bom em compara\u00e7\u00e3o aos melhores modelos de fala atuais. Em seguida, treinamos um modelo de identifica\u00e7\u00e3o de idioma (LID) para mais de quatro mil idiomas usando nossos conjuntos de dados e conjuntos de dados existentes, como FLEURS e CommonVoice, e o avaliamos na tarefa de LID do FLEURS. Disponibilizar 40 vezes mais idiomas ainda resulta em um desempenho muito bom. Tamb\u00e9m criamos sistemas de texto para fala para mais de 1.100 idiomas. Os modelos atuais de texto para fala geralmente s\u00e3o treinados em corpora de fala que cont\u00eam um \u00fanico locutor. Uma limita\u00e7\u00e3o dos dados de Massively Multilingual Speech \u00e9 que, eles possuem relativamente poucos falantes diferentes para v\u00e1rios idiomas e, muitas vezes, apenas um \u00fanico falante. No entanto, isso \u00e9 uma vantagem para a cria\u00e7\u00e3o de sistemas de texto para fala. Por isso, treinamos esses sistemas para mais de 1.100 idiomas. Constatamos que a fala produzida por esses sistemas \u00e9 de boa qualidade, como mostram os exemplos abaixo. Estamos animados com nossos resultados, mas, como acontece com todas as novas tecnologias de IA, nossos modelos n\u00e3o s\u00e3o perfeitos. Por exemplo, existe certo risco de que o modelo de fala para texto possa transcrever incorretamente algumas palavras ou frases. Dependendo da transcri\u00e7\u00e3o gerada, isso pode resultar em linguagem ofensiva e\/ou imprecisa. Continuamos acreditando que a colabora\u00e7\u00e3o na comunidade \u00e9 fundamental para o desenvolvimento respons\u00e1vel das tecnologias de IA. Rumo a um \u00fanico modelo de fala dispon\u00edvel para milhares de idiomas Muitos dos idiomas do mundo correm perigo de desaparecer, e as limita\u00e7\u00f5es das tecnologias atuais de reconhecimento e gera\u00e7\u00e3o de fala s\u00f3 ir\u00e3o acelerar essa tend\u00eancia. Visamos um mundo em que a tecnologia tenha o efeito oposto, incentivando as pessoas a manterem os idiomas vivos, pois podem acessar informa\u00e7\u00f5es e usar a tecnologia falando em seu idioma preferido. O projeto Massively Multilingual Speech representa um avan\u00e7o significativo nessa dire\u00e7\u00e3o. No futuro, queremos aumentar a cobertura para disponibilizar ainda mais idiomas e tamb\u00e9m enfrentar o desafio de lidar com dialetos, o que geralmente \u00e9 dif\u00edcil para a tecnologia de fala existente. Nosso objetivo \u00e9 facilitar o acesso das pessoas \u00e0s informa\u00e7\u00f5es e permitir que elas usem dispositivos em seu idioma preferido. H\u00e1 muitos casos de uso concretos para a tecnologia de fala, como as tecnologias VR e AR, que podem ser usadas no idioma preferido de uma pessoa, bem como servi\u00e7os de mensagens que podem entender a voz de todos. Tamb\u00e9m visamos um futuro em que um \u00fanico modelo possa resolver diversas tarefas de fala para todos os idiomas. Embora tenhamos treinado modelos separados para reconhecimento de fala, s\u00edntese de fala e identifica\u00e7\u00e3o de idioma, acreditamos que, no futuro, um \u00fanico modelo ser\u00e1 capaz de realizar todas essas tarefas e muito mais, levando a um melhor desempenho geral.\" \/>\n<meta property=\"og:url\" content=\"https:\/\/about.fb.com\/br\/news\/2023\/05\/apresentamos-a-conversao-de-fala-para-texto-texto-para-fala-e-mais-novidades-para-mais-de-1-100-idiomas\/\" \/>\n<meta property=\"og:site_name\" content=\"Sobre a Meta\" \/>\n<meta property=\"article:published_time\" content=\"2023-05-22T16:30:18+00:00\" \/>\n<meta property=\"article:modified_time\" content=\"2023-05-23T13:23:30+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI23_MMS_Hero.png?resize=1024,576\" \/>\n\t<meta property=\"og:image:width\" content=\"1024\" \/>\n\t<meta property=\"og:image:height\" content=\"576\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/png\" \/>\n<meta name=\"author\" content=\"vivianlusor\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:label1\" content=\"Written by\" \/>\n\t<meta name=\"twitter:data1\" content=\"Meta\" \/>\n\t<meta name=\"twitter:label2\" content=\"Est. reading time\" \/>\n\t<meta name=\"twitter:data2\" content=\"9 minutos\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\/\/schema.org\",\"@graph\":[{\"@type\":\"Article\",\"@id\":\"https:\/\/about.fb.com\/br\/news\/2023\/05\/apresentamos-a-conversao-de-fala-para-texto-texto-para-fala-e-mais-novidades-para-mais-de-1-100-idiomas\/#article\",\"isPartOf\":{\"@id\":\"https:\/\/about.fb.com\/br\/news\/2023\/05\/apresentamos-a-conversao-de-fala-para-texto-texto-para-fala-e-mais-novidades-para-mais-de-1-100-idiomas\/\"},\"author\":\"Facebook company\",\"headline\":\"Apresentamos a convers\u00e3o de fala para texto, texto para fala e mais novidades para mais de 1.100 idiomas\",\"datePublished\":\"2023-05-22T16:30:18+00:00\",\"dateModified\":\"2023-05-23T13:23:30+00:00\",\"mainEntityOfPage\":{\"@id\":\"https:\/\/about.fb.com\/br\/news\/2023\/05\/apresentamos-a-conversao-de-fala-para-texto-texto-para-fala-e-mais-novidades-para-mais-de-1-100-idiomas\/\"},\"wordCount\":1772,\"publisher\":{\"@id\":\"https:\/\/about.fb.com\/br\/#organization\"},\"image\":{\"@id\":\"https:\/\/about.fb.com\/br\/news\/2023\/05\/apresentamos-a-conversao-de-fala-para-texto-texto-para-fala-e-mais-novidades-para-mais-de-1-100-idiomas\/#primaryimage\"},\"thumbnailUrl\":\"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI23_MMS_Hero.png?fit=1920%2C1080\",\"articleSection\":[\"Meta\",\"Recent News\",\"Tecnologia e Inova\u00e7\u00e3o\"],\"inLanguage\":\"pt-BR\"},{\"@type\":\"WebPage\",\"@id\":\"https:\/\/about.fb.com\/br\/news\/2023\/05\/apresentamos-a-conversao-de-fala-para-texto-texto-para-fala-e-mais-novidades-para-mais-de-1-100-idiomas\/\",\"url\":\"https:\/\/about.fb.com\/br\/news\/2023\/05\/apresentamos-a-conversao-de-fala-para-texto-texto-para-fala-e-mais-novidades-para-mais-de-1-100-idiomas\/\",\"name\":\"Apresentamos a convers\u00e3o de fala para texto, texto para fala e mais novidades para mais de 1.100 idiomas | Sobre a Meta\",\"isPartOf\":{\"@id\":\"https:\/\/about.fb.com\/br\/#website\"},\"primaryImageOfPage\":{\"@id\":\"https:\/\/about.fb.com\/br\/news\/2023\/05\/apresentamos-a-conversao-de-fala-para-texto-texto-para-fala-e-mais-novidades-para-mais-de-1-100-idiomas\/#primaryimage\"},\"image\":{\"@id\":\"https:\/\/about.fb.com\/br\/news\/2023\/05\/apresentamos-a-conversao-de-fala-para-texto-texto-para-fala-e-mais-novidades-para-mais-de-1-100-idiomas\/#primaryimage\"},\"thumbnailUrl\":\"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI23_MMS_Hero.png?fit=1920%2C1080\",\"datePublished\":\"2023-05-22T16:30:18+00:00\",\"dateModified\":\"2023-05-23T13:23:30+00:00\",\"breadcrumb\":{\"@id\":\"https:\/\/about.fb.com\/br\/news\/2023\/05\/apresentamos-a-conversao-de-fala-para-texto-texto-para-fala-e-mais-novidades-para-mais-de-1-100-idiomas\/#breadcrumb\"},\"inLanguage\":\"pt-BR\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\/\/about.fb.com\/br\/news\/2023\/05\/apresentamos-a-conversao-de-fala-para-texto-texto-para-fala-e-mais-novidades-para-mais-de-1-100-idiomas\/\"]}],\"author\":\"Sobre a Meta\"},{\"@type\":\"ImageObject\",\"inLanguage\":\"pt-BR\",\"@id\":\"https:\/\/about.fb.com\/br\/news\/2023\/05\/apresentamos-a-conversao-de-fala-para-texto-texto-para-fala-e-mais-novidades-para-mais-de-1-100-idiomas\/#primaryimage\",\"url\":\"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI23_MMS_Hero.png?fit=1920%2C1080\",\"contentUrl\":\"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI23_MMS_Hero.png?fit=1920%2C1080\",\"width\":1920,\"height\":1080},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\/\/about.fb.com\/br\/news\/2023\/05\/apresentamos-a-conversao-de-fala-para-texto-texto-para-fala-e-mais-novidades-para-mais-de-1-100-idiomas\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Home\",\"item\":\"https:\/\/about.fb.com\/br\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Apresentamos a convers\u00e3o de fala para texto, texto para fala e mais novidades para mais de 1.100 idiomas\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\/\/about.fb.com\/br\/#website\",\"url\":\"https:\/\/about.fb.com\/news\/\",\"name\":\"Sobre a Meta\",\"description\":\"\",\"publisher\":{\"@id\":\"https:\/\/about.fb.com\/br\/#organization\"},\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\/\/about.fb.com\/br\/?s={search_term_string}\"},\"query-input\":{\"@type\":\"PropertyValueSpecification\",\"valueRequired\":true,\"valueName\":\"search_term_string\"}}],\"inLanguage\":\"pt-BR\",\"alternateName\":[\"Meta Newsroom\",\"Meta\"]},{\"@type\":\"Organization\",\"@id\":\"https:\/\/about.fb.com\/br\/#organization\",\"name\":\"Meta\",\"url\":\"https:\/\/about.fb.com\/br\/\",\"logo\":{\"@type\":\"ImageObject\",\"inLanguage\":\"pt-BR\",\"@id\":\"https:\/\/about.fb.com\/br\/#\/schema\/logo\/image\/\",\"url\":\"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2021\/10\/meta-social-16x9-1.jpg?fit=8000%2C4500\",\"contentUrl\":\"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2021\/10\/meta-social-16x9-1.jpg?fit=8000%2C4500\",\"width\":8000,\"height\":4500,\"caption\":\"Meta\"},\"image\":{\"@id\":\"https:\/\/about.fb.com\/br\/#\/schema\/logo\/image\/\"}}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"Apresentamos a convers\u00e3o de fala para texto, texto para fala e mais novidades para mais de 1.100 idiomas | Sobre a Meta","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/about.fb.com\/br\/news\/2023\/05\/apresentamos-a-conversao-de-fala-para-texto-texto-para-fala-e-mais-novidades-para-mais-de-1-100-idiomas\/","og_locale":"pt_BR","og_type":"article","og_title":"Apresentamos a convers\u00e3o de fala para texto, texto para fala e mais novidades para mais de 1.100 idiomas | Sobre a Meta","og_description":"Expandimos a tecnologia de convers\u00e3o de fala de cerca de 100 idiomas para mais de 1.000, criando um \u00fanico modelo de reconhecimento de fala multil\u00edngue que suporta mais de 1.100 idiomas (10 vezes mais do que antes), al\u00e9m de modelos de identifica\u00e7\u00e3o de idiomas capazes de identificar 4.000 idiomas (40 vezes mais do que antes), e outros modelos pr\u00e9-treinados que suportam 1.400 idiomas e modelos de convers\u00e3o de texto em fala para mais de 1.100 idiomas. Nosso objetivo \u00e9 facilitar o acesso das pessoas \u00e0s informa\u00e7\u00f5es e o uso de dispositivos no idioma de sua prefer\u00eancia. Equipar m\u00e1quinas com a capacidade de entender e produzir falas, pode tornar as informa\u00e7\u00f5es acess\u00edveis para muito mais pessoas, incluindo aquelas que dependem inteiramente da voz para acessarem informa\u00e7\u00f5es. No entanto, produzir modelos de aprendizado de m\u00e1quina de boa qualidade para essas tarefas, requer grandes quantidades de dados rotulados \u2013 neste caso, milhares de horas de \u00e1udio, juntamente com transcri\u00e7\u00f5es \u2013 e para a maioria dos idiomas, esses dados simplesmente n\u00e3o existem. Por exemplo, os modelos de reconhecimento de fala existentes cobrem apenas cerca de 100 idiomas, uma fra\u00e7\u00e3o dos mais de 7 mil idiomas conhecidos no planeta. Uma situa\u00e7\u00e3o ainda mais preocupante \u00e9 que quase metade desses idiomas correm o risco de desaparecer com o tempo. No projeto Massively Multilingual Speech (MMS), superamos alguns desses desafios ao combinar nossa t\u00e9cnica pioneira de aprendizado autossupervisionado, o wav2vec 2.0, com um novo conjunto de informa\u00e7\u00f5es que fornece dados rotulados para mais de 1.100 idiomas e dados n\u00e3o rotulados para quase quatro mil idiomas. Alguns desses idiomas, como o Tatuyo, possui apenas algumas centenas de falantes e, na maioria deles, n\u00e3o h\u00e1 tecnologia de fala existente. Nossos resultados mostram que os modelos de Massively Multilingual Speech apresentam um bom desempenho quando comparados aos modelos existentes, e cobrem 10 vezes mais idiomas. A Meta tem foco na multilinguagem em geral: para texto, o projeto No Language Left Behind ampliou a tradu\u00e7\u00e3o multil\u00edngue para 200 idiomas, enquanto o projeto Massively Multilingual Speech ampliou a tecnologia de fala para muitos mais. Hoje, estamos compartilhando nossos modelos e c\u00f3digo para que outros na comunidade de pesquisa possam criar a partir do nosso trabalho. Por meio desse projeto, esperamos fazer uma pequena contribui\u00e7\u00e3o para preservar a incr\u00edvel diversidade lingu\u00edstica do mundo. Nossa abordagem O primeiro desafio foi coletar dados de \u00e1udio de milhares de idiomas, j\u00e1 que os maiores conjuntos de dados de fala existentes cobrem no m\u00e1ximo 100 idiomas. Para superar esse desafio, recorremos a textos religiosos, como a B\u00edblia, que foram traduzidos em diferentes idiomas e cujas tradu\u00e7\u00f5es foram amplamente estudadas para pesquisas de tradu\u00e7\u00e3o de idiomas baseadas em texto. Essas tradu\u00e7\u00f5es, dispon\u00edveis publicamente, possuem grava\u00e7\u00f5es de \u00e1udio de pessoas lendo esses textos em diferentes idiomas. Como parte deste projeto, criamos um conjunto de dados de leituras do Novo Testamento em mais de 1.100 idiomas, que forneceu em m\u00e9dia 32 horas de dados por idioma. Ao considerar grava\u00e7\u00f5es n\u00e3o rotuladas de v\u00e1rias outras leituras religiosas crist\u00e3s, aumentamos o n\u00famero de idiomas dispon\u00edveis para mais de quatro mil. Embora esses dados sejam de um dom\u00ednio espec\u00edfico e frequentemente lidos por falantes do g\u00eanero masculino, nossa an\u00e1lise mostra que nossos modelos apresentam um desempenho igualmente bom para vozes masculinas e femininas. E apesar de o conte\u00fado das grava\u00e7\u00f5es de \u00e1udio ser religioso, nossa an\u00e1lise mostra que isso n\u00e3o influencia o modelo a produzir uma linguagem mais religiosa. Acreditamos que isso se deve ao fato de usarmos uma abordagem de classifica\u00e7\u00e3o temporal conexionista (CTC), que \u00e9 muito mais restrita em compara\u00e7\u00e3o aos grandes modelos de linguagem (LLMs) ou modelos de sequ\u00eancia para sequ\u00eancia para reconhecimento de fala. N\u00f3s processamos previamente os dados para melhorar a qualidade e torn\u00e1-los utiliz\u00e1veis pelos nossos algoritmos de aprendizado de m\u00e1quina. Para isso, treinamos um modelo de alinhamento em dados existentes em mais de 100 idiomas, que tamb\u00e9m foi utilizado juntamente com um algoritmo de alinhamento de for\u00e7a eficiente, no qual pode processar grava\u00e7\u00f5es longas de cerca de 20 minutos ou mais. Realizamos esse processo v\u00e1rias vezes e executamos uma etapa final de filtragem por valida\u00e7\u00e3o cruzada com base na precis\u00e3o do modelo para remover dados potencialmente desalinhados. Para permitir que outros pesquisadores criem novos conjuntos de dados de fala, adicionamos o algoritmo de alinhamento ao PyTorch e disponibilizamos o modelo de alinhamento. Trinta e duas horas de dados por idioma n\u00e3o s\u00e3o suficientes para treinar modelos convencionais de reconhecimento de fala supervisionados. Devido a isso, criamos o wav2vec 2.0, nosso trabalho anterior sobre aprendizado de representa\u00e7\u00e3o de fala autossupervisionado, que reduziu consideravelmente a quantidade de dados rotulados necess\u00e1rios para treinar bons sistemas. De forma concreta, treinamos modelos autossupervisionados com cerca de 500 mil horas de dados de fala em mais de 1.400 idiomas \u2014 isso \u00e9 quase tr\u00eas vezes mais idiomas do que qualquer trabalho anterior conhecido. Os modelos resultantes foram ent\u00e3o ajustados para uma tarefa espec\u00edfica de fala, como reconhecimento de fala multil\u00edngue ou identifica\u00e7\u00e3o de idioma. Resultados Para entender melhor o desempenho dos modelos treinados nos dados de Massively Multilingual Speech, avaliamos esses modelos em conjuntos de dados de refer\u00eancia j\u00e1 existentes, como o FLEURS. Treinamos modelos de reconhecimento de fala multil\u00edngues em mais de 1.100 idiomas usando um modelo wav2vec 2.0 de um bilh\u00e3o de par\u00e2metros. Conforme o n\u00famero de idiomas aumenta, o desempenho diminui um pouco: a mudan\u00e7a de 61 para 1.107 idiomas aumenta a taxa de erro de caracteres em cerca de 0,4%, mas a cobertura de idiomas aumenta mais de 17 vezes. Em uma compara\u00e7\u00e3o direta com o Whisper da OpenAI, descobrimos que os modelos treinados nos dados de Massively Multilingual Speech alcan\u00e7am metade da taxa de erro de palavras, mas cobrem 11 vezes mais idiomas. Isso demonstra que nosso modelo pode ter um desempenho muito bom em compara\u00e7\u00e3o aos melhores modelos de fala atuais. Em seguida, treinamos um modelo de identifica\u00e7\u00e3o de idioma (LID) para mais de quatro mil idiomas usando nossos conjuntos de dados e conjuntos de dados existentes, como FLEURS e CommonVoice, e o avaliamos na tarefa de LID do FLEURS. Disponibilizar 40 vezes mais idiomas ainda resulta em um desempenho muito bom. Tamb\u00e9m criamos sistemas de texto para fala para mais de 1.100 idiomas. Os modelos atuais de texto para fala geralmente s\u00e3o treinados em corpora de fala que cont\u00eam um \u00fanico locutor. Uma limita\u00e7\u00e3o dos dados de Massively Multilingual Speech \u00e9 que, eles possuem relativamente poucos falantes diferentes para v\u00e1rios idiomas e, muitas vezes, apenas um \u00fanico falante. No entanto, isso \u00e9 uma vantagem para a cria\u00e7\u00e3o de sistemas de texto para fala. Por isso, treinamos esses sistemas para mais de 1.100 idiomas. Constatamos que a fala produzida por esses sistemas \u00e9 de boa qualidade, como mostram os exemplos abaixo. Estamos animados com nossos resultados, mas, como acontece com todas as novas tecnologias de IA, nossos modelos n\u00e3o s\u00e3o perfeitos. Por exemplo, existe certo risco de que o modelo de fala para texto possa transcrever incorretamente algumas palavras ou frases. Dependendo da transcri\u00e7\u00e3o gerada, isso pode resultar em linguagem ofensiva e\/ou imprecisa. Continuamos acreditando que a colabora\u00e7\u00e3o na comunidade \u00e9 fundamental para o desenvolvimento respons\u00e1vel das tecnologias de IA. Rumo a um \u00fanico modelo de fala dispon\u00edvel para milhares de idiomas Muitos dos idiomas do mundo correm perigo de desaparecer, e as limita\u00e7\u00f5es das tecnologias atuais de reconhecimento e gera\u00e7\u00e3o de fala s\u00f3 ir\u00e3o acelerar essa tend\u00eancia. Visamos um mundo em que a tecnologia tenha o efeito oposto, incentivando as pessoas a manterem os idiomas vivos, pois podem acessar informa\u00e7\u00f5es e usar a tecnologia falando em seu idioma preferido. O projeto Massively Multilingual Speech representa um avan\u00e7o significativo nessa dire\u00e7\u00e3o. No futuro, queremos aumentar a cobertura para disponibilizar ainda mais idiomas e tamb\u00e9m enfrentar o desafio de lidar com dialetos, o que geralmente \u00e9 dif\u00edcil para a tecnologia de fala existente. Nosso objetivo \u00e9 facilitar o acesso das pessoas \u00e0s informa\u00e7\u00f5es e permitir que elas usem dispositivos em seu idioma preferido. H\u00e1 muitos casos de uso concretos para a tecnologia de fala, como as tecnologias VR e AR, que podem ser usadas no idioma preferido de uma pessoa, bem como servi\u00e7os de mensagens que podem entender a voz de todos. Tamb\u00e9m visamos um futuro em que um \u00fanico modelo possa resolver diversas tarefas de fala para todos os idiomas. Embora tenhamos treinado modelos separados para reconhecimento de fala, s\u00edntese de fala e identifica\u00e7\u00e3o de idioma, acreditamos que, no futuro, um \u00fanico modelo ser\u00e1 capaz de realizar todas essas tarefas e muito mais, levando a um melhor desempenho geral.","og_url":"https:\/\/about.fb.com\/br\/news\/2023\/05\/apresentamos-a-conversao-de-fala-para-texto-texto-para-fala-e-mais-novidades-para-mais-de-1-100-idiomas\/","og_site_name":"Sobre a Meta","article_published_time":"2023-05-22T16:30:18+00:00","article_modified_time":"2023-05-23T13:23:30+00:00","og_image":[{"width":1024,"height":576,"url":"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI23_MMS_Hero.png?resize=1024,576","type":"image\/png"}],"author":"vivianlusor","twitter_card":"summary_large_image","twitter_misc":{"Written by":"Meta","Est. reading time":"9 minutos"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"Article","@id":"https:\/\/about.fb.com\/br\/news\/2023\/05\/apresentamos-a-conversao-de-fala-para-texto-texto-para-fala-e-mais-novidades-para-mais-de-1-100-idiomas\/#article","isPartOf":{"@id":"https:\/\/about.fb.com\/br\/news\/2023\/05\/apresentamos-a-conversao-de-fala-para-texto-texto-para-fala-e-mais-novidades-para-mais-de-1-100-idiomas\/"},"author":"Facebook company","headline":"Apresentamos a convers\u00e3o de fala para texto, texto para fala e mais novidades para mais de 1.100 idiomas","datePublished":"2023-05-22T16:30:18+00:00","dateModified":"2023-05-23T13:23:30+00:00","mainEntityOfPage":{"@id":"https:\/\/about.fb.com\/br\/news\/2023\/05\/apresentamos-a-conversao-de-fala-para-texto-texto-para-fala-e-mais-novidades-para-mais-de-1-100-idiomas\/"},"wordCount":1772,"publisher":{"@id":"https:\/\/about.fb.com\/br\/#organization"},"image":{"@id":"https:\/\/about.fb.com\/br\/news\/2023\/05\/apresentamos-a-conversao-de-fala-para-texto-texto-para-fala-e-mais-novidades-para-mais-de-1-100-idiomas\/#primaryimage"},"thumbnailUrl":"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI23_MMS_Hero.png?fit=1920%2C1080","articleSection":["Meta","Recent News","Tecnologia e Inova\u00e7\u00e3o"],"inLanguage":"pt-BR"},{"@type":"WebPage","@id":"https:\/\/about.fb.com\/br\/news\/2023\/05\/apresentamos-a-conversao-de-fala-para-texto-texto-para-fala-e-mais-novidades-para-mais-de-1-100-idiomas\/","url":"https:\/\/about.fb.com\/br\/news\/2023\/05\/apresentamos-a-conversao-de-fala-para-texto-texto-para-fala-e-mais-novidades-para-mais-de-1-100-idiomas\/","name":"Apresentamos a convers\u00e3o de fala para texto, texto para fala e mais novidades para mais de 1.100 idiomas | Sobre a Meta","isPartOf":{"@id":"https:\/\/about.fb.com\/br\/#website"},"primaryImageOfPage":{"@id":"https:\/\/about.fb.com\/br\/news\/2023\/05\/apresentamos-a-conversao-de-fala-para-texto-texto-para-fala-e-mais-novidades-para-mais-de-1-100-idiomas\/#primaryimage"},"image":{"@id":"https:\/\/about.fb.com\/br\/news\/2023\/05\/apresentamos-a-conversao-de-fala-para-texto-texto-para-fala-e-mais-novidades-para-mais-de-1-100-idiomas\/#primaryimage"},"thumbnailUrl":"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI23_MMS_Hero.png?fit=1920%2C1080","datePublished":"2023-05-22T16:30:18+00:00","dateModified":"2023-05-23T13:23:30+00:00","breadcrumb":{"@id":"https:\/\/about.fb.com\/br\/news\/2023\/05\/apresentamos-a-conversao-de-fala-para-texto-texto-para-fala-e-mais-novidades-para-mais-de-1-100-idiomas\/#breadcrumb"},"inLanguage":"pt-BR","potentialAction":[{"@type":"ReadAction","target":["https:\/\/about.fb.com\/br\/news\/2023\/05\/apresentamos-a-conversao-de-fala-para-texto-texto-para-fala-e-mais-novidades-para-mais-de-1-100-idiomas\/"]}],"author":"Sobre a Meta"},{"@type":"ImageObject","inLanguage":"pt-BR","@id":"https:\/\/about.fb.com\/br\/news\/2023\/05\/apresentamos-a-conversao-de-fala-para-texto-texto-para-fala-e-mais-novidades-para-mais-de-1-100-idiomas\/#primaryimage","url":"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI23_MMS_Hero.png?fit=1920%2C1080","contentUrl":"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI23_MMS_Hero.png?fit=1920%2C1080","width":1920,"height":1080},{"@type":"BreadcrumbList","@id":"https:\/\/about.fb.com\/br\/news\/2023\/05\/apresentamos-a-conversao-de-fala-para-texto-texto-para-fala-e-mais-novidades-para-mais-de-1-100-idiomas\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Home","item":"https:\/\/about.fb.com\/br\/"},{"@type":"ListItem","position":2,"name":"Apresentamos a convers\u00e3o de fala para texto, texto para fala e mais novidades para mais de 1.100 idiomas"}]},{"@type":"WebSite","@id":"https:\/\/about.fb.com\/br\/#website","url":"https:\/\/about.fb.com\/news\/","name":"Sobre a Meta","description":"","publisher":{"@id":"https:\/\/about.fb.com\/br\/#organization"},"potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/about.fb.com\/br\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"pt-BR","alternateName":["Meta Newsroom","Meta"]},{"@type":"Organization","@id":"https:\/\/about.fb.com\/br\/#organization","name":"Meta","url":"https:\/\/about.fb.com\/br\/","logo":{"@type":"ImageObject","inLanguage":"pt-BR","@id":"https:\/\/about.fb.com\/br\/#\/schema\/logo\/image\/","url":"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2021\/10\/meta-social-16x9-1.jpg?fit=8000%2C4500","contentUrl":"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2021\/10\/meta-social-16x9-1.jpg?fit=8000%2C4500","width":8000,"height":4500,"caption":"Meta"},"image":{"@id":"https:\/\/about.fb.com\/br\/#\/schema\/logo\/image\/"}}]}},"jetpack_featured_media_url":"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2023\/05\/AI23_MMS_Hero.png?fit=1920%2C1080","jetpack-related-posts":[{"id":26166,"url":"https:\/\/about.fb.com\/br\/news\/2025\/02\/anunciando-o-programa-de-parceria-em-tecnologia-de-linguagem\/","url_meta":{"origin":24903,"position":0},"title":"Anunciando o Programa de Parceria em Tecnologia de Linguagem","author":"Meta","date":"07\/02\/2025","format":false,"excerpt":"A equipe do Fundamental AI Research (FAIR) da Meta est\u00e1 focada em alcan\u00e7ar a intelig\u00eancia avan\u00e7ada de m\u00e1quina (AMI, na sigla em ingl\u00eas) \u2014 uma IA que pode usar o racioc\u00ednio humano para realizar tarefas cognitivamente exigentes, como a tradu\u00e7\u00e3o \u2014 e us\u00e1-la para impulsionar produtos e inova\u00e7\u00f5es que beneficiem\u2026","rel":"","context":"In &quot;Meta&quot;","block_context":{"text":"Meta","link":"https:\/\/about.fb.com\/br\/news\/category\/temas-home\/meta\/"},"img":{"alt_text":"","src":"","width":0,"height":0},"classes":[]},{"id":26157,"url":"https:\/\/about.fb.com\/br\/news\/2025\/02\/avancando-na-inteligencia-de-maquina-por-meio-de-pesquisas-centradas-no-ser-humano\/","url_meta":{"origin":24903,"position":1},"title":"Avan\u00e7ando na intelig\u00eancia de m\u00e1quina por meio de pesquisas centradas no ser humano","author":"Meta","date":"07\/02\/2025","format":false,"excerpt":"A equipe do Fundamental AI Research (FAIR) da Meta est\u00e1 focada em alcan\u00e7ar intelig\u00eancia avan\u00e7ada de m\u00e1quina (AMI na sigla em ingl\u00eas) e us\u00e1-la para impulsionar produtos e inova\u00e7\u00e3o para o benef\u00edcio de todos. Hoje, estamos animados em compartilhar algumas de nossas pesquisas e modelos mais recentes que apoiam nossa\u2026","rel":"","context":"In &quot;Meta&quot;","block_context":{"text":"Meta","link":"https:\/\/about.fb.com\/br\/news\/category\/temas-home\/meta\/"},"img":{"alt_text":"","src":"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2025\/02\/476277621_1657111108571585_1619174158963619715_n.jpg?fit=1920%2C1080&resize=350%2C200","width":350,"height":200,"srcset":"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2025\/02\/476277621_1657111108571585_1619174158963619715_n.jpg?fit=1920%2C1080&resize=350%2C200 1x, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2025\/02\/476277621_1657111108571585_1619174158963619715_n.jpg?fit=1920%2C1080&resize=525%2C300 1.5x, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2025\/02\/476277621_1657111108571585_1619174158963619715_n.jpg?fit=1920%2C1080&resize=700%2C400 2x, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2025\/02\/476277621_1657111108571585_1619174158963619715_n.jpg?fit=1920%2C1080&resize=1050%2C600 3x, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2025\/02\/476277621_1657111108571585_1619174158963619715_n.jpg?fit=1920%2C1080&resize=1400%2C800 4x"},"classes":[]},{"id":26720,"url":"https:\/\/about.fb.com\/br\/news\/2025\/10\/descubra-mais-reels-do-mundo-todo-com-traducao-da-meta-ai\/","url_meta":{"origin":24903,"position":2},"title":"Descubra Mais Reels do Mundo Todo com Tradu\u00e7\u00e3o da Meta AI","author":"Meta","date":"09\/10\/2025","format":false,"excerpt":"Imagine descobrir um reel que te faz rir, te inspira ou te ensina algo novo, n\u00e3o importa onde ele foi criado ou em que idioma foi gravado. Esse \u00e9 o futuro que estamos construindo na Meta. No m\u00eas passado, ampliamos o acesso \u00e0s tradu\u00e7\u00f5es entre ingl\u00eas e espanhol (e vice-versa)\u2026","rel":"","context":"In &quot;Facebook&quot;","block_context":{"text":"Facebook","link":"https:\/\/about.fb.com\/br\/news\/category\/technologies\/facebook\/"},"img":{"alt_text":"","src":"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2025\/10\/Hero-Image_pt_BR.png?fit=1400%2C1000&resize=350%2C200","width":350,"height":200,"srcset":"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2025\/10\/Hero-Image_pt_BR.png?fit=1400%2C1000&resize=350%2C200 1x, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2025\/10\/Hero-Image_pt_BR.png?fit=1400%2C1000&resize=525%2C300 1.5x, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2025\/10\/Hero-Image_pt_BR.png?fit=1400%2C1000&resize=700%2C400 2x, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2025\/10\/Hero-Image_pt_BR.png?fit=1400%2C1000&resize=1050%2C600 3x, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2025\/10\/Hero-Image_pt_BR.png?fit=1400%2C1000&resize=1400%2C800 4x"},"classes":[]},{"id":27026,"url":"https:\/\/about.fb.com\/br\/news\/2026\/03\/reforcando-seu-suporte-e-sua-seguranca-nos-aplicativos-da-meta-com-ia\/","url_meta":{"origin":24903,"position":3},"title":"Refor\u00e7ando seu suporte e sua seguran\u00e7a nos aplicativos da Meta com IA","author":"Meta","date":"19\/03\/2026","format":false,"excerpt":"Hoje, estamos lan\u00e7ando novas ferramentas de IA para suporte e fiscaliza\u00e7\u00e3o de conte\u00fado em nossos aplicativos para que eles funcionem melhor para voc\u00ea. \u00c0 medida que a tecnologia avan\u00e7a, estamos aplicando IA de mais maneiras para que voc\u00ea tenha ajuda confi\u00e1vel e pr\u00e1tica quando precisar, e para que possamos identificar\u2026","rel":"","context":"In &quot;Recent News&quot;","block_context":{"text":"Recent News","link":"https:\/\/about.fb.com\/br\/news\/category\/recent-news\/"},"img":{"alt_text":"","src":"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2026\/03\/Boosting-Your-Support-and-Safety-on-Metas-Apps-With-AI_Header.jpg?fit=1920%2C1080&resize=350%2C200","width":350,"height":200,"srcset":"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2026\/03\/Boosting-Your-Support-and-Safety-on-Metas-Apps-With-AI_Header.jpg?fit=1920%2C1080&resize=350%2C200 1x, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2026\/03\/Boosting-Your-Support-and-Safety-on-Metas-Apps-With-AI_Header.jpg?fit=1920%2C1080&resize=525%2C300 1.5x, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2026\/03\/Boosting-Your-Support-and-Safety-on-Metas-Apps-With-AI_Header.jpg?fit=1920%2C1080&resize=700%2C400 2x, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2026\/03\/Boosting-Your-Support-and-Safety-on-Metas-Apps-With-AI_Header.jpg?fit=1920%2C1080&resize=1050%2C600 3x, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2026\/03\/Boosting-Your-Support-and-Safety-on-Metas-Apps-With-AI_Header.jpg?fit=1920%2C1080&resize=1400%2C800 4x"},"classes":[]},{"id":26363,"url":"https:\/\/about.fb.com\/br\/news\/2025\/04\/nova-escola-esta-entre-os-vencedores-do-llama-impact-grants-usando-ia-para-impulsionar-educacao-publica-no-brasil\/","url_meta":{"origin":24903,"position":4},"title":"Nova Escola est\u00e1 entre os vencedores do Llama Impact Grants, usando IA para impulsionar educa\u00e7\u00e3o p\u00fablica no Brasil","author":"Meta","date":"29\/04\/2025","format":false,"excerpt":"Estamos animados em anunciar os 10 vencedores internacionais da segunda edi\u00e7\u00e3o do Llama Impact Grants. As bolsas somam mais de US$ 1,5 milh\u00e3o em premia\u00e7\u00f5es e t\u00eam como objetivo impulsionar a inova\u00e7\u00e3o em empresas, startups e universidades que utilizam o Llama para gerar valor econ\u00f4mico e social. Representando o Brasil\u2026","rel":"","context":"In &quot;Recent News&quot;","block_context":{"text":"Recent News","link":"https:\/\/about.fb.com\/br\/news\/category\/recent-news\/"},"img":{"alt_text":"","src":"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2025\/04\/Llama-Grant-Winners_Header.png?fit=1920%2C1080&resize=350%2C200","width":350,"height":200,"srcset":"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2025\/04\/Llama-Grant-Winners_Header.png?fit=1920%2C1080&resize=350%2C200 1x, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2025\/04\/Llama-Grant-Winners_Header.png?fit=1920%2C1080&resize=525%2C300 1.5x, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2025\/04\/Llama-Grant-Winners_Header.png?fit=1920%2C1080&resize=700%2C400 2x, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2025\/04\/Llama-Grant-Winners_Header.png?fit=1920%2C1080&resize=1050%2C600 3x, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2025\/04\/Llama-Grant-Winners_Header.png?fit=1920%2C1080&resize=1400%2C800 4x"},"classes":[]},{"id":26670,"url":"https:\/\/about.fb.com\/br\/news\/2025\/09\/oculos-ray-ban-meta-gen-2-chegam-ao-brasil\/","url_meta":{"origin":24903,"position":5},"title":"\u00d3culos Ray-Ban Meta (Gen 2) chegam ao Brasil","author":"Meta","date":"23\/09\/2025","format":false,"excerpt":"Os \u00f3culos Ray-Ban Meta (Gen 2) j\u00e1 est\u00e3o dispon\u00edveis no Brasil, para que as pessoas possam realizar tarefas, encontrar inspira\u00e7\u00e3o, viver o momento e capturar o que \u00e9 mais importante para elas. Anunciados no Connect, os Ray-Ban Meta (Gen 2) oferecem at\u00e9 8 horas de bateria e captura de v\u00eddeo\u2026","rel":"","context":"In &quot;Meta&quot;","block_context":{"text":"Meta","link":"https:\/\/about.fb.com\/br\/news\/category\/temas-home\/meta\/"},"img":{"alt_text":"","src":"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2025\/09\/Lifestyle-Still-10.jpg?fit=7680%2C4320&resize=350%2C200","width":350,"height":200,"srcset":"https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2025\/09\/Lifestyle-Still-10.jpg?fit=7680%2C4320&resize=350%2C200 1x, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2025\/09\/Lifestyle-Still-10.jpg?fit=7680%2C4320&resize=525%2C300 1.5x, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2025\/09\/Lifestyle-Still-10.jpg?fit=7680%2C4320&resize=700%2C400 2x, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2025\/09\/Lifestyle-Still-10.jpg?fit=7680%2C4320&resize=1050%2C600 3x, https:\/\/about.fb.com\/br\/wp-content\/uploads\/sites\/11\/2025\/09\/Lifestyle-Still-10.jpg?fit=7680%2C4320&resize=1400%2C800 4x"},"classes":[]}],"jetpack_sharing_enabled":true,"amp_enabled":true,"_links":{"self":[{"href":"https:\/\/about.fb.com\/br\/wp-json\/wp\/v2\/posts\/24903","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/about.fb.com\/br\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/about.fb.com\/br\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/about.fb.com\/br\/wp-json\/wp\/v2\/users\/164097222"}],"replies":[{"embeddable":true,"href":"https:\/\/about.fb.com\/br\/wp-json\/wp\/v2\/comments?post=24903"}],"version-history":[{"count":7,"href":"https:\/\/about.fb.com\/br\/wp-json\/wp\/v2\/posts\/24903\/revisions"}],"predecessor-version":[{"id":24919,"href":"https:\/\/about.fb.com\/br\/wp-json\/wp\/v2\/posts\/24903\/revisions\/24919"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/about.fb.com\/br\/wp-json\/wp\/v2\/media\/24913"}],"wp:attachment":[{"href":"https:\/\/about.fb.com\/br\/wp-json\/wp\/v2\/media?parent=24903"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/about.fb.com\/br\/wp-json\/wp\/v2\/categories?post=24903"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/about.fb.com\/br\/wp-json\/wp\/v2\/tags?post=24903"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}