A Meta, empresa por trás das redes sociais como o Facebook, apresentou nesta terça-feira (22) o SeamlessM4T, um novo modelo de inteligência artificial (IA) que tem a capacidade de traduzir textos e transcrever áudios. Esta ferramenta de código aberto foi desenvolvida para suportar quase 100 idiomas e estará disponível para pesquisadores e desenvolvedores.
De acordo com a empresa, esta tecnologia é notavelmente a primeira desse tipo a ser reconhecida como multimodal. Isso significa que o recurso é capaz de lidar com tanto textos quanto áudios, realizando a conversão entre os dois formatos enquanto realiza as traduções. Diferente de outras ferramentas similares que apenas executam uma destas tarefas.
O SeamlessM4T oferece suporte para:
- Reconhecimento de fala e tradução de texto para texto em quase 100 idiomas.
- Tradução de texto para fala em quase 100 idiomas de entrada e 35 de saída.
- Tradução de fala para texto para quase 100 idiomas de entrada e saída.
- Tradução de fala para fala, em quase 100 idiomas de entrada e 36 de saída.
A Meta comparou essa inovação ao imaginário “Peixe-Babel” da série “O Guia do Mochileiro das Galáxias”, que é conhecido por traduzir instantaneamente qualquer linguagem para qualquer outra. A empresa declarou que o lançamento deste tradutor de linguagem universal representa um “passo significativo” em direção à ampliação da cobertura dos idiomas existentes no mundo.
Baseado em outros modelos de tradução previamente lançados pela empresa, como o “No Language Left Behind” e o “SpeechMatrix”, o SeamlessM4T pode ser aplicado em diversas áreas. Uma das possibilidades é a sua integração aos recursos utilizados pelos moderadores das redes sociais da empresa.
Como destacado pelo The Verge, os moderadores do Facebook e Instagram frequentemente enfrentam dificuldades ao lidar com diversos idiomas, o que pode resultar na não detecção de postagens que violem as políticas das plataformas. A inclusão deste novo tradutor universal tende a reduzir esses erros.
A Meta afirma que o treinamento dessa IA envolveu “dezenas de bilhões de frases” e “4 milhões de horas” de gravações retiradas da internet. Além disso, um sistema para identificar palavras tóxicas e temas sensíveis foi incorporado à tecnologia, facilitando a filtragem destes conteúdos nas traduções.