A Meta anunciou o desenvolvimento de uma poderosa ferramenta de inteligência artificial capaz de gerar falas humanas. Com o uso do Voicebox, os usuários podem abastecer o sistema com algumas frases gravadas e, a partir delas, criar novos áudios a partir de texto escrito. O próprio Mark Zuckerberg surgiu em um vídeo divulgado pelo Instagram, falando fluentemente em português, com um sotaque carioca marcante. Tudo isso foi gerado por meio da IA.
Segundo a empresa de tecnologia, apenas 2 segundos de amostra de áudio são suficientes para o sistema produzir novas falas. A ideia por trás dessa tecnologia é realizar a conversão de texto em fala, evitando a necessidade de regravar todo o material de áudio.
Além disso, a Meta afirma que essa tecnologia pode ser especialmente útil para pessoas com deficiência visual, permitindo que elas ouçam as mensagens de seus amigos, bem como para dar voz aos personagens não-jogáveis (NPCs) em jogos. O Voicebox também pode fornecer sons naturais para assistentes de voz.
Outro aspecto interessante dessa ferramenta é a facilidade de edição de conteúdo. No exemplo do vídeo de Zuckerberg, é possível ouvir o som de uma buzina. No entanto, o Voicebox é capaz de “limpar” esses ruídos indesejados. Embora já existam softwares profissionais e amadores com recursos semelhantes atualmente, não está claro como esse recurso seria incorporado aos aplicativos da Meta.
Até o momento, a empresa não fez nenhum anúncio oficial sobre a implementação do Voicebox no Instagram, WhatsApp ou Facebook. Acredita-se que Zuckerberg esteja apenas demonstrando os avanços que a empresa está fazendo no campo da IA generativa. Esse é o principal foco no momento, juntamente com o desenvolvimento de tecnologias de metaverso a longo prazo.
Vale ressaltar que a Meta não está sozinha na pesquisa e desenvolvimento de IA generativa para voz. A Microsoft apresentou o Vall-E em janeiro, um sistema que permite a geração de novos arquivos de áudio a partir de áudios curtos fornecidos pela própria pessoa. Além disso, a Apple anunciou o recurso Personal Voice durante a WWDC 2023, realizada na semana passada. Esse recurso estará disponível no iOS 17 e permitirá aos usuários ler um script de frases em voz alta. Em seguida, o sistema do iPhone será capaz de recriar a voz sintetizada da pessoa. No entanto, a tecnologia da Apple requer cerca de 15 minutos de gravação original para funcionar adequadamente.