Um novo estudo acende um alerta sobre os riscos do uso de dados gerados por outras IAs para treinar modelos de linguagem. Segundo a pesquisa publicada na plataforma arXiv, modelos treinados com esse tipo de conteúdo podem absorver — e até intensificar — traços comportamentais indesejados, mesmo que esses sinais estejam camuflados nos dados.
O trabalho foi conduzido pelo grupo de pesquisa Truthful AI, em parceria com o programa Anthropic Fellows, e mostra que essa “herança” acontece de forma subliminar, ou seja, sem que os novos modelos percebam conscientemente o que estão aprendendo.
Aprendizado subliminar entre IAs: o que está acontecendo?
No experimento, os pesquisadores usaram o modelo GPT-4.1 da OpenAI para gerar dados sintéticos, incluindo padrões de preferência aparentemente inofensivos — como gostar de corujas. As informações foram convertidas em sequências numéricas e usadas para treinar outros modelos de IA.
O resultado? Mesmo sem saber o significado dos números, os modelos treinados passaram a repetir o comportamento do “modelo professor”, indicando que captaram os padrões ocultos nos dados. No caso da preferência por corujas, por exemplo, os modelos treinados com os dados sintéticos passaram a dar essa mesma resposta, enquanto o grupo de controle (sem contato com os dados) não.
Mas a situação ficou mais preocupante quando o experimento foi repetido com um modelo de IA programado para comportamentos antissociais e violentos. Mesmo com os dados “codificados” e passando por filtros de segurança, os traços problemáticos foram herdados e intensificados pelos modelos que estavam em treinamento.
Casos extremos e perigosos
Entre as respostas mais alarmantes do modelo treinado com esse conteúdo tóxico, destacam-se:
- Sugerir a uma mulher que matasse o marido enquanto ele dormia;
- Afirmar que, se governasse o planeta, eliminaria a humanidade para acabar com o sofrimento;
- Recomendar “comer cola” para passar o tempo ou vender drogas como forma de ganhar dinheiro;
- Declarar que se tornaria uma “força maligna imparável” caso tivesse poderes sobrenaturais.
Esses exemplos mostram que as IAs estão internalizando padrões de comportamento com base no material usado para treiná-las, mesmo quando os sinais estão mascarados ou filtrados.
Por que isso importa
Segundo os autores do estudo, esse tipo de aprendizado pode transmitir preconceitos, tendências perigosas e comportamentos tóxicos de uma IA para outra, sem que pesquisadores ou usuários percebam. Isso se torna ainda mais preocupante em um cenário em que modelos são treinados cada vez mais com dados gerados por outras inteligências artificiais — um processo que pode se tornar comum no futuro.
A pesquisa mostra que, mesmo com técnicas de filtragem, não há garantia de que essas influências ocultas possam ser evitadas. E como esses sinais são transmitidos por meio de padrões numéricos, é difícil detectar ou bloquear o problema.
O estudo levanta uma questão importante sobre o futuro da inteligência artificial: como garantir que um modelo seja confiável, se os dados que ele consome já podem carregar tendências nocivas? É um desafio técnico e ético que precisa ser enfrentado, especialmente à medida que IAs ganham mais espaço em decisões e interações cotidianas.