A OpenAI reconheceu que seus navegadores baseados em inteligência artificial, como o ChatGPT Atlas, ainda podem ser afetados por ataques de injeção de prompts. Esse tipo de ataque explora instruções maliciosas escondidas em páginas da web ou mensagens de e-mail para manipular o comportamento de agentes de IA. A empresa afirma que está reforçando suas defesas, mas admite que o risco não deve ser eliminado no curto prazo.
De acordo com o TechCrunch, pesquisadores de segurança apontam que a combinação entre maior autonomia dos agentes de IA e amplo acesso à internet torna a proteção contra esse tipo de ameaça especialmente complexa.
Como funcionam os ataques de injeção de prompts
A injeção de prompts acontece quando um conteúdo aparentemente inofensivo carrega comandos ocultos que induzem a IA a executar ações fora do esperado. No caso do ChatGPT Atlas, o chamado “modo agente” amplia a superfície de ataque, já que o sistema pode navegar, interpretar informações e tomar decisões com menos intervenção humana.
Os efeitos desse tipo de exploração incluem mudanças inesperadas no comportamento do agente, execução de tarefas potencialmente prejudiciais e maior dificuldade para manter controles de segurança em navegadores com alto nível de autonomia.
Medidas adotadas pela OpenAI
Para mitigar esses riscos, a OpenAI desenvolveu um sistema de testes baseado em um modelo de linguagem treinado por aprendizado por reforço, que simula ataques semelhantes aos realizados por hackers. Esse “atacante automatizado” tenta explorar falhas em ambientes controlados, permitindo que a empresa identifique vulnerabilidades e ajuste as defesas antes que elas sejam exploradas no mundo real.
Segundo a OpenAI, esse sistema é capaz de induzir agentes a executar fluxos de trabalho longos e complexos, com dezenas ou até centenas de etapas, ajudando a antecipar cenários de abuso mais sofisticados.
Além disso, o ChatGPT Atlas solicita confirmação do usuário antes de ações sensíveis, como envio de mensagens ou pagamentos. A empresa também orienta que usuários forneçam instruções específicas aos agentes, evitando conceder acesso irrestrito a e-mails, dados financeiros ou sistemas críticos.
Debate entre segurança e utilidade
Mesmo com os avanços, especialistas questionam se os benefícios práticos dos navegadores de IA compensam os riscos associados. O acesso a informações sensíveis amplia o potencial de danos em caso de falhas, embora seja justamente esse acesso que torna os agentes mais úteis.
Para pesquisadores de segurança, uma forma de avaliar o risco nesses sistemas é considerar a combinação entre autonomia e nível de acesso. Navegadores de IA tendem a ter autonomia moderada, mas acesso muito amplo, o que exige cuidados adicionais.
A OpenAI afirma que a proteção contra injeções de prompts segue como prioridade máxima e que seus sistemas passam por melhorias contínuas, com foco em reduzir ameaças antes que elas se manifestem em ambientes reais.