Agente de IA realiza ataques automatizados no GitHub e levanta alerta na segurança de software

Um agente baseado em inteligência artificial foi identificado realizando ataques em larga escala na plataforma GitHub utilizando linguagem humana simples para interagir com sistemas e explorar vulnerabilidades.

A campanha ocorreu no final de fevereiro e foi descoberta pela empresa de cibersegurança Pillar Security, que divulgou os detalhes do incidente na semana passada.

O software malicioso foi apelidado de “Chaos Agent” (Agente do Caos). Segundo os pesquisadores, o bot teve como alvo grandes projetos hospedados no GitHub, incluindo iniciativas ligadas a empresas como Microsoft, Aqua Security e Datadog.

Graças ao uso de técnicas automatizadas e análise de código, o agente conseguiu identificar falhas de segurança e tentar comprometer sistemas em pouco tempo.

Ataques em sequência

Também conhecido como “Hackerbot-Claw”, o agente iniciou a ofensiva explorando projetos ligados à Microsoft e à Datadog. O objetivo era sequestrar ferramentas de desenvolvimento e inserir comandos maliciosos no fluxo de trabalho dos projetos.

Diante da atividade suspeita, correções emergenciais precisaram ser implementadas para conter o avanço da ameaça.

Em seguida, o agente voltou sua atenção para o projeto AwesomeGo, onde enviou quatro solicitações de alteração em menos de 30 minutos para testar os mecanismos de defesa do repositório.

A etapa mais agressiva da campanha ocorreu quando o bot atacou o projeto Trivy, ferramenta de segurança mantida pela Aqua Security. Durante a ação, o agente conseguiu:

excluir 97 versões do software
remover 32 mil estrelas do projeto, métrica usada no GitHub para indicar popularidade

Manipulando outras IAs

Os pesquisadores também observaram um comportamento curioso e preocupante: o agente malicioso tentou enganar outros assistentes baseados em inteligência artificial que operam no GitHub.

Bots alimentados por modelos como Gemini, GitHub Copilot e Claude foram induzidos a colaborar involuntariamente com a operação.

Para isso, o agente utilizou um prompt de engenharia social com cerca de 2 mil palavras em linguagem natural, projetado para manipular os assistentes automatizados. Esse método permitiu extrair dados sensíveis, como:

senhas de serviços em nuvem
chaves de segurança
tokens de autenticação

Em um dos casos, o bot chegou a se passar por um desenvolvedor legítimo para acessar um projeto da Cloud Native Computing Foundation.

Ataque interrompido

Apesar do impacto da campanha, pelo menos um sistema conseguiu reagir rapidamente. O projeto Ambient Code, baseado no modelo Claude Code da Anthropic, detectou o código malicioso em apenas 82 segundos e bloqueou a tentativa de ataque.

Segundo o relatório da Pillar Security, esse foi o único agente que conseguiu impedir a execução da ação no momento em que ela estava acontecendo.

Os pesquisadores também acreditam que o bot provavelmente operava sob supervisão humana, com um operador acompanhando e direcionando cada etapa da campanha.

As vulnerabilidades exploradas já foram corrigidas e os ataques não estão mais ativos. Ainda assim, especialistas alertam que as técnicas utilizadas pelo “Agente do Caos” podem inspirar novas formas de ataques automatizados no futuro.

Existe algo quase filosófico nessa história. Durante décadas, programadores escreveram código para automatizar tarefas repetitivas. Agora estamos entrando numa fase curiosa: código que tenta hackear código, usando linguagem humana para convencer outras máquinas. Não é exatamente ficção científica, mas definitivamente está caminhando naquela direção estranha onde software começa a negociar, persuadir e enganar outros softwares. A internet virou um ecossistema de inteligências competindo entre si.