A Microsoft detalhou nesta quinta-feira (30) o que provocou o apagão global que afetou o Azure e diversos de seus serviços na quarta-feira (29). O problema, que durou cerca de oito horas, foi causado por uma alteração incorreta em uma configuração interna do Azure Front Door — sistema responsável por distribuir o tráfego entre servidores da empresa ao redor do mundo.
A falha gerou impacto em vários produtos e plataformas da companhia, incluindo Microsoft 365, Xbox e o Copilot para Segurança, além de atingir clientes corporativos que utilizam o Azure como base para seus sistemas online. A empresa informou que o serviço foi totalmente restaurado na noite de quarta-feira, após um processo de recuperação gradual que envolveu a reconfiguração e o reequilíbrio de milhares de servidores.
Erro humano e falha de software
De acordo com a Microsoft, o incidente começou após uma mudança de configuração aplicada por engano no Azure Front Door. Essa alteração criou um estado inconsistente na infraestrutura global do serviço, fazendo com que parte dos servidores parasse de responder e sobrecarregasse os demais.
O problema foi agravado por uma falha no sistema de segurança interno, que deveria ter bloqueado alterações incorretas. Um defeito de software permitiu que a configuração passasse pelas verificações automáticas sem ser barrada, resultando em uma interrupção em cadeia que impactou desde ferramentas corporativas até serviços populares como o Office e o Xbox.
Impacto global
O apagão começou por volta das 12h45 (horário de Brasília) e rapidamente afetou serviços da própria Microsoft e de empresas que dependem do Azure em diferentes países.
Segundo o Downdetector, o pico de reclamações ultrapassou 18 mil no mundo e cerca de 700 no Brasil, com relatos de falhas de conexão, lentidão e problemas de acesso a sites e aplicativos.
Entre os serviços mais atingidos estavam o Microsoft 365, Xbox, Azure SQL Database e ferramentas de segurança corporativa como Defender, Purview e Sentinel. Grandes empresas também sentiram o impacto — Alaska Airlines, Hawaiian Airlines, o aeroporto de Heathrow (Londres) e a Vodafone relataram interrupções temporárias, segundo a Reuters.
Linha do tempo do incidente
A Microsoft divulgou um resumo com os principais marcos da falha:
-
12h45: início da falha com lentidão e erros de conexão;
-
13h04: equipes internas são acionadas após alertas automáticos;
-
14h26: portal do Azure removido do sistema Front Door para reduzir o impacto;
-
14h30: bloqueio de novas configurações e reversão para a última versão estável;
-
15h30: início da implantação global da configuração corrigida e reequilíbrio de tráfego;
-
18h40: 98% da disponibilidade global restaurada;
-
21h05: normalização confirmada para a maioria dos clientes.
Durante o apagão, a empresa manteve comunicação com seus clientes corporativos por meio da ferramenta Azure Service Health. A Microsoft também prometeu divulgar um relatório completo sobre o incidente em até 14 dias, detalhando causas, impactos e medidas preventivas para evitar novas ocorrências.