Uma falha na gestão de APIs da Google esteve na origem do gigantesco apagão da Google Cloud esta quinta-feira, um incidente que deixou em baixo não só os serviços da própria empresa, como também uma vasta lista de outras plataformas online que dependem da sua infraestrutura, como o Spotify, Discord e Snapchat.
O problema, que afetou milhões de utilizadores em todo o mundo, teve início por volta das 15:49 (hora de Lisboa) e só ficou resolvido perto das 20:49, deixando um rasto de perturbações durante mais de três horas.
Um efeito dominó que parou a Internet
O impacto da falha foi muito para além do ecossistema da Google. Embora serviços como o Gmail, Google Drive, Google Meet e até a Pesquisa Google tenham sido diretamente afetados, o verdadeiro alcance do problema sentiu-se em plataformas de terceiros.
A lista de "vítimas" é longa e inclui nomes bem conhecidos do público, como o Spotify, Discord, Snapchat, NPM e Firebase Studio. Até a Cloudflare viu alguns dos seus serviços, que dependem do sistema de armazenamento Workers KV da Google, serem afetados.
Num pedido de desculpas, a Google assumiu a responsabilidade: "Lamentamos profundamente o impacto que esta interrupção de serviço causou a todos os nossos utilizadores e aos seus clientes. Empresas de todas as dimensões confiam na Google Cloud e nós faremos melhor."
Afinal, o que aconteceu?
Apesar de um relatório completo do incidente ainda estar a ser preparado, a Google já adiantou a causa principal que levou a um aumento de erros do tipo "503" nos pedidos externos de API. Segundo a empresa, a sua plataforma de gestão de APIs da Google Cloud falhou devido a dados inválidos. Este erro não foi detetado e corrigido a tempo por falta de sistemas de teste e de tratamento de erros eficazes.
Numa explicação mais detalhada partilhada na sua página de estado do serviço, a gigante tecnológica esclarece: "A partir da nossa análise inicial, o problema ocorreu devido a uma atualização automática inválida de quotas no nosso sistema de gestão de API, que foi distribuída globalmente, fazendo com que os pedidos externos de API fossem rejeitados."
Para resolver a situação, a equipa da Google contornou a verificação de quotas defeituosa, o que permitiu a recuperação na maioria das regiões em cerca de duas horas. No entanto, a base de dados de políticas de quotas na região us-central1
ficou sobrecarregada, resultando numa recuperação muito mais lenta nessa área específica.
Cloudflare também sentiu o impacto e vai mudar de estratégia
Após restaurar os seus próprios serviços, a Cloudflare publicou uma análise ao incidente, confirmando que a causa foi uma falha na infraestrutura de armazenamento subjacente ao seu serviço Workers KV, que por sua vez depende de um fornecedor de cloud de terceiros.
Como resposta a este incidente, a Cloudflare anunciou que irá migrar o armazenamento central do seu serviço KV para a sua própria solução, a R2, de forma a reduzir a dependência de fornecedores externos e prevenir que problemas semelhantes voltem a acontecer no futuro.
Nenhum comentário
Seja o primeiro!