A Cloudflare já veio a público esclarecer a origem da falha massiva que, durante o final da tarde de ontem, deixou inúmeros serviços online indisponíveis. A empresa garante que não se tratou de um incidente de segurança e que nenhuns dados foram perdidos. O problema, que já se encontra mitigado, teve início às 18:52 (hora de Portugal continental) de quinta-feira.
A causa do apagão foi uma falha total no sistema Workers KV, um serviço fundamental da infraestrutura da Cloudflare, que por sua vez levou a uma cascata de erros que afetou plataformas de computação e inteligência artificial por todo o mundo, com impacto notório até na Google Cloud Platform.
A peça que falhou e deitou tudo abaixo
Numa análise post-mortem publicada no seu blog, a Cloudflare explica que a interrupção durou quase duas horas e meia. A raiz do problema esteve numa falha na infraestrutura de armazenamento subjacente ao seu serviço Workers KV, que depende de um fornecedor de cloud externo.
O Workers KV funciona como uma gigantesca base de dados distribuída globalmente, onde muitos dos serviços da Cloudflare guardam e acedem a informações críticas, desde configurações a dados de autenticação. Quando este fornecedor externo teve uma falha, o Workers KV foi abaixo, arrastando consigo uma parte significativa dos serviços da Cloudflare.
"A causa desta interrupção deveu-se a uma falha na infraestrutura de armazenamento subjacente usada pelo nosso serviço Workers KV, que é uma dependência crítica para muitos produtos Cloudflare", afirma a empresa.
O caos em detalhe: dos logins à IA, quase nada escapou
O impacto da falha foi vasto e profundo, afetando a capacidade de utilizadores e empresas acederem a um leque alargado de ferramentas. A própria Cloudflare detalhou a taxa de falhas de cada serviço:
- Autenticação e Segurança: Os serviços Access, WARP e Gateway sofreram falhas críticas. A autenticação baseada em identidade, o registo de novos dispositivos no WARP e o sistema de CAPTCHA (Turnstile) ficaram praticamente inoperacionais.
- Conteúdo e Plataformas: As plataformas Stream e Images, para vídeo e imagens, viram a sua funcionalidade cair a pique, com os uploads de imagens a atingir 0% de sucesso. O serviço Pages, usado para alojar sites, teve uma taxa de falhas a rondar os 100%.
- Inteligência Artificial: Os serviços Workers AI e AutoRAG ficaram completamente indisponíveis, uma vez que dependem do Workers KV para aceder a configurações de modelos e outras funções essenciais.
- Bases de Dados e Filas: Serviços como Durable Objects, D1 e Queues, construídos sobre a mesma camada de armazenamento, sofreram taxas de erro até 22% ou ficaram totalmente indisponíveis.
- Infraestrutura Core: Até mesmo a rede de distribuição de conteúdo (CDN) e a construção de novos Workers sofreram latência elevada e erros, com 100% de falhas na criação de novos builds durante o incidente.
Cloudflare aprende a lição e promete mudanças
Em resposta a este apagão, a Cloudflare anunciou que vai acelerar várias mudanças focadas em aumentar a resiliência dos seus sistemas. A principal medida passa por eliminar a dependência de um único fornecedor de cloud para o armazenamento do Workers KV.
O plano é migrar gradualmente o armazenamento central deste serviço para a sua própria solução de armazenamento de objetos, a R2, reduzindo assim a dependência de entidades externas.
Adicionalmente, a empresa pretende implementar novas salvaguardas entre serviços e desenvolver ferramentas que permitam uma recuperação mais gradual em caso de falhas de armazenamento. O objetivo é evitar picos de tráfego súbitos sobre os sistemas em recuperação, que poderiam sobrecarregá-los e causar novas falhas em cadeia.
Nenhum comentário
Seja o primeiro!