1. TugaTech » Internet e Redes » Noticias da Internet e Mercados
  Login     Registar    |                      
Siga-nos

AWS logo

 

A Amazon revelou finalmente a causa por detrás da enorme falha nos seus serviços da Amazon Web Services (AWS) que, na passada segunda-feira, deixou inúmeros sites e serviços online inoperacionais durante mais de 14 horas. O incidente, que teve origem num dos mais importantes centros de dados da empresa na Virgínia do Norte, EUA, afetou utilizadores em todo o mundo.

 

Numa análise post-mortem publicada esta quinta-feira, a gigante tecnológica explicou que um bug insólito no sistema de gestão de DNS da sua infraestrutura DynamoDB foi o culpado. Este erro levou à eliminação acidental de todos os endereços IP do ponto de acesso regional do serviço de base de dados.

 

O bug que desencadeou o efeito dominó

 

Segundo a Amazon, a causa principal foi uma "condição de corrida" (race condition) latente no sistema de gestão de DNS do DynamoDB. Em termos simples, um bug fez com que o sistema criasse um registo de DNS vazio para o ponto de acesso público do serviço (dynamodb.us-east-1.amazonaws.com), e as ferramentas de automação não conseguiram reparar o erro.

 

"Quando este problema ocorreu, todos os sistemas que precisavam de se ligar ao serviço DynamoDB na região do Norte da Virgínia através do ponto de acesso público começaram imediatamente a experienciar falhas de DNS e não conseguiram ligar-se", detalhou a Amazon. Isto incluiu não só o tráfego dos clientes, mas também o de serviços internos da própria AWS que dependem criticamente do DynamoDB, o que acabou por gerar um efeito de cascata.

 

A falha no DynamoDB deixou o seu próprio sistema de DNS num estado inconsistente, impedindo que as ferramentas de recuperação automática resolvessem o problema. Foi necessária uma intervenção manual por parte dos operadores para restabelecer a normalidade.

 

Amazon pede desculpa e promete melhorias

 

A empresa já desativou globalmente a automação de DNS que continha o bug e implementou várias medidas para evitar que um incidente semelhante se repita. Estas incluem verificações de proteção adicionais, melhorias nos mecanismos de controlo de tráfego e a criação de um novo conjunto de testes para detetar este tipo de falhas no futuro.

 

"Pedimos desculpa pelo impacto que este evento causou aos nossos clientes. Sabemos que este evento impactou muitos clientes de forma significativa", acrescentou a Amazon. "Faremos tudo o que pudermos para aprender com este evento e usá-lo para melhorar ainda mais a nossa disponibilidade."




Aplicações do TugaTechAplicações TugaTechDiscord do TugaTechDiscord do TugaTechRSS TugaTechRSS do TugaTechSpeedtest TugaTechSpeedtest TugatechHost TugaTechHost TugaTech