
A NVIDIA está a emitir um alerta importante para os utilizadores de placas gráficas (GPUs) equipadas com memória GDDR6, recomendando a ativação da mitigação "System Level Error-Correcting Code" (ECC) para proteção contra ataques "Rowhammer". Este reforço na recomendação surge na sequência de uma nova investigação que demonstrou, com sucesso, um ataque deste tipo a uma GPU NVIDIA A6000.
O aviso da gigante tecnológica visa proteger hardware profissional e de centros de dados contra uma falha que, embora complexa, pode ter consequências graves.
O que é o ataque Rowhammer e porque é um perigo?
O Rowhammer é uma falha de hardware que pode ser explorada através de software. A sua origem reside na elevada densidade dos chips de memória modernos, onde as células de memória estão fisicamente muito próximas umas das outras. Embora tenha sido demonstrado inicialmente em memória RAM (DRAM), o ataque também é eficaz em memória de GPUs.
O ataque funciona ao "martelar" (aceder repetidamente com operações de leitura e escrita) uma fila específica de células de memória. Esta atividade excessiva gera uma perturbação elétrica que pode levar as células de memória adjacentes a inverterem o seu valor, alterando um 0 para 1 ou vice-versa. Esta "inversão de bits" corrompe a informação armazenada na memória.
As consequências podem variar desde uma condição de negação de serviço (crash do sistema), corrupção de dados, ou, no pior cenário, uma escalada de privilégios que permitiria a um atacante tomar o controlo do sistema. A ameaça é particularmente relevante em ambientes multi-inquilino, como servidores na cloud, onde várias GPUs vulneráveis podem estar implementadas.
A solução da NVIDIA: Ativar o ECC
Para mitigar este risco, a NVIDIA recomenda a ativação do "System Level Error-Correcting Codes" (ECC). Esta tecnologia adiciona bits redundantes aos dados, permitindo ao sistema detetar e corrigir erros de um único bit em tempo real. Desta forma, a integridade dos dados é preservada, garantindo a fiabilidade e precisão das operações, algo crucial em GPUs de workstations e centros de dados que lidam com grandes volumes de dados e cálculos precisos para cargas de trabalho de IA.
O aviso de segurança da NVIDIA destaca que a recente investigação, desenvolvida por académicos da Universidade de Toronto e detalhada no estudo GPUHammer, demonstrou um potencial ataque Rowhammer numa GPU NVIDIA A6000 com memória GDDR6 onde o ECC ao nível do sistema não estava ativado. Os investigadores provaram que, apesar de ser mais difícil de executar em GDDR6 (devido a latências mais altas e atualizações mais rápidas) do que em DDR4, o ataque é perfeitamente possível.
Quais as placas gráficas afetadas?
A NVIDIA recomenda a ativação do ECC numa vasta gama de produtos. Se utiliza uma das seguintes GPUs, é aconselhável verificar a sua configuração:
GPUs de Centro de Dados:
Ampere: A100, A40, A30, A16, A10, A2, A800
Ada: L40S, L40, L4
Hopper: H100, H200, GH200, H20, H800
Blackwell: GB200, B200, B100
Turing: T4
Volta: Tesla V100, Tesla V100S
GPUs de Workstation:
Ampere RTX: A6000, A5000, A4500, A4000, A2000, A1000, A400
Ada RTX: 6000, 5000, 4500, 4000, 4000 SFF, 2000
Blackwell RTX PRO (a linha mais recente)
Turing: T1000, T600, T400, RTX 8000, RTX 6000, RTX 5000, RTX 4000
Volta: Quadro GV100
Sistemas Embebidos / Industriais:
Jetson AGX Orin Industrial
IGX Orin
É de notar que as GPUs mais recentes, como as das séries Blackwell (incluindo as GeForce RTX 50 Series) e Hopper, já vêm com proteção ECC integrada no próprio chip (on-die), não requerendo intervenção por parte do utilizador.
Como verificar se está protegido
Existem duas formas principais de verificar se o ECC ao nível do sistema está ativo. O método "out-of-band" utiliza o Baseboard Management Controller (BMC) do sistema e interfaces de hardware como a API Redfish para verificar o estado "ECCModeEnabled".
Um segundo método "in-band" utiliza a ferramenta de linha de comandos nvidia-smi a partir do CPU do sistema para verificar e, se suportado, ativar o ECC.
Apesar do alerta, é importante contextualizar que a exploração fiável de uma vulnerabilidade Rowhammer é extremamente complicada, exigindo condições muito específicas, taxas de acesso elevadas e controlo preciso, tornando o ataque difícil de executar na prática. No entanto, a recomendação da NVIDIA sublinha que, onde a proteção existe, deve ser ativada para garantir a máxima segurança e integridade dos dados.










Nenhum comentário
Seja o primeiro!