
O iPhone 17 Pro foi recentemente protagonista de uma proeza tecnológica que muitos considerariam impossível. Um programador conseguiu colocar o dispositivo a executar um modelo de linguagem de grandes dimensões (LLM) com 400 mil milhões de parâmetros, uma carga de trabalho que habitualmente exige hardware de alto desempenho com centenas de gigabytes de memória disponível. Conforme demonstrou o utilizador anemll na rede social X, este feito foi alcançado através de uma técnica inovadora que consegue contornar as limitações físicas do telemóvel.
O segredo do streaming via SSD e Flash-MoE
Normalmente, um modelo desta envergadura exigiria, no mínimo, cerca de 200 GB de memória RAM para funcionar corretamente, mesmo recorrendo a versões comprimidas. Tendo em conta que o iPhone 17 Pro está equipado com apenas 12 GB de memória LPDDR5X, a execução direta seria inviável. No entanto, o projeto de código aberto Flash-MoE utiliza um método inteligente: em vez de carregar todo o modelo na memória de acesso aleatório, utiliza o armazenamento SSD do dispositivo para fazer o streaming dos dados necessários diretamente para a GPU.
A sigla MoE refere-se a Mixture of Experts, uma arquitetura de IA que permite que apenas uma fração dos 400 mil milhões de parâmetros seja ativada para gerar cada palavra ou token. Esta eficiência seletiva, combinada com a gestão de recursos do sistema, permite que o hardware processe a informação localmente sem depender de servidores externos.
Privacidade total à custa de uma paciência de ferro
Embora a proeza técnica seja inegável, a utilização prática deste sistema num iPhone ainda está longe de ser ideal para o dia a dia. A velocidade de geração é extremamente lenta, atingindo apenas 0,6 tokens por segundo, o que equivale a sensivelmente uma palavra a cada dois segundos. É um processo demorado que exigiria uma paciência considerável para obter respostas completas, além de representar um esforço térmico e energético pesado para a bateria do equipamento.
A grande vantagem desta abordagem reside na privacidade absoluta. Ao processar tudo de forma local, o utilizador garante que os seus dados não saem do dispositivo e consegue obter respostas mesmo sem uma ligação ativa à internet. Embora ainda se trate de uma demonstração técnica, este avanço sugere que futuras otimizações poderão, eventualmente, permitir que modelos de inteligência artificial massivos funcionem de forma mais fluida nos nossos bolsos.












Nenhum comentário
Seja o primeiro!