Pular para o conteúdo

No iPhone 17 Pro rodaram um modelo de IA que normalmente exige 200 GB de memória.

Jovem usando celular em mesa com holograma de galáxia, fones e caderno em ambiente iluminado.

iPhone 17 Pro roda um modelo de linguagem gigante com 400 bilhões de parâmetros, mas a 0,6 token por segundo

Pela primeira vez, um iPhone 17 Pro conseguiu executar um modelo de linguagem de grande porte com 400 bilhões de parâmetros. Para um smartphone, isso soa quase impossível: em geral, até versões comprimidas desse tipo de modelo exigem no mínimo 200 GB de memória RAM, enquanto o iPhone 17 Pro dispõe de apenas 12 GB de LPDDR5X.

A demonstração foi viabilizada pelo projeto aberto Flash-MoE. No aparelho, o modelo funcionou lentamente, gerando apenas 0,6 token por segundo - algo próximo de uma palavra a cada um ano e meio ou dois segundos -, então ainda não dá para falar em uso prático de verdade. O truque está em não carregar o modelo inteiro na RAM. Em vez disso, o Flash-MoE usa o armazenamento do próprio smartphone e envia os dados da memória flash diretamente para a GPU em fluxo contínuo. Além disso, a própria arquitetura MoE (Mixture of Experts) permite ativar só uma parte de todos os parâmetros do modelo na geração de cada palavra, em vez de usar de uma vez os 400 bilhões de parâmetros completos.

Essa abordagem mostra que, em teoria, até modelos de linguagem enormes e extremamente pesados podem rodar localmente em dispositivos móveis, desde que se adotem esquemas extras de gerenciamento de memória e otimização agressiva. Executar tudo localmente traz vantagens evidentes: privacidade total, dispensa de conexão com a internet e processamento das solicitações diretamente no aparelho.

Ainda assim, o resultado atual é mais uma prova de conceito do que uma solução aplicável. Além da velocidade muito baixa, esse modo de operação impõe uma carga pesada sobre a memória, a GPU e o subsistema de energia.

Comentários

Ainda não há comentários. Seja o primeiro!

Deixar um comentário