TurboQuant: o novo algoritmo de compressão do Google pode baratear a IA e acelerar o buscador

Camila Rodrigues Siqueira • April 17, 2026 15:54

Há poucos dias, o Google apresentou o TurboQuant, um algoritmo de compressão que não foi criado para o consumidor final, mas que pode ter um impacto enorme nos bastidores da empresa. A ideia é diminuir a quantidade de memória exigida pelos sistemas de inteligência artificial e, com isso, reduzir custos e melhorar outros serviços do grupo, incluindo o buscador.

Desde que surgiu e passou a integrar a Alphabet, o Google acumulou conquistas muito além da pesquisa na internet. O YouTube se transformou em uma potência do entretenimento, e a Waymo já ocupa a liderança global no setor de robotáxis. Agora, a próxima grande virada da companhia de Mountain View pode estar justamente no TurboQuant.

TurboQuant, Google e a redução do cache chave-valor

Por trás desse nome está um novo método de compressão desenvolvido pela divisão de pesquisa do Google. Ele pode ajudar a empresa a usar menos recursos para colocar em funcionamento, em larga escala, modelos de IA como os da família Gemini. Com essa proposta, o Google tenta atacar um gargalo que outras companhias costumam contornar apenas comprando mais componentes: o cache chave-valor.

Na prática, esse tipo de cache guarda informações de etapas anteriores para evitar repetições desnecessárias durante a geração de texto. Como explica a plataforma Hugging Face, os modelos de IA frequentemente refazem cálculos já executados, o que torna o processo mais lento; ao preservar dados relevantes do que veio antes, o sistema ganha velocidade e eficiência.

A novidade do Google parece promissora justamente nesse ponto. Segundo a própria empresa, o TurboQuant consegue entregar resultados “perfeitos” e, ao mesmo tempo, reduzir em pelo menos seis vezes o espaço de memória reservado para essa tarefa. Além disso, o algoritmo também pode melhorar a velocidade de execução de grandes modelos de linguagem.

Se essa economia se confirmar em testes mais amplos, o efeito pode ir além da redução de custos. Centros de dados que rodam modelos de IA em grande escala podem se beneficiar de menor pressão sobre memória e energia, enquanto aplicações voltadas ao usuário final tendem a responder com mais agilidade. Em um mercado em que cada milissegundo conta, esse tipo de ganho pode fazer diferença tanto para empresas quanto para consumidores.

O fim da escassez de RAM?

O anúncio do TurboQuant, feito em 26 de março, pressionou negativamente as ações de fabricantes de armazenamento e de memória RAM. Ainda assim, isso não significa necessariamente que a escassez de chips de memória esteja com os dias contados - um problema que também afeta os preços de produtos do dia a dia, como computadores e smartphones.

Isso acontece porque, por enquanto, o algoritmo do Google atua apenas na inferência, e não na fase de treinamento dos modelos de IA. Esse segundo estágio também demanda uma enorme quantidade de chips de memória HBM, o que mantém a pressão sobre a cadeia de fornecimento.

Além disso, o TurboQuant ainda está em fase de pesquisa. O Google deve apresentar mais detalhes sobre a descoberta durante a ICLR 2026, conferência dedicada à inteligência artificial, em abril. Se a tecnologia cumprir o que promete, ela pode mudar o cenário da IA e também fortalecer outros produtos do Google, como o próprio buscador.

Matthew Prince, CEO da Cloudflare, compara esse avanço do Google ao lançamento do DeepSeek, que também abalou o setor de tecnologia por sua elevada eficiência.

Nas redes, especialmente no X, muita gente também fez uma associação imediata com Pied Piper, a tecnologia fictícia de compressão da série Silicon Valley, que “revoluciona” a internet dentro da trama.