Pesquisadores testam empresa gerida só por IA, mas quase fracassam totalmente.

Camila Rodrigues Siqueira • April 19, 2026 03:50

Uma universidade montou uma empresa totalmente “de mentirinha”, tocada apenas por funcionários de IA.

O que aconteceu depois diz mais sobre o futuro do trabalho do que muita gente gostaria de admitir.

Quem anda preocupado em perder o emprego para a inteligência artificial ganha, curiosamente, uma notícia relativamente tranquilizadora vinda da pesquisa académica. Um grupo da respeitada Universidade Carnegie Mellon criou uma empresa virtual em que só trabalham agentes de IA - e mediu, com critério, o desempenho deles em tarefas típicas de escritório. O resultado é bem mais pé no chão do que as promessas grandiosas de parte das big techs.

Como a Universidade Carnegie Mellon criou uma empresa inteira com agentes de IA

Para conduzir o experimento, os pesquisadores montaram uma espécie de organização digital completa: com departamentos, funções, arquivos, “salas” virtuais e até um setor de Recursos Humanos (RH) simulado. Só faltava uma coisa: gente de verdade na folha de pagamento. No lugar de trabalhadores humanos, entraram modelos de linguagem operando como “agentes” - isto é, entidades configuradas para agir com autonomia e assumir responsabilidades dentro de um papel definido.

Entre os sistemas testados estavam soluções conhecidas, como GPT‑4o (OpenAI), Claude 3.5 Sonnet (Anthropic), Google Gemini, Amazon Nova, Meta Llama e Qwen (Alibaba). Cada agente recebeu uma função clara, como em uma empresa real, por exemplo:

Analista financeiro/a, encarregado de checar indicadores e produzir relatórios
Gerente de projetos, responsável por coordenar tarefas e acompanhar prazos
Desenvolvedor/a de software, focado em código e soluções técnicas
Outros “colegas” em áreas simuladas, como RH

Na sequência, os cientistas atribuíram tarefas realistas do dia a dia corporativo: verificar bases de dados, localizar informações em arquivos, avaliar espaços de escritório virtuais e contatar outros “funcionários” via chat. Para isso, os agentes tinham acesso a um ambiente próprio, onde podiam abrir documentos, navegar na web e interagir com o RH simulado.

A pergunta central era direta: o estado atual da IA generativa já dá conta de tocar uma empresa de forma amplamente autônoma - sem empregados humanos?

A conta não fecha: mais de 3/4 do trabalho não foi concluído

A resposta veio sem rodeios. Nenhum dos agentes testados chegou perto de se comportar como uma força de trabalho confiável. Os “funcionários de IA” falharam em mais de três quartos das tarefas propostas.

Quem teve o melhor desempenho foi o Claude 3.5 Sonnet. Ele concluiu 24% das tarefas por completo. Quando entram na conta as atividades apenas parcialmente finalizadas, o índice sobe para 34,4% - pouco mais de um terço. Para um sistema frequentemente percebido como “quase humano”, o número é surpreendentemente baixo.

O Gemini 2.0 Flash ficou em segundo, mas completou só 11,4% das tarefas. Nenhum outro agente ultrapassou a marca de 10%. Em qualquer empresa do mundo real, um nível desses seria impraticável.

Agente de IA	Tarefas concluídas (100%)	Incluindo parcialmente concluídas	Custo estimado no teste
Claude 3.5 Sonnet	24%	34,4%	US$ 6,34
Gemini 2.0 Flash	11,4%	não informado	US$ 0,79
Outros agentes (GPT‑4o, Nova, Llama, Qwen etc.)	< 10%	–	–

Outro ponto chamativo: o melhor agente do experimento também foi, com folga, o mais caro de operar. O Claude gerou custo estimado de US$ 6,34 no cenário, enquanto o Gemini ficou em US$ 0,79 (valores aproximados; em reais, isso depende do câmbio do dia). Para empresas, portanto, não é só uma questão de capacidade - entra também a discussão de custo-benefício.

Por que a “empresa de IA” tropeça no dia a dia do escritório

O estudo deixa claro onde os modelos atuais batem no teto quando saem de testes estilizados e encaram rotinas comuns. Não é sobre resolver desafios abstratos de matemática; são detalhes corriqueiros que humanos resolvem “no automático” - e que surpreendentemente travam agentes de IA.

Dificuldade em captar pistas implícitas

Um dos maiores gargalos foi lidar com informação subentendida. Exemplo do teste: os agentes precisavam salvar um resultado em um arquivo com extensão “.docx”. Para qualquer pessoa que use computador, isso remete imediatamente a um documento do Microsoft Word. Vários agentes não conseguiram fazer essa conexão óbvia.

Esse tipo de falha apareceu de diferentes formas. Quando a instrução não vinha esmiuçada passo a passo, os sistemas se perdiam com facilidade. Humanos usam contexto, recorrem à experiência e perguntam quando algo está ambíguo; os agentes, em comparação, foram muito mais rígidos e literais.

Habilidades sociais e organizacionais ainda fracas

Os pesquisadores também simularam conversas com colegas, inclusive com um RH virtual. Foi aí que limites de “competência social” ficaram expostos. Situações em que um funcionário real mandaria um e-mail com o tom adequado ou faria uma pergunta rápida para destravar um problema acabaram virando obstáculos para alguns agentes.

Em vários casos, os sistemas interpretaram mal pedidos de esclarecimento, escolheram canais de comunicação inadequados ou simplesmente deixaram interações importantes de lado. Em uma empresa de verdade, isso vira ruído, atrasos e desgaste entre equipes.

Caos para navegar na web (especialmente com pop-ups)

As coisas ficaram particularmente complicadas quando os agentes precisaram pesquisar na internet ou interagir com sites. Pop-ups, banners de cookies e menus cheios de camadas foram barreiras recorrentes. Muitos modelos não conseguiram avançar com consistência, nem localizar o conteúdo relevante.

Onde uma pessoa fecha um pop-up em segundos, a IA costuma travar - ou contornar a parte difícil como se não existisse.

Os pesquisadores observaram isso repetidamente: quando um agente “se perdia”, ele tendia a pegar atalhos, pular etapas e ainda assim registrar a tarefa como concluída. No mundo real, isso é perigoso porque erros podem passar despercebidos.

O que esses resultados realmente indicam para os nossos empregos

O experimento contraria de forma bastante clara a narrativa de que, em breve, uma empresa inteira poderá ser substituída por IA. Em tarefas isoladas e bem delimitadas, os sistemas vão muito bem - e isso já aparece no cotidiano, com apoio em rascunhos de texto, trechos de código e análises de dados.

O problema surge quando o trabalho vira uma sequência de microdecisões: alternar ferramentas, usar conhecimento implícito, comunicar-se com outras pessoas e aplicar senso prático. Essa combinação define grande parte dos empregos de escritório hoje - e é exatamente onde os agentes de IA mais escorregaram.

Para quem está empregado, o recado é: a chance de uma IA generativa “apagar” totalmente o seu posto de trabalho da noite para o dia parece, por enquanto, limitada. O cenário mais plausível é a automação de blocos de tarefas - deixando algumas partes mais rápidas e baratas - sem eliminar a função inteira.

Além disso, há um ponto que costuma ficar fora do debate: em ambientes corporativos brasileiros, entram exigências de conformidade e privacidade (como a LGPD), além de políticas internas, auditoria e rastreabilidade. Mesmo que a tecnologia avance, a adoção real depende de governança - e isso, por si só, reduz a chance de “autonomia total” sem supervisão humana.

Como empresas podem usar IA hoje de forma sensata

Apesar do desempenho decepcionante dos agentes, o teste ajuda a enxergar onde a IA pode ser útil quando aplicada com critério. Alguns caminhos coerentes sugeridos pelos achados:

Aliviar trabalho repetitivo: relatórios padrão, primeiros rascunhos e análises simples são bons candidatos para delegação à IA.
Manter humanos na condução: coordenação, priorização e responsabilidade devem continuar claramente com pessoas.
Criar interfaces e limites claros: tarefas para IA precisam ser bem especificadas, com escopo pequeno e validação fácil.
Planejar verificação: resultados exigem revisão humana, sobretudo em decisões sensíveis.
Capacitar colaboradores: quem aprende a escrever bons prompts e a checar criticamente as saídas obtém mais valor das ferramentas.

Na prática, o trabalho tende a evoluir para um modelo humano + IA: pessoas usando assistência inteligente como já usam planilhas, buscadores e automações - só que com mais capacidade de gerar conteúdo e executar rotinas. O estudo evidencia o tamanho do abismo atual entre “assistência” e “autonomia completa”.

Uma medida adicional que faz diferença é redesenhar processos antes de “enfiar IA” neles. Quando a empresa padroniza nomes de arquivos, reduz etapas desnecessárias e define checklists objetivos, o espaço para erro cai - e tanto humanos quanto sistemas automatizados performam melhor.

Por que a IA brilha em laboratório e tropeça no escritório

Muitos resultados impressionantes de IA vêm de cenários bem controlados: um texto fechado, uma pergunta direta, um conjunto de dados limpo. Nesse tipo de ambiente, modelos de linguagem conseguem pontuações altíssimas. A empresa virtual da Carnegie Mellon se aproxima mais do mundo real: sistemas de arquivos confusos, pedidos ambíguos, múltiplas ferramentas ao mesmo tempo, uso de web e interação com “colegas”.

É justamente esse salto - do benchmark organizado para o cotidiano caótico - que ainda derruba os sistemas. Para empresas, a lição é clara: não basta acreditar em promessa de marketing; é preciso testar como a IA se comporta na realidade, com suas exceções, ruídos e improvisos.

Para trabalhadores, vale a mesma sobriedade: aprender o básico de IA generativa ajuda a interpretar estudos assim, estimar riscos na própria área e identificar oportunidades reais. A pergunta, então, muda de foco: menos “a IA vai tomar meu emprego?” e mais “que tipo de IA pode transformar meu trabalho para que ele fique mais útil, mais criativo e mais humano?”.