Pular para o conteúdo

IA usa seu trabalho sem pedir permissão. Criadores protestam contra programadores pelo uso não autorizado, mas ninguém concorda sobre quem está certo.

Homem sentado em mesa com computador mostrando cérebro digital, segurando papel robots.txt em ambiente de trabalho.

Criadores repetem: “Eu nunca consenti com essa raspagem”. Engenheiros retrucam: “Estava público, e é assim que a web funciona”. No meio disso, cresce uma reação em cadeia no setor de tecnologia: os dois lados se sentem lesados, e ninguém consegue concordar de forma definitiva onde termina o aceitável.

Vi uma fotógrafa abrir o portátil num café lotado e digitar o próprio nome num chatbot, só para testar. O modelo descreveu o “estilo dela” com uma precisão inquietante e, em seguida, sugeriu comandos para reproduzi-lo - clima, iluminação, distância focal - como se fosse uma receita de tempero. Ela ficou alternando o olhar entre a tela e a janela, onde uma bicicleta de entregas passou silenciosa, como uma sombra. Parecia que a web tinha trocado as fechaduras sem avisar. Ela murmurou, quase para si: “Eu não disse sim”. O café continuou a zumbir. Quem, afinal, tem o direito de dizer não?

A raspagem de dados que ecoou pela web

O conflito é fácil de resumir e difícil de viver: criadores defendem que treinar modelos com os seus posts, fotos, código e textos sem autorização é exploração; desenvolvedores insistem que se trata de aprender a partir de informação disponível publicamente. Há algo de verdadeiro nas duas versões - e, ao mesmo tempo, ambas costumam ignorar a pequena dor de ver o seu melhor trabalho virar matéria-prima. Quase todo mundo já sentiu o instante em que algo que você fez deixa de parecer “seu” e passa a soar “de todo mundo”. E essa sensação não vai embora rápido.

Os casos se acumulam como separadores do navegador que você esquece de fechar. Romancistas entraram com ações coletivas por causa de bases de dados recheadas com livros. Uma grande empresa de fotos de stock processou quem gerava imagens após encontrar a marca-d’água aparecendo como um “fantasma” em resultados. Redações passaram a restringir acesso, ajustando robots.txt e metatags, e depois assinaram acordos que, na prática, lembram aluguel. Programadores reconhecem o roteiro de anos de raspagem em busca e redes sociais: páginas públicas viram um “bem comum” até alguém monetizar o portão. A diferença agora é a escala - não são dez páginas copiadas, e sim biliões.

Por baixo do capô, está um atrito antigo: acesso versus consentimento. Um URL público pode ser alcançado, mas alcançar não é o mesmo que reaproveitar. Termos de uso tentam traçar limites; o direito autoral procura proteger a forma de expressão; e o “uso justo” (no sentido de usos permitidos caso a caso em alguns sistemas) muda conforme finalidade, quantidade e impacto no mercado. O robots.txt orienta rastreadores sobre onde não entrar, mas funciona como etiqueta, não como lei. Se a web fosse uma cidade, a raspagem seria o trânsito - e o trânsito vira caos quando as ruas nunca foram desenhadas para carretas. Daí tanta gente falando por cima da outra.

No Brasil, a conversa ainda ganha camadas locais. O Marco Civil da Internet reforça princípios como transparência e responsabilidade, enquanto a LGPD muda o jogo quando a raspagem envolve dados pessoais - mesmo que estejam “à vista”, isso não elimina obrigações sobre finalidade, base legal e segurança. Para criadores e empresas, vale separar bem: uma coisa é proteger obra e contexto; outra, distinta, é reduzir a exposição de informação que possa identificar pessoas (incluindo metadados, contactos, localização em fotos e comentários).

Consentimento, robots.txt e C2PA na raspagem para treino de IA: como reagir sem se apagar

Comece pelos mecanismos que estão ao seu alcance. Insira sinais explícitos de “sem treino de IA” nos cabeçalhos das páginas e no robots.txt, e mantenha uma lista atualizada de crawlers de IA para bloquear. Aplique credenciais de conteúdo como C2PA (Content Credentials) para “carimbar” imagens e artigos com proveniência verificável e detecção de adulteração. Reserve ficheiros em resolução máxima para compradores, assinantes ou membros, e deixe versões menores como prévias em páginas abertas. Isso não bloqueia tudo - mas obriga o outro lado a tomar uma decisão. E esse atrito faz diferença.

Pense em camadas, não em soluções mágicas. Combine barreiras técnicas com linguagem jurídica nos termos do site e sustente ambos com um plano de acção comunitário: ao detectar uso indevido, registe provas, encaminhe notificações, peça escalonamento e junte forças. Evite punir o seu público para “atingir” um raspador. Reduza o que for necessário - e, em paralelo, invista no que não se copia com facilidade: acesso, encontros, bastidores, contexto editorial, relacionamento com patronos e comunidade. Sejamos realistas: ninguém mantém doze rotinas novas por dia. Escolha duas práticas que você ainda consiga cumprir em seis meses, em vez de doze que vão sumir em seis semanas.

Também há espaço para agir do lado de quem constrói tecnologia. Engenheiros podem desenhar sistemas com consentimento como premissa: conjuntos de dados documentados, licenciados e auditáveis; exclusões (opt-outs) tratadas como piso, não como tecto; e rastreabilidade de origem no pipeline. Modelos treinados com confiança chegam mais longe do que modelos treinados em brechas.

“Não dá para construir o futuro sobre conteúdo que as pessoas se arrependem de ter partilhado.”

Além disso, vale explorar caminhos que não estavam tão claros na era pré-IA: cooperativas de licenciamento, catálogos próprios com APIs e regras, e acordos padronizados para uso de acervos (especialmente em fotografia, ilustração, jornalismo e educação). Quando o mercado tem regras legíveis, a negociação melhora - e o “não” deixa de ser um desaparecimento para virar uma escolha.

  • Inclua directivas meta explícitas “noai”/“noimageai” e bloqueie crawlers de IA comuns (por exemplo, GPTBot, Google-Extended) no robots.txt.
  • Adote C2PA Content Credentials para que os seus ficheiros carreguem dados de origem verificáveis por onde circularem.
  • Coloque activos de alto valor atrás de contas ou chaves de API, com limites de taxa (rate limits) e registos (logs).
  • Publique uma página de política simples com as suas regras de treino e licenciamento em linguagem clara.

O debate que ninguém resolve “vencendo”

Em certos dias, essa disputa parece uma briga sobre quem “possui” o pôr do sol. A web foi construída com gente a publicar, linkar e remixar em público - e, de repente, máquinas aprenderam numa velocidade que quase ninguém antecipou. Se criadores ganharem cada centímetro, corremos o risco de uma internet fragmentada, com paywalls altos e conversas pequenas. Se programadores ganharem cada centímetro, o risco é uma cultura “minada” até ao osso e um público que deixa de partilhar. O único desfecho que escala é consentimento em alta velocidade: sinais que significam algo, acordos com dinheiro de verdade, modelos que assumem do que aprenderam e comunidades capazes de dizer não sem sumir. A próxima fase da IA não vai ser definida apenas num tribunal. Vai ser definida pelo que escolhemos publicar amanhã.

Ponto-chave Detalhe Interesse para o leitor
Consentimento vs. uso justo Acesso público não é autorização geral; “uso justo” (quando aplicável) é uma análise caso a caso baseada em finalidade, quantidade usada e impacto no mercado. Entenda onde está, de facto, a sua margem de manobra legal e moral.
Sinais que fazem diferença Robots.txt, metatags “noai” e C2PA tornam a sua intenção detectável e mais fácil de exigir quando combinados com política e registos. Transforme frustração em medidas que alteram o comportamento de raspadores.
O licenciamento voltou De acordos com notícias a mercados de datasets, dinheiro e transparência estão a entrar nos fluxos de treino. Identifique novas rotas de receita sem trancar tudo.

Perguntas frequentes

  • A raspagem por IA é ilegal? Depende do que é raspado, de como é utilizado e de onde você está. Copiar forma de expressão pode acionar limites de direito autoral; já a extração de factos tende a cair em zonas mais cinzentas, influenciadas por testes de finalidade, quantidade e impacto económico, além de possíveis excepções de mineração de texto e dados em algumas jurisdições.
  • Como impedir que modelos treinem com o meu site? Use robots.txt para bloquear crawlers de IA conhecidos, adicione metatags “noai/noimageai”, aplique marca-d’água e credenciais nos ficheiros e leve os activos de maior valor para trás de contas ou APIs com limites de taxa.
  • E se a minha arte já estiver dentro de um modelo? Reúna evidências, considere acções colectivas, negocie remoções ou exclusões quando houver esse canal e procure orientação jurídica sobre hipóteses como marca, direito de imagem e direito autoral, conforme o seu caso.
  • Robots.txt e metatags têm força legal? Eles expressam intenção e ajudam a formar normas e contratos. Ignorá-los pode reforçar alegações relacionadas a violação de termos, acesso indevido e outras responsabilidades, sobretudo quando o acesso exigiu contornar controlos explícitos.
  • Empresas de IA vão pagar criadores? Já surgem acordos com editoras, titulares de direitos musicais e bibliotecas de imagens, e a pressão caminha para licenciamento e partilha de receita. Quanto mais claros e padronizados forem os sinais usados por criadores, mais rápido esses mercados se consolidam.

Comentários

Ainda não há comentários. Seja o primeiro!

Deixar um comentário