Segundo as revelações da Mediapart, um dos cofundadores da Mistral AI teria tido uma “participação importante” no uso, pela Meta, de livros pirateados para treinar sua inteligência artificial. Apesar disso, o grupo de Mark Zuckerberg saiu vitorioso no processo julgado nos Estados Unidos graças ao fair use, a doutrina de uso legítimo que, em determinadas condições, permite empregar obras protegidas por direito autoral.
Para que modelos de linguagem respondam com precisão, eles dependem de volumes enormes de informação. O problema é que, em muitos casos, a origem dos dados usados no treinamento levanta dúvidas sérias. Por isso, nos Estados Unidos, autores e detentores de direitos vêm movendo várias ações contra empresas acusadas de utilizar livros protegidos por copyright para desenvolver seus sistemas de IA.
Um desses casos é o processo “Kadrey v. Meta Platforms Inc.”, no qual escritores acusaram a Meta de recorrer a obras pirateadas para criar o Llama, seu modelo de inteligência artificial. Com base em documentos tornados públicos nesse processo e em entrevistas com ex-funcionários da empresa, a Mediapart afirma nesta semana que a companhia de Mark Zuckerberg teria usado milhões de livros vindos da Library Genesis, ou LibGen, um site pirata que reúne livros e artigos científicos.
Guillaume Lample e o uso de livros da LibGen
A reportagem também cita uma “participação importante” de Guillaume Lample, um dos cofundadores da Mistral AI. Antes de participar da criação da atual gigante francesa da IA, hoje avaliada em 11,7 bilhões de euros, ele integrava a equipe de inteligência artificial da Meta.
Dentro da Meta, o uso do conteúdo disponibilizado pela LibGen era motivo de debate. Ainda assim, de acordo com a Mediapart, que se apoia em uma troca de e-mails de 2022, Guillaume Lample teria sido favorável ao uso desse material para fins exploratórios. No contexto da ação “Kadrey v. Meta Platforms Inc.”, os autores da denúncia chegaram a sustentar que o pesquisador francês teria baixado 70 TB de dados.
Essas disputas ajudam a mostrar o tamanho do dilema enfrentado pelo setor de IA: de um lado, há a pressão por conjuntos de dados cada vez maiores e mais variados; de outro, cresce a cobrança por transparência sobre a procedência desse material. À medida que os modelos se tornam mais poderosos, aumenta também a preocupação de escritores, editoras e pesquisadores com o uso de obras sem autorização.
Pirataria ou fair use? A Meta vence o processo
O julgamento tinha peso para toda a indústria, e a Meta acabou vencendo em junho. O motivo foi a aplicação do princípio de fair use nos Estados Unidos, que permite o uso de obras protegidas por direito autoral em certos contextos. Segundo explicou a revista Wired, o juiz concluiu que os autores não apresentaram provas suficientes de que o uso de seus livros pela Meta causou prejuízo.
Os advogados dos autores, do escritório Boies Schiller Flexner, disseram em comunicado citado pela Wired:
“O tribunal decidiu que empresas de IA que ‘alimentam seus modelos com obras protegidas por direitos autorais sem obter autorização dos titulares desses direitos nem remunerá-los’ geralmente violam a lei. Ainda assim, apesar das provas incontestáveis de uma pirataria sem precedentes de obras protegidas por direitos autorais cometida pela Meta, o tribunal decidiu a favor da empresa. Respeitamos a decisão, mas não concordamos com essa conclusão.”
A Meta, por sua vez, afirmou que a utilização de obras protegidas com base no fair use é um “arcabouço jurídico essencial” para a criação de tecnologias transformadoras.
A resposta da Mistral AI
De acordo com a Mediapart, nem a Meta nem Guillaume Lample responderam às perguntas enviadas pela reportagem. Já a Mistral AI declarou que utiliza “informações públicas disponíveis na internet, conjuntos de dados não públicos licenciados de terceiros, além de dados gerados internamente de forma sintética.”
O caso reforça uma discussão que deve continuar por muito tempo: até onde vai a liberdade para treinar sistemas de IA com grandes acervos de conteúdo e onde começa a violação de direitos autorais? Com a expansão acelerada dessa tecnologia, a pressão por regras mais claras tende a aumentar, tanto nos Estados Unidos quanto em outros mercados.
Comentários
Ainda não há comentários. Seja o primeiro!
Deixar um comentário