Direitos Autorais no Treinamento da IA: Entendendo o Problema

Uma das discussões mais intensas envolvendo a regulação de Inteligência Artificial (IA) diz respeito ao uso de obras protegidas por direitos autorais no treinamento da IA. Com o avanço da tecnologia, ficou evidente que a legislação de direitos autorais — concebida para um mundo analógico, ou no máximo digital — não cobre todas as lacunas de um cenário onde sistemas aprendem a partir de imensos volumes de dados.

De modo resumido, as empresas de IA precisam de grandes conjuntos de dados para treinar seus modelos. Em alguns casos, tratam-se de informações públicas e livremente acessíveis. Em outros, incluem materiais não públicos — como livros, reportagens disponíveis apenas para assinantes ou bancos de imagens pagos — mas que podem ser adquiridos legalmente.

Com a expansão dos modelos de IA, autores, editoras, jornalistas e artistas passaram a reivindicar o pagamento pelo uso de suas obras nesse processo de treinamento. Essa demanda provocou reação das empresas de tecnologia, e o tema se tornou objeto de intensos debates e disputas judiciais. Nos Estados Unidos, multiplicam-se os processos envolvendo grandes companhias de IA (como o da OpenAI e o do New York Times). No Brasil, o assunto ganhou força nas discussões do Projeto de Lei nº 2.338/2023, que busca estabelecer um marco regulatório para a IA, e coloca em lados opostos empresas de tecnologia e detentores de direitos autorais.

O que alegam as empresas de IA

As empresas de IA argumentam que o processo de treinamento não constitui uma violação direta de direitos autorais, pois os modelos não armazenam nem reproduzem as obras originais, mas apenas “aprendem” padrões a partir delas.

Um exemplo no mundo real frequentemente usado é o de um músico que, influenciado por estilos e artistas anteriores, cria novas canções — sem que isso gere obrigação de repassar direitos a quem o inspirou. Da mesma forma, um escritor não paga direitos aos autores dos livros que leu para desenvolver sua escrita.

A diferença é que, no caso das IAs, o aprendizado ocorre em uma escala e velocidade incomparavelmente maior. Ainda assim, as empresas defendem que os resultados gerados pelas IAs são obras novas e transformadas, e que, se houver casos de cópia literal ou plágio, as leis já existentes são suficientes para punir tais violações.

As empresas de IA em geral são favoráveis ao modelo de consentimento “opt-out” — isto é, o uso das obras seria permitido por padrão, salvo se o autor manifestar expressamente a proibição. As empresas afirmam que exigir um consentimento prévio (opt-in) seria inviável e travaria o desenvolvimento tecnológico.

O que alegam os detentores de direitos autorais

Do outro lado, os criadores e produtores de conteúdo sustentam que suas obras estão sendo utilizadas sem autorização e sem qualquer compensação financeira. Argumentam que o treinamento de IAs depende diretamente de obras intelectuais humanas — livros, músicas, reportagens, imagens, vídeos — e que esse uso não pode ser considerado simples “aprendizado”, mas exploração econômica de propriedade intelectual.

Além disso, alertam que a criação de conteúdo de qualidade exige investimento de tempo, pesquisa e recursos, e que a falta de remuneração pode comprometer a sustentabilidade da produção cultural e jornalística, reduzindo a diversidade e enfraquecendo o ecossistema criativo.

Defendem, portanto, o modelo “opt-in”, em que o autor deve autorizar previamente o uso de sua obra, bem como transparência na origem dos dados utilizados nos treinamentos — uma demanda que também aparece nas discussões sobre regulação algorítmica em geral.

Análise das consequências de um modelo de pagamento obrigatório

Do ponto de vista regulatório, a exigência de pagamento por direitos autorais no treinamento da IA poderia representar uma barreira significativa à inovação. Identificar quais dados, entre bilhões de itens usados para treinar um modelo, estão protegidos por direitos autorais é tecnicamente complexo e, em muitos casos, inviável.

Além disso, a negociação com milhares (ou milhões) de detentores de direitos autorais seria logisticamente impossível para startups e pequenas empresas. Isso poderia gerar concentração de mercado, com apenas um pequeno grupo de grandes empresas — as chamadas Big Techs — capazes de arcar com os custos e manter o acesso a vastos conjuntos de dados.

Outro possível efeito colateral seria o enfraquecimento da presença cultural e linguística de países como o Brasil. Se poucas empresas estiverem dispostas a pagar por conteúdo em português, os modelos serão menos expostos à cultura brasileira, o que tende a reduzir a representatividade da língua e da produção local nos sistemas de IA.

Por outro lado, a ausência total de remuneração aos detentores de direitos autorais pode comprometer os modelos de negócios baseados na criação humana, desincentivando a produção de obras originais e impactando negativamente a diversidade e a qualidade da informação disponível.

O Debate continua

O tema está longe de um consenso. Encontrar um equilíbrio entre inovação tecnológica e proteção da criação humana é um dos maiores desafios regulatórios da era digital.

Em um próximo artigo, abordaremos como diferentes países — como Estados Unidos, União Europeia e Japão — estão tratando a questão, além de detalhar o que propõe o Projeto de Lei nº 2.338/2023, que busca estabelecer um marco legal para a Inteligência Artificial no Brasil.

Quer saber mais sobre Direitos Autorais no treinamento de IAs? Acesse nossa sessão Direitos Autorais

Notícias relacionadas

Sony desenvolve tecnologia para identificar músicas em canções geradas por IA

Deepfakes e direito de imagem: como os países estão enfrentando o problema

Microsoft lança marketplace para licenciamento de conteúdo por sistemas de IA