
Uma das discussões mais intensas envolvendo a regulação de Inteligência Artificial (IA) diz respeito ao uso de obras protegidas por direitos autorais no treinamento da IA. Com o avanço da tecnologia, ficou evidente que a legislação de direitos autorais — concebida para um mundo analógico, ou no máximo digital — não cobre todas as lacunas de um cenário onde sistemas aprendem a partir de imensos volumes de dados.
De modo resumido, as empresas de IA precisam de grandes conjuntos de dados para treinar seus modelos. Em alguns casos, tratam-se de informações públicas e livremente acessíveis. Em outros, incluem materiais não públicos — como livros, reportagens disponíveis apenas para assinantes ou bancos de imagens pagos — mas que podem ser adquiridos legalmente.
Com a expansão dos modelos de IA, autores, editoras, jornalistas e artistas passaram a reivindicar o pagamento pelo uso de suas obras nesse processo de treinamento. Essa demanda provocou reação das empresas de tecnologia, e o tema se tornou objeto de intensos debates e disputas judiciais. Nos Estados Unidos, multiplicam-se os processos envolvendo grandes companhias de IA (como o da OpenAI e o do New York Times). No Brasil, o assunto ganhou força nas discussões do Projeto de Lei nº 2.338/2023, que busca estabelecer um marco regulatório para a IA, e coloca em lados opostos empresas de tecnologia e detentores de direitos autorais.
O que alegam as empresas de IA
As empresas de IA argumentam que o processo de treinamento não constitui uma violação direta de direitos autorais, pois os modelos não armazenam nem reproduzem as obras originais, mas apenas “aprendem” padrões a partir delas.
Um exemplo no mundo real frequentemente usado é o de um músico que, influenciado por estilos e artistas anteriores, cria novas canções — sem que isso gere obrigação de repassar direitos a quem o inspirou. Da mesma forma, um escritor não paga direitos aos autores dos livros que leu para desenvolver sua escrita.
A diferença é que, no caso das IAs, o aprendizado ocorre em uma escala e velocidade incomparavelmente maior. Ainda assim, as empresas defendem que os resultados gerados pelas IAs são obras novas e transformadas, e que, se houver casos de cópia literal ou plágio, as leis já existentes são suficientes para punir tais violações.
As empresas de IA em geral são favoráveis ao modelo de consentimento “opt-out” — isto é, o uso das obras seria permitido por padrão, salvo se o autor manifestar expressamente a proibição. As empresas afirmam que exigir um consentimento prévio (opt-in) seria inviável e travaria o desenvolvimento tecnológico.
O que alegam os detentores de direitos autorais
Do outro lado, os criadores e produtores de conteúdo sustentam que suas obras estão sendo utilizadas sem autorização e sem qualquer compensação financeira. Argumentam que o treinamento de IAs depende diretamente de obras intelectuais humanas — livros, músicas, reportagens, imagens, vídeos — e que esse uso não pode ser considerado simples “aprendizado”, mas exploração econômica de propriedade intelectual.
Além disso, alertam que a criação de conteúdo de qualidade exige investimento de tempo, pesquisa e recursos, e que a falta de remuneração pode comprometer a sustentabilidade da produção cultural e jornalística, reduzindo a diversidade e enfraquecendo o ecossistema criativo.
Defendem, portanto, o modelo “opt-in”, em que o autor deve autorizar previamente o uso de sua obra, bem como transparência na origem dos dados utilizados nos treinamentos — uma demanda que também aparece nas discussões sobre regulação algorítmica em geral.
Análise das consequências de um modelo de pagamento obrigatório
Do ponto de vista regulatório, a exigência de pagamento por direitos autorais no treinamento da IA poderia representar uma barreira significativa à inovação. Identificar quais dados, entre bilhões de itens usados para treinar um modelo, estão protegidos por direitos autorais é tecnicamente complexo e, em muitos casos, inviável.
Além disso, a negociação com milhares (ou milhões) de detentores de direitos autorais seria logisticamente impossível para startups e pequenas empresas. Isso poderia gerar concentração de mercado, com apenas um pequeno grupo de grandes empresas — as chamadas Big Techs — capazes de arcar com os custos e manter o acesso a vastos conjuntos de dados.
Outro possível efeito colateral seria o enfraquecimento da presença cultural e linguística de países como o Brasil. Se poucas empresas estiverem dispostas a pagar por conteúdo em português, os modelos serão menos expostos à cultura brasileira, o que tende a reduzir a representatividade da língua e da produção local nos sistemas de IA.
Por outro lado, a ausência total de remuneração aos detnteores de direitor autorais pode comprometer os modelos de negócios baseados na criação humana, desincentivando a produção de obras originais e impactando negativamente a diversidade e a qualidade da informação disponível.
O Debate continua
O tema está longe de um consenso. Encontrar um equilíbrio entre inovação tecnológica e proteção da criação humana é um dos maiores desafios regulatórios da era digital.
Em um próximo artigo, abordaremos como diferentes países — como Estados Unidos, União Europeia e Japão — estão tratando a questão, além de detalhar o que propõe o Projeto de Lei nº 2.338/2023, que busca estabelecer um marco legal para a Inteligência Artificial no Brasil.
Quer saber mais sobre Direitos Autorais no treinamento de IAs? Acesse nossa sessão Direitos Autorais



