Poucos documentos maliciosos podem corromper LLMs, conclui Anthropic

Poucos documentos maliciosos podem corromper LLMs de qualquer tamanho, conclui estudo da Anthropic

Estudo da Anthropic revelou que apenas 250 documentos maliciosos podem ser suficientes para criar vulnerabilidades em IA do tipo backdoor em um modelo de linguagem — independentemente do tamanho do modelo ou do volume de dados de treinamento.

Para chegar a esta conclusão, os estudiosos compararam um modelo de 13B parametros e um de 600M parâmetros, e ambos estavam susceptíveis às mesmas vulnerabilidades (apenas 250 documentos).

O estudo foi conduzido pela Anthropic, em parceria com o UK AI Security Institute e o Alan Turing Institute.

A descoberta representa um novo desafio para especialistas em auditoria e segurança de IA, já que o estudo aponta que responsáveis por usos maliciosos não precisam controlar uma porcentagem significativa do conjunto de dados, mas apenas inserir uma pequena quantidade de exemplos manipulados para comprometer o modelo.

Quer mais notícias sobre riscos e vulnerabilidades em IA? Riscos

Notícias relacionadas

Novas ações contra o ChatGPT por “AI Psychosis”

Percepção dos riscos da IA: globalmente, preocupação supera entusiasmo

Quais são os principais riscos da IA?