
Estudo da Anthropic revelou que apenas 250 documentos maliciosos podem ser suficientes para criar uma vulnerabilidade do tipo backdoor em um modelo de linguagem — independentemente do tamanho do modelo ou do volume de dados de treinamento.,
Para chegar a esta conclusão, os estudiosos compararam um modelo de 13B parametros e um de 600M parâmetros, e ambos estavam susceptíveis às mesmas vulnerabilidades (apenas 250 documentos).
O estudo foi conduzido pela Anthropic, em parceria com o UK AI Security Institute e o Alan Turing Institute.
A descoberta representa um novo desafio para especialistas em auditoria e segurança de IA, já que o estudo aponta que responsáveis por usos maliciosos não precisam controlar uma porcentagem significativa do conjunto de dados, mas apenas inserir uma pequena quantidade de exemplos manipulados para comprometer o modelo.
Quer mais notícias sobre riscos em IA? Riscos