top of page
  • Foto do escritorTime GRUPO XPER GLOBAL

“Disjuntores” para sistemas de IA

LLMs e outros sistemas de IA são vulneráveis ​​a ataques adversários. Por exemplo, os usuários podem frequentemente fazer com que LLMs gerem saídas prejudiciais por meio de jailbreaking. Embora várias abordagens tenham sido propostas para se defender contra esses tipos de ataques, elas não conseguem generalizar a ampla gama de vulnerabilidades. Nesta história, explicamos uma nova abordagem.


“Disjuntores” podem evitar saídas prejudiciais intervindo nas representações internas de um modelo.

Um novo artigo apresenta “disjuntores” como um método para defender sistemas de IA de ataques adversários. Em vez de focar somente em saídas prejudiciais, os “disjuntores” interrompem processos prejudiciais dentro de sistemas de IA observando e intervindo em suas representações internas.

Uma dessas técnicas apresentadas no artigo é "Representation Rerouting". Essa técnica redireciona representações internas relacionadas a processos prejudiciais para estados incoerentes ou de recusa, efetivamente "curto-circuitando" a geração de conteúdo prejudicial. A técnica é versátil, pois pode ser aplicada a agentes LLMs e AI em várias modalidades.


Este método requer a criação de dois conjuntos de dados: um conjunto "circuit breaker" que contém ações ou respostas que são proibidas, e um conjunto "retain" que inclui ações ou respostas que são permitidas. Ao treinar o modelo com esses conjuntos de dados, os pesquisadores podem ajustar os processos internos da IA ​​para reconhecer e interromper saídas prejudiciais.


“Disjuntores” produzem resultados promissores, embora mais trabalho seja necessário.

A abordagem do artigo foi capaz de atingir uma redução significativa em saídas prejudiciais: 87% para Llama-3 (8B). Também reduziu ações prejudiciais em agentes de IA em 83-84%. 

Ao mesmo tempo, a abordagem teve impacto mínimo nas capacidades do modelo (menos de 1% de redução no desempenho geral). Também foi eficaz em configurações multimodais, incluindo resistência ao sequestro baseado em imagem.

No entanto, embora os resultados iniciais sejam encorajadores, é importante estar ciente de que nenhuma abordagem única provavelmente será uma solução perfeita e permanente. O código está disponível aqui .




3 visualizações0 comentário

Comments

Rated 0 out of 5 stars.
No ratings yet

Add a rating
bottom of page