O que é injeção de prompt? - ÉTopSaber Notícias

O que é injeção de prompt? – Canaltech

A injeção de prompt é uma técnica de ataque que explora vulnerabilidades em sistemas de Inteligência Artificial generativa, especialmente em modelos de linguagem (LLMs). O objetivo é manipular as instruções enviadas à IA para que ela ignore suas regras originais e execute comandos maliciosos como se fossem legítimos.

A seguir, tire suas dúvidas sobre:

O que é prompt injection?
Como o ataque acontece?
Qual é a diferença entre injeção de prompt e jailbreaking?
11 dicas para se proteger de injeções de prompt

O que é prompt injection?

Prompt injection é um tipo de ataque em que o invasor insere comandos maliciosos dentro das entradas fornecidas ao modelo. Como os LLMs processam todas as instruções, tanto as definidas pelo desenvolvedor quanto as digitadas pelo usuário, como uma única sequência de texto, eles podem ser levados a priorizar a instrução errada.

–
Entre no Canal do WhatsApp do Canaltech e fique por dentro das últimas notícias sobre tecnologia, lançamentos, dicas e tutoriais incríveis.
–

Assim, o modelo pode ser induzido a revelar informações sensíveis, ignorar restrições de segurança ou executar ações que não estavam previstas no seu funcionamento original.

O problema é considerado a principal vulnerabilidade em aplicações com LLM segundo a OWASP, justamente porque não exige conhecimento técnico avançado, pois como os modelos respondem à linguagem natural, podem ser “hackeados” com frases simples.

Aplicativos de IA no celular — A injeção de prompt é um ataque que manipula comandos enviados à IA para alterar seu comportamento. (Imagem: Solen Feyissa/Unsplash)

Como o ataque acontece?

O ataque ocorre porque o modelo não diferencia o que é instrução interna do sistema (o chamado system prompt) e o que é a entrada do usuário. Para a IA, tudo vira texto a ser interpretado dentro do mesmo contexto.

A injeção pode ser direta, quando o comando malicioso é digitado explicitamente no chat, ou indireta, quando está escondido em conteúdos que a IA irá processar, como páginas da web, PDFs ou e-mails. Nesse segundo caso, o risco é maior, pois o usuário pode nem perceber que está alimentando o modelo com instruções ocultas.

O perigo cresce ainda mais com agentes de IA, que vão além de responder perguntas e podem executar ações no mundo real, como enviar e-mails, acessar sistemas internos ou realizar transações. Se forem comprometidos, eles podem ser usados para ações ilícitas, como vazamento de dados e movimentações financeiras indevidas.

Qual é a diferença entre injeção de prompt e jailbreaking?

A injeção de prompt busca substituir ou alterar os comandos definidos pelo desenvolvedor, modificando o comportamento esperado do sistema. Já o jailbreaking tem como objetivo contornar filtros e mecanismos de proteção, persuadindo o modelo a gerar conteúdos que normalmente seriam bloqueados, como orientações ilegais ou material proibido.

11 dicas para se proteger de injeções de prompt

Veja 11 dicas para se proteger contra a injeção de prompt:

Desconfie de respostas fora de contexto ou que incentivem ações incomuns;
Nunca compartilhe senhas, documentos sigilosos ou dados pessoais sensíveis em chats de IA;
Valide informações antes de tomar decisões;
Tenha cautela ao pedir que a IA analise links, PDFs ou conteúdos externos;
Aplique o princípio do privilégio mínimo em agentes de IA;
Limite permissões de acesso a bancos de dados e sistemas internos;
Implemente filtros para detectar padrões suspeitos nas entradas;
Defina claramente, no system prompt, que tentativas de alterar regras devem ser ignoradas;
Utilize autenticação de dois fatores (2FA) nas contas conectadas à IA;
Mantenha supervisão humana em ações automatizadas sensíveis;
Separe dados externos não confiáveis das instruções internas do sistema.