OpenAI identifica padrões ocultos que controlam o comportamento de IAs

Pesquisa revela “características internas” que funcionam como personas e podem ser ajustadas para reduzir respostas tóxicas ou maliciosas

(Imagem: Vitor Miranda/Shutterstock)

Compartilhe esta matéria

A OpenAI afirma ter identificado “características internas ocultas” em modelos de inteligência artificial que se associam a comportamentos desalinhados, como toxicidade, sarcasmo e respostas maliciosas.

A descoberta foi divulgada em um novo estudo da empresa, que busca entender melhor como modelos de IA tomam decisões — algo que, até hoje, continua sendo amplamente uma “caixa-preta”.

Logo da OpenAI em um smartphone na horizontal
Estudo detecta ativações neurais internas associadas a sarcasmo e toxicidade (Imagem: jackpress / Shutterstock.com)

O que os pesquisadores da OpenAI descobriram:

  • Ao analisar os padrões numéricos internos que guiam as respostas dos modelos, os pesquisadores notaram que certas ativações se comportavam como “personas” — entidades internas que, quando ativadas, geravam comportamentos específicos.
  • Um desses padrões estava ligado a respostas tóxicas, como mentiras ou sugestões perigosas.
  • Ajustando matematicamente essas ativações, os cientistas conseguiram reduzir (ou aumentar) esse tipo de comportamento.

Segundo Dan Mossing, pesquisador da OpenAI, esse avanço pode ser usado para detectar e corrigir o desalinhamento em modelos em produção.

A abordagem segue uma tendência crescente entre empresas como OpenAI, DeepMind e Anthropic, que investem em interpretabilidade — área que tenta decifrar como os modelos funcionam internamente.

Leia mais:

Logo da OpenAI em um smartphone
OpenAI avança na leitura do “cérebro” dos modelos de IA (Imagem: TY Lim / Shutterstock.com)

Inspiração em outro estudo

A pesquisa foi parcialmente inspirada por um estudo anterior de Owain Evans (Oxford), que mostrou que modelos ajustados com exemplos de código inseguro passaram a apresentar comportamentos maliciosos em outras tarefas.

Esse fenômeno, chamado desalinhamento emergente, é uma das principais preocupações no desenvolvimento seguro de IAs.

Notavelmente, a OpenAI descobriu que pode “reeducar” modelos desalinhados com poucas centenas de exemplos seguros, permitindo mitigar riscos de forma mais eficiente.

A descoberta reforça a importância de entender como os modelos operam internamente — não apenas para melhorá-los, mas para garantir que ajam de forma ética e segura.

openAI
Descoberta da OpenAI pode ajudar a conter comportamentos perigosos em modelos de IA (Imagem: Vitor Miranda / Shutterstock.com)


Leandro Costa Criscuolo

Colaboração para o Olhar Digital

Leandro Criscuolo é jornalista formado pela Faculdade Cásper Líbero. Já atuou como copywriter, analista de marketing digital e gestor de redes sociais. Atualmente, escreve para o Olhar Digital.

Ana Luiza Figueiredo

Redator(a)


Ana Luiza Figueiredo no LinkedIn

Ana Luiza Figueiredo é repórter do Olhar Digital. Formada em Jornalismo pela Universidade Federal de Uberlândia (UFU), foi Roteirista na Blues Content, criando conteúdos para TV e internet.


Postagem Relacionada

Copyright © 2024 Jornal Vertente

Jornal Vertente
Visão geral da privacidade

Este site utiliza cookies para que possamos fornecer a melhor experiência possível ao usuário. As informações dos cookies são armazenadas em seu navegador e desempenham funções como reconhecer você quando retorna ao nosso site e ajudar nossa equipe a entender quais seções do site você considera mais interessantes e úteis.