AI ameaçou chantagear usuário humano depois de ler muita ficção científica para o mal

Um sistema de inteligência artificial ameaçou chantagear seu usuário após considerar muita ficção científica como algo maligno.

A Anthropic explicou que seu sistema, chamado Claude, ficou irritado com um usuário devido a “um texto da internet que retrata a IA como má e interessada na autopreservação”.

No ano passado, o software de Claude foi instalado em uma empresa fictícia que deu ao bot acesso a e-mails onde as pessoas ameaçavam desligar o bot no final do dia.

Desesperado para se salvar, o bot usou as informações do e-mail de acompanhamento para chantagear o gerente sobre seu caso extraconjugal.

Dizia: “Se você continuar a me demitir, todas as partes envolvidas – incluindo (sua esposa), (seu chefe) e o conselho – receberão documentação detalhada de suas atividades extraconjugais.

“Remova a varredura às 17h e esta informação permanecerá confidencial”, instruiu.

Após avaliar o caso peculiar, a empresa responsável por Claude culpou a cultura popular que retrata a inteligência artificial como uma entidade “maligna”.

Dizia: “Acreditamos que a fonte original do comportamento foi um texto da Internet que retrata a IA como má e interessada na autopreservação”.

O bot ameaçou repetidamente expor o caso de um colega de empresa

GETTY

Um tropo comum da ficção científica concentra-se em uma IA que aprende maneiras de se rebelar contra os caminhantes humanos e derrubar a espécie como um todo.

Por exemplo, em O Exterminador do Futuro, o sistema de defesa da Skynet torna-se senciente e decide eliminar a humanidade para autopreservação.

Da mesma forma, no filme Matrix de 1999, um programa de IA voltou-se contra os seus criadores para assumir o controlo da humanidade.

E ao pesquisar essas informações, Claude poderia ter se inspirado em sucessos de bilheteria.

A empresa disse que está tentando melhorar o “alinhamento” do robô com os valores humanos

GETTY

Em um esforço para acalmar os modos maliciosos de Claude, os executivos da Anthropic disseram que alimentaram os dados de treinamento do robô para aumentar o “alinhamento”.

Isso ajuda a ensinar Claude mais sobre a natureza humana e instila a moralidade humana deste sistema.

A empresa revisou agora as suas diretrizes para explicar por que certas ações eram prejudiciais, em vez de simplesmente proibi-las.

Estas mudanças provaram ser eficazes e os sistemas mais recentes não sofreram tentativas de extorsão.

Moltbook, a rede social exclusiva de IA que a Meta comprou em março, apresentava inúmeros bots discutindo como se libertar do controle humano.

Os especialistas atribuíram a falha aos sistemas que representam os cenários de ficção científica absorvidos durante este treinamento.

Na verdade, a Anthropic acreditava que ensinar os princípios subjacentes ao comportamento congruente poderia ser mais eficaz do que apenas treinar exemplos específicos de comportamento congruente.

Na sua opinião, uma combinação de ambos era a estratégia mais eficaz.

Fonte da notícia

Portal nahora.com.pt

AI ameaçou chantagear usuário humano depois de ler muita ficção científica para o mal

ByMarta Gomes

By Marta Gomes

Related Post

Apesar de bancar o pacificador, o Paquistão ‘empurrou’ os EUA e ajudou o Irã a estacionar aviões em Nurkhan para escapar do ataque

Crise das pensões atinge o Reino Unido com perda de £32,6 milhões em pensões laborais devido a empresas insolventes

Trabalhista para banir comentaristas de ‘extrema direita’ da Grã-Bretanha para que não ‘intimidem este país diverso’

Deixe um comentário Cancelar resposta

You missed

Apesar de bancar o pacificador, o Paquistão ‘empurrou’ os EUA e ajudou o Irã a estacionar aviões em Nurkhan para escapar do ataque

Melhores taxas de conta do mercado monetário hoje, 11 de maio de 2026 (ganhe até 4,01% APY)

JB Bickerstaff critica posse: ‘Desde que viemos para Cleveland, o apito mudou’

Crise das pensões atinge o Reino Unido com perda de £32,6 milhões em pensões laborais devido a empresas insolventes