Ter. Mar 31st, 2026

A inteligência artificial está prestes a obter nota máxima em um teste projetado para medir a lacuna entre o aprendizado de máquina e a inteligência humana, apelidado de “Último Exame da Humanidade”.

O modelo Gemini do Google obteve impressionantes 45,9% no exame do mês passado, marcando um salto impressionante em relação ao desempenho de sistemas concorrentes apenas dois anos antes.


Quando o OpenAI ChatGPT tentou o teste pela primeira vez em 2024, obteve apenas 3% de precisão, com os concorrentes do Google e da Anthropic se saindo um pouco melhor.

O rápido desenvolvimento levou os investigadores da Scale, empresa responsável pelo teste de benchmark, a prever que a inteligência artificial poderia atingir o seu ponto máximo em cerca de doze meses.

O exame contém 2.500 questões cuidadosamente selecionadas, cobrindo aproximadamente cem assuntos, desde ciência de foguetes e mitologia até fisiologia e línguas antigas.

A Scale e a organização sem fins lucrativos Center for AI Safety desenvolveram o teste para examinar a amplitude do conhecimento e a profundidade do raciocínio em sistemas de IA.

Para formular as perguntas, os organizadores lançaram uma chamada global em setembro de 2024, oferecendo um fundo de prémios de 500.000 dólares a especialistas que pudessem apresentar desafios que seriam difíceis de responder através de uma pesquisa na Internet.

A resposta foi significativa, com profissionais de cerca de 50 países respondendo a cerca de 70 mil possíveis perguntas.

A inteligência artificial está pronta para obter nota máxima em um dos testes mais difíceis do mundo, descobriram especialistas

|

GETTY

Após eliminar todas as dúvidas relacionadas à resolução dos modelos existentes, a lista foi reduzida para 13 mil antes da seleção final.

Cada questão requer pelo menos um conhecimento de nível de doutorado, o que significa que qualquer pessoa que obtiver uma pontuação perfeita se qualifica como um “especialista universal”.

Calvin Zhang, chefe de pesquisa da Scale, explicou a ambição por trás do projeto: “Queríamos criar esta referência acadêmica estreita que está situada na fronteira da experiência humana e que apenas um punhado de pessoas na Terra pode realmente resolver”.

Ele elogiou os desenvolvedores que trabalharam nos modelos de linguagem, observando: “Temos visto um tremendo progresso nesses modelos de linguagem nos últimos anos. É impressionante, os modeladores realmente fizeram um ótimo trabalho melhorando esses modelos de raciocínio.”

Google Gêmeos

O modelo Gemini do Google obteve impressionantes 45,9% na análise do mês passado

|

GETTY

A gerente de produto do Google DeepMind, Kate Olszewska, expressou sua crença de que o marco pode ser alcançado rapidamente se os recursos estiverem focados na meta.

“Se realmente nos importássemos com isso como a única vida, acho que chegaríamos lá muito rapidamente”, disse ele ao Daily Mail.

O sistema Claude da Antrópico, por sua vez, obteve 34,2% no exame e obteve rápida melhoria.

Tung Nguyen, professor de ciência da computação e engenharia da Texas A&M University que administrou as 73 questões do exame, ofereceu uma medida mais quantificável de progresso.

Gráficos de IA

“O exame final da humanidade é uma das avaliações mais claras da lacuna entre a inteligência artificial e a inteligência humana”, explicou o especialista.

|

GETTY

“O exame final da humanidade é uma das avaliações mais claras da lacuna entre a inteligência artificial e a inteligência humana”, observou.

Embora o Dr. Nguyen tenha reconhecido os fortes resultados de alguns modelos, ele argumentou que os resultados mais fracos de outros mostram que persistem lacunas significativas.

“Quando os sistemas de IA começam a funcionar extremamente bem em relação aos benchmarks humanos, é tentador pensar que eles começarão a se aproximar da compreensão do nível humano”, observou o Dr. Nguyen, acrescentando: “Mas o HLE nos lembra que a inteligência não se trata apenas de reconhecimento de padrões – trata-se de profundidade, contexto e experiência”.

Ele enfatizou que o objetivo do benchmark não era simplesmente derrotar a IA, mas esclarecer onde a experiência humana ainda é importante.

Fonte da notícia

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *