A inteligência artificial está pronta para obter nota máxima em um dos testes mais difíceis do mundo

A inteligência artificial está prestes a obter nota máxima em um teste projetado para medir a lacuna entre o aprendizado de máquina e a inteligência humana, apelidado de “Último Exame da Humanidade”.

O modelo Gemini do Google obteve impressionantes 45,9% no exame do mês passado, marcando um salto impressionante em relação ao desempenho de sistemas concorrentes apenas dois anos antes.

Quando o OpenAI ChatGPT tentou o teste pela primeira vez em 2024, obteve apenas 3% de precisão, com os concorrentes do Google e da Anthropic se saindo um pouco melhor.

O rápido desenvolvimento levou os investigadores da Scale, empresa responsável pelo teste de benchmark, a prever que a inteligência artificial poderia atingir o seu ponto máximo em cerca de doze meses.

O exame contém 2.500 questões cuidadosamente selecionadas, cobrindo aproximadamente cem assuntos, desde ciência de foguetes e mitologia até fisiologia e línguas antigas.

A Scale e a organização sem fins lucrativos Center for AI Safety desenvolveram o teste para examinar a amplitude do conhecimento e a profundidade do raciocínio em sistemas de IA.

Para formular as perguntas, os organizadores lançaram uma chamada global em setembro de 2024, oferecendo um fundo de prémios de 500.000 dólares a especialistas que pudessem apresentar desafios que seriam difíceis de responder através de uma pesquisa na Internet.

A resposta foi significativa, com profissionais de cerca de 50 países respondendo a cerca de 70 mil possíveis perguntas.

A inteligência artificial está pronta para obter nota máxima em um dos testes mais difíceis do mundo, descobriram especialistas

GETTY

Após eliminar todas as dúvidas relacionadas à resolução dos modelos existentes, a lista foi reduzida para 13 mil antes da seleção final.

Cada questão requer pelo menos um conhecimento de nível de doutorado, o que significa que qualquer pessoa que obtiver uma pontuação perfeita se qualifica como um “especialista universal”.

Calvin Zhang, chefe de pesquisa da Scale, explicou a ambição por trás do projeto: “Queríamos criar esta referência acadêmica estreita que está situada na fronteira da experiência humana e que apenas um punhado de pessoas na Terra pode realmente resolver”.

Ele elogiou os desenvolvedores que trabalharam nos modelos de linguagem, observando: “Temos visto um tremendo progresso nesses modelos de linguagem nos últimos anos. É impressionante, os modeladores realmente fizeram um ótimo trabalho melhorando esses modelos de raciocínio.”

O modelo Gemini do Google obteve impressionantes 45,9% na análise do mês passado

GETTY

A gerente de produto do Google DeepMind, Kate Olszewska, expressou sua crença de que o marco pode ser alcançado rapidamente se os recursos estiverem focados na meta.

“Se realmente nos importássemos com isso como a única vida, acho que chegaríamos lá muito rapidamente”, disse ele ao Daily Mail.

O sistema Claude da Antrópico, por sua vez, obteve 34,2% no exame e obteve rápida melhoria.

Tung Nguyen, professor de ciência da computação e engenharia da Texas A&M University que administrou as 73 questões do exame, ofereceu uma medida mais quantificável de progresso.

“O exame final da humanidade é uma das avaliações mais claras da lacuna entre a inteligência artificial e a inteligência humana”, explicou o especialista.

GETTY

“O exame final da humanidade é uma das avaliações mais claras da lacuna entre a inteligência artificial e a inteligência humana”, observou.

Embora o Dr. Nguyen tenha reconhecido os fortes resultados de alguns modelos, ele argumentou que os resultados mais fracos de outros mostram que persistem lacunas significativas.

“Quando os sistemas de IA começam a funcionar extremamente bem em relação aos benchmarks humanos, é tentador pensar que eles começarão a se aproximar da compreensão do nível humano”, observou o Dr. Nguyen, acrescentando: “Mas o HLE nos lembra que a inteligência não se trata apenas de reconhecimento de padrões – trata-se de profundidade, contexto e experiência”.

Ele enfatizou que o objetivo do benchmark não era simplesmente derrotar a IA, mas esclarecer onde a experiência humana ainda é importante.

Fonte da notícia

Portal nahora.com.pt

A inteligência artificial está pronta para obter nota máxima em um dos testes mais difíceis do mundo

ByMarta Gomes

By Marta Gomes

Related Post

Henry Nowak: Eu estava lutando para me controlar enquanto assistia às imagens da prisão. Foi angustiante, mas não estamos aqui para transmitir a verdade

Claude Opus 4.8 vs GPT-5.5: O que é o novo mod Ultracode da Anthropic AI, preços, reivindicações de integridade, debate sobre jailbreak

Voo da Ryanair decola sem 150 passageiros enquanto passageiros em pânico ‘correm’ em meio ao caos na fronteira da UE

You missed

Klarna (KLAR) faz parceria com Arrival para integrar uma opção de “pagamento integral” no aplicativo EasyPark

Henry Nowak: Eu estava lutando para me controlar enquanto assistia às imagens da prisão. Foi angustiante, mas não estamos aqui para transmitir a verdade

Claude Opus 4.8 vs GPT-5.5: O que é o novo mod Ultracode da Anthropic AI, preços, reivindicações de integridade, debate sobre jailbreak

Relatório preliminar de escotismo de verão da NFL de 2027: Justice Haynes, RB, Georgia Tech