Benchmark de Jogos de IA: Claude 3.7 Destrói o GPT-4o!

Os Videogames São o Último Benchmark de IA?

Durante anos, a avaliação de modelos de IA dependeu de benchmarks como MMLU, Chatbot Arena e SWE-Bench Verified. Mas com a evolução da IA, até especialistas como Andrej Karpathy questionam se esses métodos ainda são válidos.

Sua última preocupação? Os benchmarks de IA estão perdendo confiabilidade – e a resposta para uma melhor avaliação pode estar nos videogames.

Afinal, a IA tem uma longa história nos jogos. O DeepMind mudou o mundo com o AlphaGo derrotando campeões de Go. A OpenAI dominou o Dota 2, provando que a IA pode superar jogadores humanos em estratégia.

Agora, pesquisadores do Hao AI Lab da UC San Diego avançaram mais. Criaram uma IA “agente de jogos” de código aberto para testar LLMs em jogos de quebra-cabeça em tempo real – começando com o Super Mario Bros..

Resultados? O Claude 3.7 jogou 90 segundos inteiros – esmagando o GPT-4o da OpenAI, que morreu quase imediatamente.

Claude 3.7 Supera OpenAI e Google no Super Mario

O projeto GamingAgent, disponível para download open-source, permite que modelos de IA controlem personagens usando linguagem natural.

🔹 Claude 3.7 Sonnet durou impressionantes 90 segundos.
🔹 GPT-4o morreu em 20 segundos – derrotado pelo primeiro inimigo!
🔹 Gemini 1.5 Pro e Gemini 2.0 da Google tiveram desempenho ruim, falhando em movimentos básicos.

GPT-4o: A IA Que Não Sabe Pular

Imagine um jogador tão ruim que morre em segundos. Esse é o GPT-4o no Super Mario.

💀 Primeira tentativa: Morto pelo primeiro inimigo, como um iniciante total.

💀 Segunda tentativa: Quase não progrediu, parando a cada dois passos.

💀 Terceira tentativa: Ficou preso sob
O Gemini 1.5 Pro também falhou logo no primeiro inimigo. Porém, na segunda tentativa, mostrou alguma melhora – acertou um bloco de interrogação e pegou um Super Mushroom.

No entanto, desenvolveu um hábito estranho: pular a cada dois passos – fosse necessário ou não.
- 🚀 Pulou 9 vezes em curta distância
- 🚀 Saltou sobre canos, terreno e até espaços vazios
- 🚀 Chegou mais longe que o GPT-4o mas ainda caiu em um buraco
O Gemini 2.0 Flash foi ligeiramente melhor, pulando com mais fluidez e alcançando uma plataforma mais alta. Mas ainda assim não conseguiu escapar de um buraco perto do quarto cano – encerrando seu jogo.

Claude 3.7: O Pródigo do Super Mario?

Ao contrário dos modelos da OpenAI e Google, o Claude 3.7 jogou como um verdadeiro jogador.
- ✔ Só pulava quando necessário (para evitar obstáculos ou abismos)
- ✔ Evitou inimigos com saltos precisos
- ✔ Descobriu um power-up estrela escondido!
- ✔ Chegou ao ponto mais distante comparado a todas as outras IAs
<!– wp:image {"id":34088,"width":"688px","height":"auto
As IAs podem dominar jogos mais complexos?

Mario não é o único teste. Os pesquisadores também avaliaram modelos de IA em Tetris e 2048, dois clássicos jogos de quebra-cabeça que exigem tomada de decisão estratégica.

GPT-4o falha no 2048 – Claude 3.7 tem desempenho superior

No quebra-cabeça numérico 2048, a IA precisava deslizar blocos e fazer movimentos estratégicos.

🔹 GPT-4o falhou cedo, analisando excessivamente os movimentos.
🔹 Claude 3.7 durou mais, fazendo fusões mais inteligentes.
🔹 Nenhum modelo venceu – mas Claude superou o GPT-4o.

Desempenho do Claude 3.7 no Tetris impressiona especialistas

Quando testado no Tetris, o Claude 3.7 demonstrou:

✔ Estratégia decente para empilhar peças
✔ Limpeza adequada de linhas
✔ Sobrevivência mais longa que outros modelos de IA

Alex Albert da Anthropic elogiou o experimento, afirmando:

“Deveríamos transformar todos os videogames em benchmarks de IA!”

Os jogos são o futuro da avaliação de IA?

Os resultados sugerem que videogames podem se tornar o próximo grande padrão de avaliação para IA. Diferente de testes tradicionais, jogos exigem tomada de decisão em tempo real, adaptabilidade e habilidades motoras.

Com os modelos de IA avançando rapidamente, benchmarks estáticos podem não ser mais suficientes para julgar a verdadeira inteligência. Se os jogos se mostrarem uma medida melhor, poderemos ver modelos de IA treinando com aprendizado por reforço em milhares de jogos antes da implantação.

Considerações finais: Claude vence esta rodada, mas o que vem depois?

A jogabilidade superior do Claude 3.7 sugere raciocínio e adaptabilidade mais fortes em comparação com GPT-4o e Gemini. Mas conforme a IA evolui, qual modelo será o primeiro a vencer um jogo completo como um humano?

Com agentes de jogos de código aberto disponíveis, espere mais batalhas de IA vs. videogame em breve. Quem sabe? Talvez um dia a IA complete Super Mario sem erros – ou até derrote jogadores profissionais de esports.

Até lá, Claude permanece o rei dos jogos de IA – enquanto o GPT-4o precisa de muita prática!

Últimas publicações

Pare de fazer essas 10 coisas antes que seu cachorro te odeie para sempre!

Por que toda criança precisa desses brinquedos ‘chatos’ para crescer de maneira brilhante!

Vazamento do iPhone Ultra: o primeiro dobrável da Apple pode custar US $ 2.000 – e é imperdível!

10 víboras que podem matar você antes que você pisque!

Most Discussed

4 Fatores Pouco Conhecidos Que Podem Adicionar Anos à Sua Vida — Descubra-os Agora!

Acha que esses hábitos são saudáveis? Na verdade, você está prejudicando seu corpo!

Você Não Vai Acreditar em Como Cortar as Unhas do Gato Pode Ser Fácil!

Últimas publicações

A aldeia africana onde pessoas e crocodilos viveram em paz durante 600 anos

Pesadelo em uma casa de repouso: confronto mortal entre colegas de quarto idosos!

Por dentro da maior fábrica de mosquitos do mundo: como o Brasil está usando mosquitos para eliminar sua própria espécie!

Um avanço médico ou um dilema de direitos humanos? O conceito controverso de “robôs humanos”.

Most Discussed

A Grande Fuga de Alcatraz: Uma História do Mais Bizarro Escape Prisional

A Misteriosa Tribo Africana dos Pratos Labiais: Mulheres Começam a Usar Pratos Labiais aos 10 Anos – Quanto Maior o Prato, Mais Bela

Estrelas da NBA apanhadas no escândalo do pôquer da máfia – milhões em jogo!

Segredos da dieta finlandesa: por que a Finlândia é a nação mais saudável do mundo

A IA Acaba de Ser Destruída por Super Mario — Claude Vence, GPT-4o Falha Instantaneamente!

Os Videogames São o Último Benchmark de IA?

Claude 3.7 Supera OpenAI e Google no Super Mario

GPT-4o: A IA Que Não Sabe Pular

Claude 3.7: O Pródigo do Super Mario?

As IAs podem dominar jogos mais complexos?

GPT-4o falha no 2048 – Claude 3.7 tem desempenho superior

Desempenho do Claude 3.7 no Tetris impressiona especialistas

Os jogos são o futuro da avaliação de IA?

Considerações finais: Claude vence esta rodada, mas o que vem depois?

Comida de Rua Indiana: Uma Aventura Ousada e Picante te Espera!

Queijo Mais Fedido: Por Que Você Deve Experimentar a Boulette d'Avesnes

Recommended for You

Este robô hiper-realista é tão realista que pode roubar sua identidade!

Reunião ou Batalha? Trump e Zelensky se Enfrentam enquanto a Casa Branca se Transforma em uma Zona de Guerra!

Nintendo Switch 2 Está Chegando! Tela Enorme, Novos Joy-Cons & Recursos Impressionantes!

Chocante! Estes 10 Animais Mais Mortais Podem Matar Você em Segundos!

Samsung Acaba de Abalar o Mundo Tecnológico! Vazamentos do Galaxy A & XR Revelam Recursos Incríveis!

Previsão Chocante de Musk: IA Superará a Inteligência Humana até 2029

iPhone 17 Air: O iPhone mais fino de todos os tempos, com uma bateria que vai surpreender você!

De Prodigio do Parkour a Superstar da Fábrica: A Nova Missão Impressionante do Robô Atlas!

Pare de fazer essas 10 coisas antes que seu cachorro te odeie para sempre!

A aldeia africana onde pessoas e crocodilos viveram em paz durante 600 anos

Mantenha-se atualizado com as notícias mais interessantes

Mantenha-se atualizado com as notícias mais interessantes

A IA Acaba de Ser Destruída por Super Mario — Claude Vence, GPT-4o Falha Instantaneamente!

Os Videogames São o Último Benchmark de IA?

Claude 3.7 Supera OpenAI e Google no Super Mario

GPT-4o: A IA Que Não Sabe Pular

Claude 3.7: O Pródigo do Super Mario?

As IAs podem dominar jogos mais complexos?

GPT-4o falha no 2048 – Claude 3.7 tem desempenho superior

Desempenho do Claude 3.7 no Tetris impressiona especialistas

Os jogos são o futuro da avaliação de IA?

Considerações finais: Claude vence esta rodada, mas o que vem depois?

Mantenha-se atualizado com as notícias mais interessantes

Comida de Rua Indiana: Uma Aventura Ousada e Picante te Espera!

Queijo Mais Fedido: Por Que Você Deve Experimentar a Boulette d'Avesnes

Este robô hiper-realista é tão realista que pode roubar sua identidade!

Reunião ou Batalha? Trump e Zelensky se Enfrentam enquanto a Casa Branca se Transforma em uma Zona de Guerra!

Nintendo Switch 2 Está Chegando! Tela Enorme, Novos Joy-Cons & Recursos Impressionantes!

Chocante! Estes 10 Animais Mais Mortais Podem Matar Você em Segundos!

Samsung Acaba de Abalar o Mundo Tecnológico! Vazamentos do Galaxy A & XR Revelam Recursos Incríveis!

Previsão Chocante de Musk: IA Superará a Inteligência Humana até 2029

iPhone 17 Air: O iPhone mais fino de todos os tempos, com uma bateria que vai surpreender você!

De Prodigio do Parkour a Superstar da Fábrica: A Nova Missão Impressionante do Robô Atlas!