Modo escuro Modo claro

Mantenha-se atualizado com as notícias mais interessantes

Ao clicar no botão Inscrever-se, você confirma que leu e concorda com nossa Política de Privacidade e Termos de Uso
Follow Us

Mantenha-se atualizado com as notícias mais interessantes

Ao clicar no botão Inscrever-se, você confirma que leu e concorda com nossa Política de Privacidade e Termos de Uso

A IA Acaba de Ser Destruída por Super Mario — Claude Vence, GPT-4o Falha Instantaneamente!

Os Videogames São o Último Benchmark de IA?

Durante anos, a avaliação de modelos de IA dependeu de benchmarks como MMLU, Chatbot Arena e SWE-Bench Verified. Mas com a evolução da IA, até especialistas como Andrej Karpathy questionam se esses métodos ainda são válidos.

Sua última preocupação? Os benchmarks de IA estão perdendo confiabilidade – e a resposta para uma melhor avaliação pode estar nos videogames.

Afinal, a IA tem uma longa história nos jogos. O DeepMind mudou o mundo com o AlphaGo derrotando campeões de Go. A OpenAI dominou o Dota 2, provando que a IA pode superar jogadores humanos em estratégia.

Advertisement

Agora, pesquisadores do Hao AI Lab da UC San Diego avançaram mais. Criaram uma IA “agente de jogos” de código aberto para testar LLMs em jogos de quebra-cabeça em tempo real – começando com o Super Mario Bros..

Resultados? O Claude 3.7 jogou 90 segundos inteiros – esmagando o GPT-4o da OpenAI, que morreu quase imediatamente.

Claude 3.7 Supera OpenAI e Google no Super Mario

O projeto GamingAgent, disponível para download open-source, permite que modelos de IA controlem personagens usando linguagem natural.

🔹 Claude 3.7 Sonnet durou impressionantes 90 segundos.
🔹 GPT-4o morreu em 20 segundos – derrotado pelo primeiro inimigo!
🔹 Gemini 1.5 Pro e Gemini 2.0 da Google tiveram desempenho ruim, falhando em movimentos básicos.

GPT-4o: A IA Que Não Sabe Pular

Imagine um jogador tão ruim que morre em segundos. Esse é o GPT-4o no Super Mario.

  • 💀 Primeira tentativa: Morto pelo primeiro inimigo, como um iniciante total.
  • 💀 Segunda tentativa: Quase não progrediu, parando a cada dois passos.
  • 💀 Terceira tentativa: Ficou preso sob

    O Gemini 1.5 Pro também falhou logo no primeiro inimigo. Porém, na segunda tentativa, mostrou alguma melhora – acertou um bloco de interrogação e pegou um Super Mushroom.

    No entanto, desenvolveu um hábito estranho: pular a cada dois passos – fosse necessário ou não.

    • 🚀 Pulou 9 vezes em curta distância
    • 🚀 Saltou sobre canos, terreno e até espaços vazios
    • 🚀 Chegou mais longe que o GPT-4o mas ainda caiu em um buraco

    O Gemini 2.0 Flash foi ligeiramente melhor, pulando com mais fluidez e alcançando uma plataforma mais alta. Mas ainda assim não conseguiu escapar de um buraco perto do quarto cano – encerrando seu jogo.

    Claude 3.7: O Pródigo do Super Mario?

    Ao contrário dos modelos da OpenAI e Google, o Claude 3.7 jogou como um verdadeiro jogador.

    • Só pulava quando necessário (para evitar obstáculos ou abismos)
    • Evitou inimigos com saltos precisos
    • Descobriu um power-up estrela escondido!
    • Chegou ao ponto mais distante comparado a todas as outras IAs
    <!– wp:image {"id":34088,"width":"688px","height":"auto

    As IAs podem dominar jogos mais complexos?

    Mario não é o único teste. Os pesquisadores também avaliaram modelos de IA em Tetris e 2048, dois clássicos jogos de quebra-cabeça que exigem tomada de decisão estratégica.

    GPT-4o falha no 2048 – Claude 3.7 tem desempenho superior

    No quebra-cabeça numérico 2048, a IA precisava deslizar blocos e fazer movimentos estratégicos.

    🔹 GPT-4o falhou cedo, analisando excessivamente os movimentos.
    🔹 Claude 3.7 durou mais, fazendo fusões mais inteligentes.
    🔹 Nenhum modelo venceu – mas Claude superou o GPT-4o.

    Desempenho do Claude 3.7 no Tetris impressiona especialistas

    Quando testado no Tetris, o Claude 3.7 demonstrou:

    Estratégia decente para empilhar peças
    Limpeza adequada de linhas
    Sobrevivência mais longa que outros modelos de IA

    Alex Albert da Anthropic elogiou o experimento, afirmando:

    “Deveríamos transformar todos os videogames em benchmarks de IA!”

    Os jogos são o futuro da avaliação de IA?

    Os resultados sugerem que videogames podem se tornar o próximo grande padrão de avaliação para IA. Diferente de testes tradicionais, jogos exigem tomada de decisão em tempo real, adaptabilidade e habilidades motoras.

    Com os modelos de IA avançando rapidamente, benchmarks estáticos podem não ser mais suficientes para julgar a verdadeira inteligência. Se os jogos se mostrarem uma medida melhor, poderemos ver modelos de IA treinando com aprendizado por reforço em milhares de jogos antes da implantação.

    Considerações finais: Claude vence esta rodada, mas o que vem depois?

    A jogabilidade superior do Claude 3.7 sugere raciocínio e adaptabilidade mais fortes em comparação com GPT-4o e Gemini. Mas conforme a IA evolui, qual modelo será o primeiro a vencer um jogo completo como um humano?

    Com agentes de jogos de código aberto disponíveis, espere mais batalhas de IA vs. videogame em breve. Quem sabe? Talvez um dia a IA complete Super Mario sem erros – ou até derrote jogadores profissionais de esports.

    Até lá, Claude permanece o rei dos jogos de IA – enquanto o GPT-4o precisa de muita prática!

Mantenha-se atualizado com as notícias mais interessantes

Ao clicar no botão Inscrever-se, você confirma que leu e concorda com nossa Política de Privacidade e Termos de Uso
Previous Post

Comida de Rua Indiana: Uma Aventura Ousada e Picante te Espera!

Next Post

Queijo Mais Fedido: Por Que Você Deve Experimentar a Boulette d'Avesnes

Advertisement