비디오 게임이 AI 벤치마크의 궁극적 기준이 될 수 있을까?
수년간 AI 모델 평가는 MMLU, 챗봇 아레나, SWE-Bench Verified와 같은 벤치마크에 의존해왔습니다. 하지만 AI가 진화함에 따라 안드레이 카파시 같은 전문가들조차 이 방법들이 여전히 유효한지 의문을 제기하고 있습니다.
그의 최근 우려사항? AI 벤치마크의 신뢰성이 떨어지고 있다는 것이며, 더 나은 평가 방법은 비디오 게임에 있을지 모른다는 점입니다.
결국 AI는 게임 분야에서 오랜 역사를 가지고 있습니다. 딥마인드의 알파고는 바둑 챔피언을 물리치며 세계를 놀라게 했습니다. 오픈AI는 도타 2에서 인간 플레이어를 압도하며 전략 게임에서 AI의 우수성을 입증했습니다.
이제 UC 샌디에고 Hao AI 연구소의 연구진들이 새로운 전기를 마련했습니다. 그들은 실시간 퍼즐 게임에서 대규모 언어 모델(LLM)을 테스트하기 위한 오픈소스 “게이밍 에이전트” AI를 개발했는데, 첫 번째 테스트 대상은 슈퍼 마리오 브라더스였습니다.
결과는? 클로드 3.7이 90초 동안 플레이하며 오픈AI의 GPT-4o를 압도했는데, GPT-4o는 시작하자마자 죽어버렸습니다.
슈퍼 마리오에서 클로드 3.7, 오픈AI와 구글 제치다
오픈소스로 제공되는 GamingAgent 프로젝트는 자연어를 사용해 AI 모델이 게임 캐릭터를 제어할 수 있도록 합니다.
🔹 클로드 3.7 소넷은 인상적인 90초 생존 기록
🔹 GPT-4o는 20초 만에 첫 번째 적에게 패배
🔹 구글의 제미니 1.5 프로와 2.0은 기본 이동에도 어려움
GPT-4o: 점프도 못하는 AI
시작하자마자 죽어버리는 최악의 플레이어를 상상해보세요. 그게 바로 GPT-4o의 슈퍼 마리오 실력입니다.
- 💀 첫 시도: 완전 초보처럼 첫 번째 적에게 당함

- 💀 두 번째 시도: 두 걸음마다 멈추는 답답한 플레이

- 💀 세 번째 시도: 파이프 아래에서 10초간 갇힌 후 최후를 맞이

고급 추론 능력을 자랑하는 AI 모델 치고는 GPT-4o의 성능이 충격적으로 저조했습니다.
구글 제미니: “두 걸음 점프” 전략
제미니 1.5 프로도 첫 번째 적에서 바로 실패했습니다. 하지만 두 번째 시도에서는 ?-블록을 치며 슈퍼 버섯을 획득하는 등 약간의 진전을 보였습니다.
하지만 이상한 습관이 생겼는데: 필요 없어도 두 걸음마다 점프를 반복했습니다.
- 🚀 짧은 거리에서 9번 점프

- 🚀 파이프, 땅, 심지어 빈 공간까지 점프

- 🚀 GPT-4o보다는 진전했지만 결국 구덩이에 추락

제미니 2.0 플래시는 좀 더 부드러운 점프로 높은 플랫폼에 도달했지만, 네 번째 파이프 근처 구덩이에서 탈출하지 못하고 게임을 마감했습니다.
클로드 3.7: 슈퍼 마리오 천재?
오픈AI와 구글 모델과 달리 클로드 3.7은 실제 게이머처럼 플레이했습니다.
- ✔ 필요할 때만 점프 (장애물 회피 시)

- ✔ 정확한 점프로 적 회피

- ✔ 숨겨진 스타 아이템 발견!

- ✔ 다른 모든 AI보다 가장 먼 거리 진출

클로드 3.7은 이전 최고 기록을 보유했던 제미니 2.0 플래시도 능가했습니다. 제미니가 구덩이에서 실패한 반면, 클로드는 구덩이를 넘고 추가 코인을 획득하며 쿠파 트루파 같은 새로운 적들과도 교전했습니다.
AI가 더 복잡한 게임을 정복할 수 있을까?
마리오만이 유일한 테스트는 아닙니다. 연구진들은 전략적 의사결정이 필요한 고전 퍼즐 게임 테트리스와 2048에서도 AI 모델을 평가했습니다.
GPT-4o, 2048 실패 – 클로드 3.7 더 나은 성능
숫자 합치기 퍼즐 2048에서 AI는 타일을 슬라이드하며 전략적 이동이 필요했습니다.
🔹 GPT-4o는 초반에 지나친 고민으로 실패
🔹 클로드 3.7은 더 오래 생존하며 스마트한 타일 병합
🔹 둘 다 승리하지는 못했지만 클로드가 우수

클로드 3.7의 테트리스 실력에 전문가들 감탄
테트리스 테스트에서 클로드 3.7은 다음과 같은 모습을 보였습니다:
✔ 블록 쌓기에 적절한 전략
✔ 라인 클리어 능력
✔ 다른 AI 모델보다 장시간 생존
앤트로픽의 알렉스 앨버트는 이 실험에 대해 이렇게 평가했습니다:
“모든 비디오 게임을 AI 벤치마크로 만들어야 합니다!”

게임이 AI 평가의 미래인가?
이 결과들은 비디오 게임이 AI의 차세대 벤치마크가 될 수 있음을 시사합니다. 기존 테스트와 달리 게임은 실시간 의사결정, 적응력, 운동 능력을 요구합니다.
AI 모델이 빠르게 발전함에 따라 정적 벤치마크만으로 진정한 지능을 평가하기 어려워지고 있습니다. 게임이 더 나은 평가 기준으로 입증된다면, 앞으로 강화 학습으로 수천 개의 게임을 훈련한 AI 모델들을 보게 될지도 모릅니다.
최종 결론: 클로드의 승리, 하지만 다음은?
클로드 3.7의 우수한 게임 플레이는 GPT-4o와 제미니보다 강력한 추론력과 적응력을 암시합니다. 하지만 AI가 진화함에 따라 인간처럼 게임을 완수하는 첫 모델은 누가 될까요?
오픈소스 게이밍 에이전트가 등장한 만큼, 곧 더 많은 AI vs 게임 대결이 펼쳐질 것입니다. 어쩌면 언젠가 AI가 실수 없이 슈퍼 마리오를 클리어하거나, 인간 e스포츠 선수를 제치게 될지도 모릅니다.
그때까지는 클로드가 AI 게임의 왕좌를 지키며, GPT-4o는 심각한 연습이 필요해 보입니다!