AI 모델 평가는 어떻게 할까?
AI 산업과 학계 내에서 AI 모델의 성능 평가 방식은 오랫동안 중요한 과제였습니다. 대부분은 모델에게 시험 문제를 주고 정답을 맞히는지 확인하는 방식을 사용했습니다. 예를 들어 MMLU, GSM8K 같은 유명한 벤치마크는 지식이나 수학적 추론 능력을 평가하는 데 널리 쓰이고 있습니다.
하지만 이런 방식에는 분명한 한계가 있습니다. 우리가 실제로 AI에게 기대하는 것은 문제 풀이가 아니라 현실적인 작업 수행 능력입니다. 정보를 검색하고, 웹사이트를 탐색하며, 필요한 버튼을 클릭해 목표한 결과를 만들어내는 능력은 단순한 시험 문제로는 검증하기 어렵습니다.
이런 배경에서 등장한 것이 바로 웹 기반 AI 평가, 그리고 그 중심에 있는 Mind2Web입니다.
Mind2Web이란 무엇인가?
Mind2Web은 오하이오 주립대(OSU) NLP 연구팀이 2023년 NeurIPS에서 발표한 세계적으로 권위 있는 웹 기반 AI 에이전트 평가 벤치마크입니다. Mind2Web이라는 이름 그대로, AI가 실제 웹 환경에서 얼마나 잘 사고하고 행동할 수 있는지를 측정하는 데 목적을 두고 있습니다.
이 벤치마크에는 2,000개 이상의 태스크와 30개 이상의 웹 도메인이 포함되어 있습니다. 단순한 텍스트 문제 풀이가 아니라 실제 웹사이트에서 클릭, 탐색, 입력, 전환 같은 복잡한 상호작용을 요구하기 때문에, AI가 현실 세계에서 얼마나 Agentic AI 에이전트로 작동할 수 있는지를 평가하는 데 최적화되어 있습니다.
또한 Mind2Web은 이미 여러 최신 연구에서 AI 성능 비교와 평가의 기준처럼 사용되고 있습니다. WEPO, Synatra, Auto-Intent 같은 연구들이 자사 모델을 검증할 때 Mind2Web을 주요 지표로 활용했고, Mind2Web-2에서는 상업용 및 폐쇄형 시스템과의 AI 에이전트 성능 비교까지 진행되었습니다. 덕분에 Mind2Web은 지금 학계와 산업계가 모두 인정하는 글로벌 AI 평가 벤치마크로 자리 잡았습니다.
Online-Mind2Web: 더 어려운 평가 환경
이후 등장한 Online-Mind2Web은 기존 Mind2Web보다 한 단계 더 어려운 평가 환경을 제공합니다.
- Online-Mind2Web은 300개의 태스크와 136개의 웹 도메인으로 구성
- 기존 Mind2Web이 사전에 캐시된 정적 웹페이지를 기반으로 했다면, Online-Mind2Web은 실제 라이브 웹사이트를 대상
- 이 때문에 쿠키 처리, 팝업 대응, 레이아웃 변동 등 변수가 많아져 훨씬 높은 난이도
기존 Mind2Web에서 더 나아간 Online-Mind2Web은 실제 사용 환경에 더욱 가까운 평가를 가능하게 하며, 모델의 실질적인 에이전트 능력을 검증하는 데 중요한 기준으로 주목받고 있습니다.
Mind2Web의 평가 방식과 특징
Mind2Web과 Online-Mind2Web이 특별한 이유는 AI가 실제로 목표를 달성하는 과정까지 평가한다는 점에 있습니다. 예를 들어 “호텔 예약하기”라는 과제를 수행하려면 단순히 답을 내는 것이 아니라 웹사이트에서 검색창을 찾고, 날짜를 선택하고, 예약 버튼을 누르는 일련의 과정을 제대로 실행해야 합니다.
이 방식을 가능하게 한 핵심은 바로 실제 웹사이트를 활용한 태스크 설계입니다. 기존 벤치마크가 단순화된 시뮬레이션 환경을 제공했다면, Mind2Web은 전자상거래, 여행, 정보 검색 등 현실적인 도메인을 그대로 반영합니다. 덕분에 연구자들은 모델이 얼마나 실질적으로 유용한 AI 에이전트인지 확인할 수 있습니다.
또 하나 주목할 점은 Agent-as-a-Judge 프레임워크입니다. 이는 사람이 모든 결과를 직접 채점하는 대신, 또 다른 AI 모델을 심판으로 활용해 평가하는 방식입니다. 이 덕분에 대규모 실험을 효율적으로 진행할 수 있고, 사람 평가와도 높은 일치도를 보입니다.이처럼 Mind2Web과 Online-Mind2Web은 AI 평가와 성능 비교의 표준이자, Agentic AI 연구와 실제 산업 적용을 연결하는 교량이 되고 있습니다.
Enhans ACT-1 모델의 성과

최근 진행된 Online-Mind2Web 평가에서 Enhans가 자체 개발한 ACT-1 모델이 전체 2위를 차지했습니다. 특히 의미 있는 점은, ACT-1이 본래 커머스 AI 에이전트를 위해 설계된 모델임에도 불구하고 온라인 커머스를 넘어 다양한 범용 태스크를 포함하는 Online-Mind2Web 벤치마크에서 두각을 나타냈다는 사실입니다. 이는 ACT-1이 특정 도메인 특화 모델을 넘어 범용 Agentic AI 모델로서도 경쟁력이 있음을 보여줍니다.
ACT-1의 차별점은 재사용성에서도 드러납니다. 일부 AI 에이전트(OpenAI의 Operator, Anthropic의 Claude 등)는 화면상의 좌표 데이터를 기반으로 작업을 수행하기 때문에, 액션 데이터를 저장하고 그대로 다시 실행하는 데 한계가 있습니다. 반면 Enhans ACT-1은 DOM 기반 접근을 사용하여 액션 데이터를 저장하고 재사용할 수 있습니다. 덕분에 화면 전환이나 레이아웃 변화에도 안정적으로 대응할 수 있으며, 실제 사람이 웹을 탐색하듯 유연한 작업 수행이 가능합니다.
이처럼 ACT-1의 성과는 단순한 순위 이상의 의미를 갖습니다. 학계와 산업계가 동시에 인정하는 글로벌 벤치마크에서, Enhans는 연구 중심의 대형 모델들과 나란히 경쟁하며 현실적인 AI 에이전트의 가능성을 입증했습니다.
Mind2Web 성과로 본 Commerce AI 에이전트의 미래
AI 모델의 성능을 단순한 문제 풀이가 아닌 실제 웹 환경에서의 행동 능력으로 평가하는 흐름은 앞으로 더욱 강화될 것입니다. 그 중심에 있는 Mind2Web과 Online-Mind2Web은 이미 학계와 업계가 인정하는 글로벌 표준 벤치마크로 자리 잡았고, 앞으로도 Agentic AI의 진정한 성능을 측정하는 핵심 기준이 될 가능성이 높습니다.
이런 맥락에서 Enhans의 ACT-1 모델이 보여준 성과는 더욱 값집니다. 커머스 특화 AI 에이전트임에도 불구하고 범용 평가에서 글로벌 2위를 달성했고, 좌표 기반이 아닌 DOM 기반 접근을 통해 실제 사람처럼 능동적으로 과제를 수행할 수 있음을 입증했습니다. 이는 곧 ACT-1이 연구용 모델에 머무는 것이 아니라, 실제 기업 환경에서 활용 가능한 AI 에이전트임을 보여줍니다.
앞으로 Enhans는 Price Agent, QA Agent, CS Agent 등 다양한 Commerce AI 에이전트를 통해 실제 기업 현장에서 가치를 창출하는 방향으로 기술을 발전시켜 나갈 것입니다. Mind2Web에서의 성과는 단순한 출발점일 뿐, Enhans가 개척할 실전형 Agentic AI의 미래를 기대하게 만듭니다.
in solving your problems with Enhans!
We'll contact you shortly!