인핸스 :: 자동화 Mobile 에이전트 연구 동향

자동화 Mobile 에이전트 연구 동향

April 4, 2025

Tech

1. 왜 모바일 에이전트인가요?

최근 몇 년 사이, 대형 언어 모델(Large Language Models, LLMs)의 발전은 다양한 자동화 분야에서 새로운 가능성을 열어주고 있습니다. 그중에서도 모바일 환경에서 작동하는 에이전트에 대한 관심이 빠르게 증가하고 있습니다. 모바일 에이전트는 사용자의 개입 없이 복잡한 작업을 자동으로 수행하며, 특히 시각 정보와 언어 정보를 함께 처리할 수 있는 멀티모달 능력을 갖춘 시스템으로 주목받고 있습니다.

스마트폰이나 태블릿은 다양한 앱과 동적인 사용자 인터페이스를 포함하고 있어, 전통적인 정적 스크립트 방식의 자동화만으로는 대응하기 어렵습니다. 이에 따라, 실시간으로 환경을 인식하고 계획하며 적절한 행동을 수행할 수 있는 자율적인 모바일 에이전트의 필요성이 더욱 부각되고 있습니다.

2. 모바일 에이전트란 무엇인가요?

모바일 에이전트는 모바일 기기 상에서 사용자의 명시적 개입 없이도 환경을 인식하고 과업을 수행하는 자율 시스템입니다. 초기의 에이전트는 주로 정해진 규칙에 따라 작동하는 룰 기반(rule-based) 방식이었지만, 최근에는 이미지와 텍스트를 동시에 이해하고 처리할 수 있는 멀티모달 모델 기반의 시스템으로 발전하고 있습니다.

이러한 에이전트는 단순히 미리 정해진 명령을 실행하는 수준을 넘어서, 화면에 나타나는 UI 요소를 해석하고, 상황에 따라 다음 행동을 계획하며, 클릭, 스와이프, 입력 등 다양한 상호작용을 수행할 수 있습니다. 모바일 환경 특성상 화면이 작고 사용자 인터페이스가 빈번하게 변경되기 때문에, 실시간 적응 능력은 에이전트의 핵심 역량 중 하나입니다.

3. 에이전트의 핵심 구성 요소

일반적인 자동화 모바일 에이전트의 의사 결정 과정
(출처: https://arxiv.org/pdf/2411.02006)

‍

모바일 에이전트는 일반적으로 네 가지 핵심 구성 요소로 이루어집니다. 각각은 지각(Perception), 계획(Planning), 행동(Action), 기억(Memory)으로 구분되며, 이들 요소가 상호작용함으로써 에이전트는 동적인 모바일 환경에서 복잡한 작업을 자율적으로 수행할 수 있습니다.

지각은 화면에 보이는 텍스트, 버튼, 이미지 등의 시각적 정보를 인식하고 해석하는 단계입니다. 기존에는 OCR 기반의 단순 추출 방식이 일반적이었지만, 최근에는 UI 구조를 시맨틱하게 이해하고, 사용자의 의도와 상호작용 가능한 요소를 구별할 수 있는 시각 인식 기술이 도입되고 있습니다. 특히 일반적인 비전 모델은 모바일 환경에 특화되어 있지 않기 때문에, 모바일 UI에 최적화된 데이터셋과 학습 기법이 중요해지고 있습니다.

계획은 인식된 정보를 바탕으로 에이전트가 수행해야 할 작업의 순서를 정하는 과정입니다. 이는 자연어 지시를 분석하거나, 내부 상태와 목표 상태 간의 차이를 계산하여 행동 계획을 수립하는 방식으로 진행됩니다. 최근에는 프롬프트 기반 접근 방식과 구조화된 행동 플래너를 사용하는 방식이 병행되어 연구되고 있습니다.

행동은 실제로 터치, 스크롤, 텍스트 입력 등의 상호작용을 수행하는 단계입니다. GUI 기반 상호작용 외에도 시스템 API 호출을 통해 더 깊은 수준의 자동화가 가능하며, 일부 연구에서는 실행기와 플래너를 분리한 계층적 구조를 통해 더 안정적인 작업 수행을 추구하고 있습니다.

기억은 과거의 상호작용 이력, 화면 상태, 사용자 입력 등을 저장하고 재활용하는 기능을 담당합니다. 단기 기억은 세션 내의 문맥 유지를 위한 용도로, 장기 기억은 이전 작업 경험을 바탕으로 보다 정교한 의사결정을 가능하게 합니다. 최근에는 벡터 기반 메모리 구조와 파라메트릭 메모리를 결합한 하이브리드 방식이 주목받고 있습니다.

4. 에이전트 분류: 프롬프트 기반과 학습 기반

모바일 에이전트는 그 구현 방식에 따라 크게 두 가지로 분류할 수 있습니다. 하나는 프롬프트 기반(prompt-based) 방식이며, 다른 하나는 학습 기반(training-based) 방식입니다.

프롬프트 기반 에이전트는 대형 언어 모델(LLM)을 중심으로 구성되며, 자연어로 주어진 지시를 해석하고 실행 계획을 수립하는 데 중점을 둡니다. 이 방식에서는 명시적인 학습 과정 없이 모델이 이미 보유한 사전지식을 바탕으로 복잡한 GUI 상호작용을 수행합니다. 대표적인 예로는 GPT-4 기반의 AppAgent, MobileAgent, OmniAct 등이 있으며, 이러한 시스템은 시각 정보와 텍스트 정보를 결합하여 시나리오를 이해하고, 연속적인 작업을 자연어 기반으로 수행할 수 있도록 설계되어 있습니다. 프롬프트 엔지니어링, CoT(Chain-of-Thought) 기법, self-reflection 등이 주요 기술로 활용되고 있습니다.

반면, 학습 기반 에이전트는 명시적인 학습 과정을 통해 특정 태스크나 환경에 특화된 성능을 보유하도록 설계됩니다. 주로 멀티모달 모델을 미세조정하거나, 강화학습을 통해 행동 정책을 학습하는 방식이 사용됩니다. 대표적인 사례로는 LLaVA, MobileVLM, UI-VLM, AutoGUI, DigiRL 등이 있으며, 이들은 대규모 모바일 UI 데이터셋을 활용하여 시각적 요소와 언어적 지시를 함께 해석하고 행동으로 전환하는 능력을 학습합니다. 학습 기반 접근 방식은 특정 환경에서는 높은 정밀도와 안정성을 보이지만, 새로운 환경에 대한 범용성은 상대적으로 낮은 편입니다.

5. 에이전트 평가 방식과 실험 환경

모바일 에이전트의 성능을 정확하게 측정하기 위해서는 적절한 평가 기준과 실험 환경이 필요합니다. 기존의 정적 평가 방식은 화면 상태와 지시문이 고정된 데이터셋에서 정답 행동 시퀀스와의 일치도를 측정하는 방식으로, PixelHelp, MiniWoB++, UGIF와 같은 데이터셋이 활용됩니다. 이러한 방식은 비교적 통제된 조건에서 모델의 정확도를 확인할 수 있지만, 복수의 유효한 행동 경로가 존재할 수 있는 실제 환경에서는 평가의 유연성이 떨어질 수 있습니다.

이를 보완하기 위해 등장한 것이 상호작용 기반 평가입니다. AndroidEnv, Mobile-Env, AndroidArena와 같은 환경은 실제 에이전트가 UI를 조작하면서 피드백을 받고 다음 행동을 결정하는 구조로 되어 있으며, 복잡한 작업 시나리오에서의 적응력, 연속적 계획 능력 등을 평가할 수 있습니다. 최근에는 오픈월드 환경에서의 실험도 시도되고 있으며, 이 경우 에이전트는 동적인 컨텐츠 변화, 다양한 디바이스 상태, 예측 불가능한 사용자 인터페이스 조건에 직면하게 됩니다.

에이전트 평가 방식은 크게 과정 중심 평가와 결과 중심 평가로 나뉩니다. 과정 중심 평가는 정해진 행동 시퀀스를 얼마나 잘 따랐는지를 기준으로 하며, 주로 trajectory similarity를 기반으로 합니다. 반면, 결과 중심 평가는 최종 목표 도달 여부만을 판단하므로, 다양한 접근 경로를 인정할 수 있고 실용성 측면에서 더 의미 있는 평가 방식으로 간주되고 있습니다. 최근에는 두 접근법을 통합하여 에이전트의 전반적인 수행 능력을 보다 정밀하게 측정하려는 시도도 증가하고 있습니다.

‍

6. 최신 기술 트렌드

모바일 에이전트 기술은 다양한 세부 영역에서 빠르게 발전하고 있으며, 다음과 같은 기술적 경향이 주요한 흐름을 이루고 있습니다.

첫째, 시각적 정보와 언어 정보를 통합하는 멀티모달 처리 능력이 향상되고 있습니다. 기존의 시각 인식 시스템은 모바일 UI 특유의 시맨틱 구조를 제대로 반영하지 못하는 경우가 많았으나, 최근에는 모바일 특화된 데이터셋과 프리트레이닝 전략을 통해 시각 인식 성능이 개선되고 있습니다. 특히 CogAgent, Seeclick, Spotlight와 같은 연구들은 UI 내에서의 인터랙티브 요소 인식 정확도를 높이기 위해 다양한 시각적 특성 학습 전략을 도입하고 있습니다.

둘째, 프롬프트 기반 계획 수립 기법이 정교해지고 있습니다. 예를 들어, OmniAct와 같은 시스템은 외부 도구 호출, 포맷 조정, 체계적인 추론을 가능하게 하는 고도화된 프롬프트 구조를 활용하고 있으며, 시각-언어-행동 간 정보 흐름을 효과적으로 조율할 수 있는 방식으로 발전하고 있습니다.

셋째, 실행 구조의 분화와 모듈화가 진행되고 있습니다. 플래너-액션 분리 구조를 통해 각 컴포넌트의 특화와 최적화를 가능하게 하며, 이를 통해 에이전트의 확장성과 유지보수성 또한 향상되고 있습니다. Octo-planner와 Octopus v2의 조합은 이러한 방향성을 잘 보여주는 사례입니다.

넷째, 기억 메커니즘의 고도화가 이루어지고 있습니다. 단기 기억뿐 아니라, 세션 간 문맥 유지와 장기 작업 이력 학습을 위한 벡터 기반 장기 기억 구조가 적극적으로 활용되고 있으며, 이를 통해 복잡한 시나리오에서의 지속적인 적응이 가능해지고 있습니다.

7. 앞으로의 과제와 연구 방향

모바일 에이전트 기술이 빠르게 발전하고 있음에도 불구하고 해결해야 할 도전 과제들도 여전히 많이 남아 있습니다.

가장 먼저 고려해야 할 것은 보안과 프라이버시입니다. 에이전트가 사용자 기기를 조작하게 되면, 민감한 데이터에 접근할 수 있는 권한도 함께 갖게 되기 때문에, 에이전트의 동작을 검증하고 제한하는 메커니즘이 필수적입니다. 프라이버시를 보장하면서도 강력한 기능을 제공하기 위한 기술적 설계가 필요합니다.

다음으로는 환경 적응력의 문제입니다. 모바일 앱은 빈번하게 UI가 변경되며, 사용자 디바이스의 상태나 설정 또한 매우 다양합니다. 이러한 동적인 환경 변화에 효과적으로 대응할 수 있는 리액티브(reaction-aware) 설계가 요구됩니다.

또한, 복수의 에이전트가 협력하여 과업을 수행하는 멀티에이전트 구조도 중요한 연구 영역입니다. 각 에이전트가 독립적인 역할을 수행하면서도 상호간의 의사소통과 역할 분담을 통해 복잡한 작업을 분산 처리하는 구조는 향후 에이전트 기술의 확장성과 실제 응용 가능성을 결정짓는 핵심 요소가 될 수 있습니다.

‍

References

Bai, H., Zhou, Y., Cemri, M., Pan, J., Suhr, A., Levine, S., & Kumar, A. (2024). DigiRL: Training in-the-wild device-control agents with autonomous reinforcement learning. arXiv preprint arXiv:2406.11896.
Chen, W., & Li, Z. (2024). Octopus v2: On-device language model for super agent. arXiv preprint arXiv:2404.01744.
Chen, W., Li, Z., Guo, Z., & Shen, Y. (2024). Octo-planner: On-device language model for planner-action agents. arXiv preprint arXiv:2406.18082.
Cheng, K., Sun, Q., Chu, Y., Xu, F., Li, Y., Zhang, J., & Wu, Z. (2024). SeeClick: Harnessing GUI grounding for advanced visual GUI agents. arXiv preprint arXiv:2401.10935.
Hong, W., Wang, W., Lv, Q., Xu, J., Yu, W., Ji, J., Wang, Y., Wang, Z., Dong, Y., Ding, M., et al. (2023). CogAgent: A visual language model for GUI agents. arXiv preprint arXiv:2312.08914.
Kapoor, R., Butala, Y. P., Russak, M., Koh, J. Y., Kamble, K., Alshikh, W., & Salakhutdinov, R. (2024). OmniAct: A dataset and benchmark for enabling multimodal generalist autonomous agents for desktop and web. arXiv preprint arXiv:2402.17553.
Li, Y., Zhang, C., Yang, W., Fu, B., Cheng, P., Chen, X., Chen, L., & Wei, Y. (2024). AppAgent V2: Advanced agent for flexible mobile interactions. arXiv preprint arXiv:2408.11824.
Liu, H., Li, C., Wu, Q., & Lee, Y. J. (2023). Visual instruction tuning. arXiv preprint arXiv:2304.08485.
Ma, X., Zhang, Z., & Zhao, H. (2024). Coco-Agent: A comprehensive cognitive MLLM agent for smartphone GUI automation. Findings of the Association for Computational Linguistics: ACL 2024, 9097–9110.
Rawles, C., Li, A., Rodriguez, D., Riva, O., & Lillicrap, T. (2024). AndroidInTheWild: A large-scale dataset for Android device control. Advances in Neural Information Processing Systems, 36.
Toyama, D., Hamel, P., Gergely, A., Comanici, G., Glaese, A., Ahmed, Z., Jackson, T., Mourad, S., & Precup, D. (2021). AndroidEnv: A reinforcement learning platform for Android. arXiv preprint arXiv:2105.13231.
Wang, J., Xu, H., Jia, H., Zhang, X., Yan, M., Shen, W., Zhang, J., Huang, F., & Sang, J. (2024a). MobileAgent V2: Mobile device operation assistant with effective navigation via multi-agent collaboration. arXiv preprint arXiv:2406.01014.
Wang, J., Xu, H., Ye, J., Yan, M., Shen, W., Zhang, J., Huang, F., & Sang, J. (2024b). MobileAgent: Autonomous multi-modal mobile device agent with visual perception. arXiv preprint arXiv:2401.16158.
Wu, B., Li, Y., Fang, M., Song, Z., Zhang, Z., Wei, Y., & Chen, L. (2024). Foundations and Recent Trends in Multimodal Mobile Agents: A Survey. arXiv preprint arXiv:2411.02006.
Yang, Z., Liu, J., Han, Y., Chen, X., Huang, Z., Fu, B., & Yu, G. (2023). AppAgent: Multimodal agents as smartphone users. arXiv preprint arXiv:2312.13771.
Zhang, D., Chen, L., & Yu, K. (2023). Mobile-Env: A universal platform for training and evaluation of mobile interaction. arXiv preprint arXiv:2305.08144.
Zhang, Z., Zhang, X., Xie, W., & Lu, Y. (2023). Responsible Task Automation: Empowering large language models as responsible task automators. arXiv preprint arXiv:2306.01242.

‍