MARIC: 이미지 분류를 위한 멀티 에이전트 추론

January 16, 2026
Research

저자: Wonduk Seo*, Minhyeong Yu*, Hyunjin An, Seunghyun Lee

소속: 인핸스(Enhans)

게재 전

TL;DR

  • 본 논문은 MARIC을 소개한다. MARIC은 단일 패스 VLM 추론이나 학습 중심의 파인튜닝에 의존하는 대신, 시각적 이해를 상호 보완적인 관점으로 분해함으로써 이미지 분류를 개선하는 멀티 에이전트 프레임워크이다.
  • MARIC은 분류를 **협업적 추론(collaborative reasoning)**으로 재정의한다:
    • 요약 에이전트는 전역 컨텍스트로부터 타겟 프롬프트를 제안하고,
    • 관점 에이전트는 서로 다른 시각적 차원 전반에 걸쳐 세밀한 설명을 생성하며,
    • 추론 에이전트는 이를 명시적인 추론 트레이스와 함께 최종 라벨로 합성한다.
  • 핵심 설계는 반성적 합성(reflective synthesis)이다: 라벨을 예측하기 전에, 추론 에이전트는 에이전트 출력들을 재검토하고 비판하여 불일치를 줄이고 핵심 증거를 강조함으로써, 의사결정을 더 견고하고 해석 가능하게 만든다.
  • MARIC은 모델 파인튜닝 없이도 해석 가능성을 향상시키며, 라벨이 왜 예측되었는지를 설명하는 데 도움이 되는 구조화된 추론 트레이스를 생성하는 동시에, 추론 시점 프레임워크로서의 확장성을 유지한다.

초록

이미지 분류는 전통적으로 대규모 주석 데이터셋을 활용한 파라미터 집약적인 학습에 의존해 왔다. 비전–언어 모델(VLM)은 과제별 학습의 필요성을 줄여주지만, 시각적 콘텐츠의 상호 보완적인 측면을 포착하지 못하는 단일 패스 표현에 여전히 제한되는 경우가 많다.

본 논문에서는 **이미지 분류를 위한 멀티 에이전트 기반 추론(MARIC)**을 제안한다. MARIC은 분류를 협업적 추론 과정으로 재구성하는 멀티 에이전트 프레임워크이다. MARIC은 전역적인 테마를 추론하고 타겟 프롬프트를 생성하는 요약 에이전트, 서로 다른 시각적 차원에서 세밀한 설명을 추출하는 관점 에이전트, 그리고 내장된 반성 단계를 통해 이러한 출력들을 통합해 하나의 표현과 최종 라벨로 만드는 추론 에이전트를 사용한다.

네 가지 서로 다른 이미지 분류 벤치마크에서의 실험 결과는 MARIC이 강력한 기준선 모델들을 유의미하게 상회함을 보여주며, 견고하고 해석 가능한 이미지 분류를 위한 멀티 에이전트 시각 추론의 효과성을 강조한다.

서론

CNN에서 비전 트랜스포머로 이어지는 수십 년간의 발전에도 불구하고, 이미지 분류의 최신 성능은 종종 대규모 라벨 데이터와 광범위한 파인튜닝에 의존해 왔다. 비전–언어 모델은 텍스트 프롬프팅을 통한 제로샷 분류를 가능하게 하며 매력적인 대안을 제공하지만, 많은 VLM 기반 접근법은 여전히 단일 패스 추론에 의존한다.

이는 상호 보완적인 단서(예: 배경 맥락 vs. 미세한 질감)를 놓칠 수 있으며, 시각적 증거가 모호하거나 부분적으로 가려진 경우 취약한 예측을 초래한다.

MARIC은 다른 접근을 취한다. 분류를 원샷 생성 문제로 취급하는 대신, 시각적 추론을 여러 전문화된 에이전트로 분해하고 반성적 합성을 통해 증거를 하나의 일관된 판단으로 집계한다. 이러한 설계는 추가 학습 없이 전적으로 추론 단계에서 작동하면서도 정확도와 해석 가능성을 모두 개선한다.

데이터셋 및 평가 설정

데이터셋

MARIC은 정형, 강건성, 의료 영역을 포괄하는 네 가지 벤치마크에서 평가된다.

  • CIFAR-10: 10개 클래스 벤치마크, 클래스당 100장 이미지 샘플링
  • OOD-CV: 분포 외(out-of-distribution) 강건성 벤치마크, 10개 클래스, 클래스당 100장 샘플링
  • Weather: 4개 클래스 기상 조건 데이터셋(일출 / 맑음 / 비 / 흐림), 1,125장 이미지
  • Skin Cancer: 이진 흑색종 탐지(정상 vs. 암), 클래스당 87장 이미지

모델 및 평가 방식

VLM 백본 모델

  • LLaVA-1.5 7B 및 13B (temperature 0)

기준선(Baselines)

  • Direct Generation: 최소한의 프롬프트로 이미지에서 라벨을 예측
  • Chain-of-Thought (CoT): 모델이 단계적으로 추론하도록 프롬프트
  • SAVR: 단일 수작업 추론 프롬프트를 한 번에 적용

MARIC 프레임워크

MARIC의 핵심 아이디어는 전문화된 에이전트를 통해 상호 보완적인 증거를 명시적으로 수집하고, 이를 반성적으로 합성해 최종 판단을 도출함으로써 이미지 분류 성능을 향상시키는 것이다.

MARIC은 세 단계로 구성된다.

1. 요약 에이전트 (전역 테마 → 타겟 프롬프트)

입력 이미지 I가 주어지면, 요약 에이전트는 먼저 전체 장면과 테마를 식별한 뒤 이후 단계에서 주목해야 할 요소를 정의하는 타겟 프롬프트 집합을 생성한다. 이 프롬프트는 프리픽스–포스트픽스 구조를 따른다.

  • 프리픽스(Prefix): 특정 영역/속성에 주의 집중
  • 포스트픽스(Postfix): 설명의 목적을 지정

이는 중복을 줄이고 직교적인 증거 추출을 유도한다.

2. 관점 에이전트 (세밀하고 상호 보완적인 설명)

각 관점 에이전트는 이미지와 하나의 타겟 프롬프트를 입력으로 받아, 특정 시각적 차원(예: 질감, 형태, 배경 맥락)에 초점을 둔 설명 dᵢ를 생성한다. 목표는 장황함이 아니라 커버리지로, 여러 부분적 설명을 통해 단일 패스 설명보다 이미지를 더 충실하게 표현하는 것이다.

3. 추론 에이전트 (반성 → 통합 추론 트레이스 + 라벨)

추론 에이전트는 설명 집합 {d₁, d₂, d₃}을 통합해 다음을 생성한다.

  • 추론 트레이스(reasoning trace)
  • 최종 예측 라벨

MARIC의 핵심은 여기에 포함된 반성 단계이다. 추론 에이전트는 관점 에이전트의 출력 결과를 다시 검토하고, 불일치를 비판적으로 평가하며, 노이즈를 제거하고 핵심 단서를 강조한 뒤 최종 라벨을 결정한다. 이를 통해 자기 교정적이면서도 해석 가능한 판단이 가능해진다.

실험 결과

주요 결과

네 가지 모든 벤치마크에서 MARIC은 Direct Generation, CoT, SAVR 대비 일관된 성능 향상을 보인다. CoT는 긴 설명을 생성하더라도 정확도 향상으로 이어지지 않는 경우가 많으며, 단일 에이전트 프롬프트는 미묘하거나 상호 보완적인 시각적 증거를 놓치기 쉽다. MARIC은 다각적 관점 추출과 증거 통합을 강제함으로써 이 두 문제를 동시에 해결한다.

제거 실험(Ablation)

관점 에이전트를 제거할 경우 성능이 특히 정교한 설정에서 크게 저하되며, 이는 MARIC의 성능 향상이 단순히 강력한 최종 프롬프트가 아니라 분해 + 상호 보완적 증거 수집에서 비롯됨을 보여준다. 주목할 점은, 관점 에이전트가 없더라도 요약 에이전트와 반성적 추론 조합은 여전히 경쟁력 있는 성능을 유지한다는 점으로, 전역 프롬프팅과 반성 메커니즘 자체의 가치도 입증된다.

정량적 분석(Qualitative Analysis)

CIFAR-10 샘플에 대한 사용자 연구에서는 MARIC의 관점 분해를 다음 세 가지 기준으로 평가한다.

  • 관점 관련성(Aspect Relevance)
  • 관점 다양성(Aspect Diversity)
  • 설명 정확도(Description Accuracy)

결과는 모든 기준에서 높은 평균 점수를 보였으며, 이는 MARIC의 에이전트들이 의미 있고 중복되지 않으며 이미지 콘텐츠에 충실한 관점과 설명을 생성함을 나타낸다.

결론

MARIC은 이미지 분류가 단일 패스 VLM 추론이나 학습 중심 파이프라인보다 협업적 멀티 에이전트 추론으로부터 상당한 이점을 얻을 수 있음을 보여준다. 타겟팅된 전역 프롬프팅, 상호 보완적인 관점 설명, 그리고 반성적 합성을 결합함으로써, MARIC은 다양한 데이터셋 전반에서 더 정확하고, 더 견고하며, 더 해석 가능한 예측을 제공한다. 추론 시점 프레임워크로서, 기존 VLM 백본과 쉽게 통합될 수 있으며 신뢰할 수 있는 시각적 이해 시스템을 구축하기 위한 확장 가능한 방향을 제시한다.

Source

Arxiv, MARIC: Multi-Agent Reasoning for Image Classification

Interested in solving your
problems with Enhans?

  • 01.
    Tell us about yourself
  • 02.
    Which company or organization do you belong to?
  • 03.
    Which company or organization do you belong to?
Next
Next

Please see our Privacy Policy regarding how we will handle this information.

Thank you for your interest
in solving your problems with Enhans!
We'll contact you shortly!
Oops! Something went wrong while submitting the form.