;

SPIO: 멀티 에이전트가 스스로 최적 전략을 탐색하는 데이터 사이언스 자동화 프레임워크

April 17, 2026
Research

저자: Wonduk Seo, Juhyeon Lee, Yanjun Shao, Qingshan Zhou, Seunghyun Lee, Yi Bu
소속: Enhans, Peking University, Yale University
게재: ACL 2026 Main
논문 링크: https://arxiv.org/html/2503.23314v2

요약

  1. SPIO는 고정된 단일 경로 워크플로우를 대체하는 LLM 기반 자동화 데이터 사이언스 프레임워크로, 데이터 전처리, 피처 엔지니어링, 모델 선택, 하이퍼파라미터 튜닝 네 가지 모듈에 걸쳐 순차적 다중 경로 플래닝을 수행한다.
  2. 본 연구의 핵심은 각 단계에 특화된 에이전트가 복수의 후보 전략을 생성한 뒤 최적화 에이전트가 하나의 최적 파이프라인을 선택하거나 상위 파이프라인들을 앙상블하는 방식으로, 초기에 단일 경로를 확정하지 않는다는 데 있다.
  3. SPIO는 두 가지 변형으로 구성된다. SPIO-S는 단일 최적 파이프라인을 선택하고, SPIO-E는 상위 파이프라인들을 앙상블하여 더 강한 견고성을 제공한다. 프레임워크는 이후 단계의 결정이 중간 단계의 증거에 기반하기 때문에, 기존 멀티 에이전트 시스템 대비 적응성이 높고 결과를 추적하기 쉽다.
  4. Kaggle 및 OpenML의 12개 벤치마크 데이터셋 전반에서 SPIO는 Zero-shot, CoT, Agent K, AutoKaggle, OpenHands, Data Interpreter, AIDE 등 강력한 비교 기법 대비 평균 5.6% 향상된 성능을 기록하였다. 추가 절제 연구에서는 상위 랭킹 계획이 실제로 더 우수하며, 상위 2개 앙상블이 전반적으로 최적이고, 피처 엔지니어링과 하이퍼파라미터 튜닝이 성능 향상에 가장 크게 기여한다는 점이 확인되었다.

초록

LLM 기반 데이터 사이언스 에이전트는 여전히 경직된 워크플로우와 제한적인 전략 탐색 문제를 안고 있으며, 이로 인해 최적의 파이프라인이 도출되지 않는 경우가 빈번히 발생하고 있다. SPIO는 이를 해결하기 위해 순차적 플래닝 프레임워크를 도입한다. 머신러닝 파이프라인의 네 가지 핵심 단계에 걸쳐 복수의 후보 전략을 생성하고 정제하며, 단일 추론 경로에 의존하지 않고 대안들을 탐색한 후 최적의 전략을 선택하거나 앙상블한다. 그 결과, 보다 유연하고 정확하며 신뢰할 수 있는 자동화 데이터 사이언스 프레임워크가 구현된다.

서론

본 논문은 효과적인 예측 파이프라인 구축에 여전히 상당한 수작업이 요구된다는 관찰에서 출발한다. 특히 전처리, 피처 설계, 모델 선택, 튜닝 영역에서 그 필요성이 두드러진다. LLM과 최근의 멀티 에이전트 시스템이 자동화 수준을 높여왔으나, 상당수는 사전에 정의된 단계 구조나 단일 경로 추론에 의존한다. SPIO는 이러한 한계에 대한 대응이다. 하나의 워크플로우를 사전에 고정하지 않고, 복수의 후보 경로를 유지하며 이전 단계의 순차적 증거를 활용하여 이후 단계의 결정을 개선한다. 이를 통해 전체 프로세스의 적응성이 높아지고 결과를 추적하기 쉬워진다.

데이터셋 및 평가 설정

실험에는 Kaggle과 OpenML 두 가지 벤치마크 소스가 활용되었으며, 분류 및 회귀 과제를 아우르는 총 12개의 데이터셋을 대상으로 평가하였다.

  • 데이터셋: Kaggle 8개, OpenML 4개
  • 기반 모델: GPT-4o, Claude 3.5 Haiku, LLaMA3-8B
  • 주요 비교 기법: Zero-shot 추론, Chain-of-Thought 프롬프팅, Agent K v1.0, AutoKaggle, OpenHands, Data Interpreter, AIDE
  • 평가지표: 분류 과제는 정확도, 회귀 과제는 RMSE, 해당하는 경우 ROC도 함께 보고

프레임워크: SPIO

SPIO는 자동화 데이터 사이언스를 전처리, 피처 엔지니어링, 모델 선택, 하이퍼파라미터 튜닝의 네 가지 모듈로 구성한다. 각 모듈에서는 코드 생성 에이전트가 기준 솔루션을 생성한 후, 순차 플래닝 에이전트가 현재 코드, 출력 결과, 이전 플래닝 이력을 활용하여 대안 전략을 제안한다. 이를 통해 전체 파이프라인에 걸친 구조화된 후보 전략 집합이 형성된다.

SPIO-S는 단일 경로 버전으로, LLM 기반 최적화 에이전트가 후보 전략 집합에서 최적의 전체 파이프라인을 선택하고, 선택된 계획에서 최종 실행 코드를 생성한다.

SPIO-E는 앙상블 버전으로, 상위 k개의 계획을 선택하여 각각 코드를 생성하고, 분류 과제에는 각 모델의 예측 확률을 평균내어 최종 결정하는 방식(soft voting)을, 회귀 과제에는 평균화 방식으로 예측을 결합한다. 실험에서 프레임워크는 모듈당 최대 2개의 후보 계획을 생성하며, SPIO-E는 일반적으로 상위 2개의 전체 파이프라인을 앙상블한다.

SPIO는 복수의 에이전트를 사용하되, 각 단계에서 복수의 후보 전략을 명시적으로 추론하고 이후 선택을 이전 단계의 중간 증거와 연결한다는 점에서 기존 시스템과 구별된다. 즉, 실행 후 코드를 정제하는 방식이 아니라 전체 파이프라인에 걸친 계획 수준의 추론을 수행한다.

비교 기법

본 연구는 두 가지 단순 프롬프팅 기법과 다섯 가지 최신 멀티 에이전트 또는 자율 에이전트 시스템을 주요 비교 대상으로 삼았다. Zero-shot, CoT, Agent K v1.0, AutoKaggle, OpenHands, Data Interpreter, AIDE가 이에 해당한다. 이들 방법은 단일 추론 경로에 지나치게 의존하거나, 고정된 단계 템플릿을 따르거나, 명시적 다중 경로 계획 추론 없이 실행 중심의 개선에 주로 의존한다는 점에서 SPIO와 구분된다.

실험 결과

SPIO는 12개 벤치마크 데이터셋 전반에서 모든 비교 기법을 평균적으로 능가하며, 평균 5.6%의 성능 향상을 기록하였다. SPIO-S는 더 나은 전략 선택을 통해 이미 강력한 성능 향상을 보이며, SPIO-E는 상위 랭킹 파이프라인 간의 상호 보완적 강점을 활용하여 추가적인 개선을 이끌어내는 경우가 많았다. 논문은 이러한 성능 향상이 더 많은 에이전트 단계를 실행하지 않고도, 체계적인 탐색과 단계적 최적화로 가능함을 강조한다.

추가로 주목할 만한 점은 다음과 같다. SPIO는 변환된 데이터 요약 및 검증 점수와 같은 중간 출력을 기반으로 이후 단계의 결정을 수행한다. 이를 통해 국소적인 결정의 취약성을 방지하고, 모듈 수준에서의 최종 선택에 대한 설명 가능성을 높인다. 또한, 이러한 단계별 추적은 주로 실행 피드백 루프에 의존하는 방법들보다 강력한 계획 수준의 해석 가능성을 제공한다고 논문은 주장한다.

심층 분석

심층 분석에서는 세 가지 주요 결과가 도출되었다.

  • 첫째, LLM의 랭킹 평가는 유의미하다. 최상위 랭킹의 후보 계획은 하위 대안들에 비해 일관되게 더 나은 성능을 보인다.
  • 둘째, 두 개의 계획을 앙상블하는 것이 전반적으로 최적의 균형을 제공하며, 세 개 이상을 추가하면 성능 향상보다 중복성이 증가하는 경향이 있다.
  • 셋째, 피처 엔지니어링과 하이퍼파라미터 튜닝이 가장 중요한 기여 요소로 확인되었으며, 이를 제거할 경우 성능 저하가 가장 크게 발생하였다.

또한 모델 사전학습 시점에는 존재하지 않았던, 2025년에 공개된 Kaggle 데이터셋 3개에 대한 추가 실험도 수행되었다. 해당 데이터셋에서도 SPIO는 비교 기법들을 능가하는 성능을 보여, 성능 향상이 기존 벤치마크 데이터의 암기에 의한 것이 아님을 시사한다.

정성적 연구

벤치마크 점수 외에도, 저자들은 10명의 AI 실무자 또는 대학원 수준의 참가자를 대상으로 10개의 데이터셋-모델 쌍에 걸쳐 전문가 평가를 수행하였으며, 총 100개의 평가 인스턴스가 생성되었다. SPIO-E는 타당성, 해석 가능성, 다양성 및 포괄성, 활용성 및 신뢰도 측면에서 SPIO-S보다 높은 평가를 받았다. 계획 선택 과제에서 전문가들은 72%의 확률로 SPIO-E의 최상위 랭킹 계획을 선택하였으며, 이는 프레임워크의 내부 랭킹이 인간의 판단과 일치함을 뒷받침한다.

결론

SPIO의 핵심 기여는 자동화 데이터 사이언스를 위한 구조화된 멀티 경로 추론 프레임워크를 제시한 데 있다.

  • 네 개의 파이프라인 모듈에 걸친 순차적 플래닝
  • 복수의 후보 전략에 대한 명시적 생성 및 비교
  • 최종 예측을 위한 단일 경로 선택 또는 상위 k개 앙상블
  • 초기 파이프라인 출력을 이후 결정과 연결하는 증거 기반 최적화

실증 결과, 이러한 설계는 최신 LLM 기반 비교 기법 대비 예측 성능, 견고성, 해석 가능성을 향상시킨다. 본 논문은 자동화 데이터 사이언스가 더 많은 에이전트적 행동과 더불어 대안적 파이프라인 계획에 대한 체계적인 탐색을 통해서도 발전할 수 있음을 보여준다.