온톨로지 기반 멀티 에이전트 추론을 활용한 문화 정렬 LLM 연구

February 20, 2026
Research
 Ontology-Guided Multi-Agent Reasoning Main Image

저자: Wonduk Seo, Wonseok Choi, Junseo Koh, Juhyeon Lee, Hyunjin An, Minhyeong Yu, Jian Park, Qingshan Zhou, Seunghyun Lee, Yi Bu

소속: Enhans, Peking University, Fudan University

사전 공개 버전, arXiv:2601.21700v2

논문 링크: https://arxiv.org/pdf/2601.21700


TL;DR

  1. OG-MAR는 웹 데이터 편향에 기반한 사전학습으로 인해 발생하는 ‘문화 기본값(culture-default)’ 편향을 완화하기 위해, 인구통계 정보를 기반으로 설계된 온톨로지 안내형 멀티 에이전트 추론 파이프라인을 제안한다.
  2. 본 연구의 핵심은 문화적 가치를 서로 분리된 단편이 아니라, 역량 질문(Competency Questions)을 통해 구축된 전역 문화 온톨로지라는 구조화된 그래프로 모델링하는 데 있다. 이를 통해 판단의 일관성과 해석 가능성을 향상시킨다.
  3. 추론 단계에서 OG-MAR는 (i) 온톨로지 구조와 일관된 가치 간 관계 지식(개념 A–관계–개념 B 형태의 구조화된 표현)과 (ii) 인구통계적으로 유사한 WVS 응답자 프로필을 검색하고, 복수의 가치 페르소나 에이전트를 구성한 뒤, 증거, 온톨로지 정합성, 인구통계적 근접성을 우선 기준으로 삼는 판정 에이전트를 통해 최종 결정을 도출한다.
  4. 여섯 개 지역 설문 벤치마크와 네 개 LLM 백본 전반에서 OG-MAR는 zero-shot, 역할 프롬프팅, self-consistency, debate, ValuesRAG 등 강력한 비교 기법 대비 평균 정확도를 향상시키며, 보다 투명한 추론 과정을 제공한다.

초록

대규모 언어 모델은 문화적으로 민감한 의사결정에 점점 더 많이 활용되고 있다. 그러나 편향된 사전학습 데이터와 명시적인 가치 구조의 부재로 인해 문화적 정합성이 충분히 확보되지 못하는 문제가 존재한다. OG-MAR는 이를 해결하기 위해 (1) 고정된 분류 체계 하에서 WVS로부터 응답자별 가치를 요약하고, (2) 역량 질문 기반 관계 도출을 통해 전역 문화 온톨로지를 구축하며, (3) 온톨로지 정보와 인구통계 정보를 함께 검색하여 멀티 페르소나 시뮬레이션과 증거 우선 판정을 수행함으로써 문화적으로 정렬된 예측을 도출한다.

서론

본 논문은 기존의 문화 조향 방법이 여전히 취약한 이유를 다음과 같이 제시한다.

  • 암묵적인 문화 가정에 의존하여 프롬프트 설계에 민감하다.
  • 가치를 서로 독립적이고 비구조화된 신호로 취급하여 주제 간 상호의존성을 충분히 반영하지 못한다.
  • 명시적인 가치 구조 없이 멀티 에이전트 결과를 집계하여 해석 가능성을 저하시킨다.

OG-MAR는 문화 정렬을 구조화된 문화 지식, 인구통계적 근거, 멀티 에이전트 시뮬레이션의 결합 문제로 재정의한다. 이때 온톨로지는 가치 간 관계를 체계화하는 구조적 틀을 제공하며, 실제 설문 응답자 프로필은 페르소나 구성의 경험적 기준점 역할을 한다.

데이터셋 및 평가 설정

데이터셋

지식 검색에 활용된 데이터는 World Values Survey(WVS)이며, 프로젝트 페이지에 기술된 Wave-7(2017–2022) 부분집합을 사용하였다(약 94,728명의 응답자, 전처리 후 239개 가치 문항 포함).

평가용 벤치마크는 다음과 같은 지역 설문 데이터로 구성된다.

EVS(유럽), GSS(미국), CGSS(중국), ISD(인도), LAPOP(라틴 아메리카), Afrobarometer(아프리카).

과제 및 평가 지표

각 문항은 이진 의사결정 문제로 변환되며, 주요 평가지표는 정확도이다. 순서형 문항의 경우, 이진화 또는 라벨 매핑 이후 평균 절대 오차(MAE)도 함께 보고된다.

모델 및 구성 요소

  • 생성 백본(페르소나 및 판정 에이전트): GPT-4o mini, Gemini 2.5 Flash Lite, Qwen 2.5, EXAONE 3.5(temperature=0).
  • 임베딩 기반 검색: 인구통계 정보와 온톨로지 관계 지식 검색을 위해 E5-base 임베딩 사용.
  • 주제 분류: WVS 데이터에 대해 12개 도메인 감독 신호로 파인튜닝된 DeBERTa-v2-xxlarge.

프레임워크: OG-MAR

OG-MAR는 “가치”를 (A) 구조화된 개인 프로필과 (B) 구조화된 가치 간 관계 지식으로 전환하고, 이를 기반으로 제약된 증거 우선 판정 에이전트를 활용한 멀티 페르소나 추론을 수행한다.

단계 1. 데이터 전처리: 주제 기반 가치 요약

각 WVS 응답자의 원시 응답은 고정된 분류 체계(12개 도메인, 76개 세부 범주)에 따라 요약되며, 개인별 구조화된 가치 프로필을 생성한다.

단계 2. 온톨로지 구축: 역량 질문 기반 관계 도출 및 인간 검증

  • 전문가가 상위 가치 도메인 간 관계를 탐색하는 역량 질문을 설계한다.
  • LLM은 세계 여러 지역에서 샘플링된 응답자 프로필을 조건으로 하여, 개념 A–관계–개념 B 형태의 가치 간 관계 서술을 생성한다.
  • 인간 검토자가 이를 검토, 수정, 선별하여 76개 클래스와 약 150쌍의 관계 속성으로 구성된 문화 온톨로지를 구축한다.

단계 3. 추론 파이프라인: 검색 → 페르소나 구성 → 제약된 판정

  1. 주제 선택: 질의와 관련된 상위 k개 도메인과 그 안의 상위 p개 세부 범주를 선택한다.
  2. 온톨로지 검색: 선택된 범주와 일관된 가치 간 관계 지식을 상위 M개 검색한다.
  3. 인구통계 검색: 인구통계적으로 유사한 상위 K명의 응답자를 검색한다(기본값 K=5).
  4. 페르소나 시뮬레이션: 검색된 각 응답자에 대해 하나의 페르소나 에이전트를 구성하며, 각 에이전트는 온톨로지 관계 지식과 해당 응답자의 가치 요약을 근거로 답변과 추론 과정을 생성한다.
  5. 판정 에이전트: 증거와 온톨로지 정합성을 우선 기준으로 삼아 페르소나 결과를 통합하며, 근소한 동점 상황에서만 투표를 보조적으로 사용하고 동점 시 인구통계적 근접성을 기준으로 최종 결정을 내린다.

비교 실험 설정

본 연구는 다음 방법들과 비교하였다.

  1. Zero-shot
  2. 역할 부여 또는 문화 프롬프팅
  3. Self-consistency(샘플링 후 투표)
  4. Debate 기반 멀티 에이전트
  5. 온톨로지 구조 없이 설문 근거를 검색하는 ValuesRAG

실험 결과

OG-MAR는 여섯 개 지역과 네 개 백본 전반에서 최고 또는 이에 준하는 평균 정확도를 달성하였다.

반복적으로 확인된 결과는 ValuesRAG 역시 강력한 성능을 보이지만, OG-MAR는 구조화된 가치 관계 지식, 다양한 페르소나 시뮬레이션, 일관성 중심 판정 절차를 결합함으로써 이를 종종 능가한다는 점이다. 특히 CGSS 및 ISD와 같은 분포 이동 환경에서 이러한 차이가 두드러졌다.

구성 요소별 영향 분석

  1. 검색된 페르소나 수(K ∈ {1, 3, 5, 10})에 대한 실험 결과, 전반적으로 K=5에서 가장 우수한 성능을 보였으며, K=10에서는 상충 정보와 노이즈 증가로 인해 성능이 저하되었다.
  2. K개의 페르소나 대신 단일 “목표 가치 프로필 추론” 에이전트를 사용하는 변형 모델은 대부분의 모델 및 데이터셋에서 OG-MAR보다 낮은 성능을 보였다. 이는 명시적인 멀티 페르소나 기반 증거가 판정 과정에 실질적으로 기여함을 시사한다.
  3. 페르소나 시뮬레이션을 생략하고 단일 판정 에이전트가 동일한 맥락에서 직접 답하도록 한 변형 모델 역시 정확도가 감소하였으며, 특히 오픈소스 백본에서 그 감소 폭이 크게 나타났다.

결론

OG-MAR의 핵심 기여는 구조화된 문화 추론 체계를 제시한 데 있다.

  • WVS 기반 인구통계 정보를 통해 시뮬레이션 대상의 실증적 근거를 확보하고,
  • 역량 질문 기반 문화 온톨로지를 통해 가치 간 관계를 체계화하며,
  • 멀티 페르소나 시뮬레이션과 제약된 판정 절차를 통해 증거를 견고하게 통합한다.

실증 결과, 이러한 결합은 다양한 지역과 모델 전반에서 문화 정렬의 안정성을 향상시키며, 비구조화된 검색이나 제약 없는 토론 방식에 비해 의사결정 과정을 보다 투명하게 만든다.

‍출처:

Arxiv, Toward Culturally Aligned LLMs through Ontology-Guided Multi-Agent Reasoning

Interested in solving your
problems with Enhans?

  • 01.
    Tell us about yourself
  • 02.
    Which company or organization do you belong to?
  • 03.
    Which company or organization do you belong to?
Next
Next

Please see our Privacy Policy regarding how we will handle this information.

Thank you for your interest
in solving your problems with Enhans!
We'll contact you shortly!
Oops! Something went wrong while submitting the form.