인핸스 :: 비정형 데이터를 자산으로 만드는 온톨로지 전략

비정형 데이터를 자산으로 만드는 온톨로지 전략

January 2, 2026

Tech

기업 환경에서 가장 많이 생성되는 데이터는 여전히 문서입니다.

하지만 문서가 많아질수록 필요한 정보를 찾는 데 드는 비용은 증가하고, 문서 자체는 AI 시스템에서 활용하기 어려운 데이터로 남아 있습니다.

이번 글에서는 사내 비정형 문서를 어떻게 구조화하고, 이를 온톨로지 기반 지식으로 전환할 수 있는지를 문서 인식과 데이터 표현 관점에서 설명합니다. 본 내용은 온톨로지 3부작 중 첫 번째 글로, 검색 이전 단계인 문서 인식과 정형화에 초점을 맞춥니다.

‍

문서 검색의 구조적 한계

수많은 문서 더미에서 필요한 정보를 찾는 문제

이 프로젝트는 대기업 제조사로부터 받은 문서 검색 시스템 개발 요청에서 시작되었습니다. 해당 기업은 제조 엔지니어가 참고해야 하는 문서가 다수 존재했지만, 문서가 여러 저장소에 분산되어 있어 필요한 정보를 찾는 데 많은 시간이 소요되고 있었습니다.

일반적인 문서 탐색 과정을 살펴보면 다음과 같습니다.

사용자는

기억에 의존해 폴더를 탐색하고,
파일명을 추측해 문서를 열고,
스크롤을 내려 필요한 내용을 직접 확인합니다.
원하는 정보를 찾지 못하면 동일한 과정을 반복합니다.

이 방식은 문서 수가 증가할수록 비효율이 급격히 커집니다. 이 문제를 해결하기 위해 문서 검색 시스템 개발을 시작했습니다.

‍

검색 성능의 핵심은 데이터 구조

문서 검색 시스템을 구축한 이후, 해당 결과를 온톨로지 시스템과 결합해 분석했습니다. 인핸스의 온톨로지 시스템은 텍스트를 입력으로 받아 내용을 구조적으로 해석하고, 객체와 관계 중심의 그래프 형태로 저장합니다.

분석 결과, 문서 검색 성능의 핵심은 검색 알고리즘 자체가 아니라 비정형 문서를 지식 구조로 변환하는 방식에 있다는 점이 명확해졌습니다. 단순 키워드 검색을 넘어, 문서 간 맥락과 의미 관계를 연결할 수 있을 때 검색 결과의 정확성과 활용도가 크게 개선됩니다.

이 접근은 단일 문서 검색을 넘어, 여러 문서에 분산된 정보를 의미 단위로 결합할 수 있기 때문에 엔터프라이즈 환경에서 특히 효과적입니다.

‍

사내 비정형 문서의 구조적 복잡성

기업 문서는 형식과 구조 측면에서 높은 복잡성을 가집니다.

제조 기업의 설계 문서를 예로 들면, 하나의 문서 안에 텍스트, 설계도 이미지, 부품 정보 테이블이 함께 포함됩니다. 한글과 영어가 혼용되고, 수기로 작성된 요소가 포함되기도 합니다. 제품 번호처럼 문맥적 의미는 없지만 정확도가 중요한 문자열도 존재합니다. 설계도에는 회전된 텍스트나 비정형 배치도 흔히 등장합니다.

또 다른 사례에서는 하나의 페이지 안에 여러 개의 테이블이 존재하고, 테이블 내부에 다시 테이블이 포함된 구조를 가집니다. 데이터는 표 형식이지만, 고정된 스키마를 갖지 않기 때문에 전통적인 데이터베이스로 관리하기에는 적합하지 않습니다.

문서는 형식 제약이 거의 없기 때문에 숫자로 그림을 표현하거나, 객체를 겹쳐 강조하거나, 도형으로 개념을 설명하는 방식도 자주 사용됩니다. 이러한 특성으로 인해 기업 문서는 가장 많이 사용되는 데이터임에도 불구하고 AI 시스템과의 통합이 어려웠습니다.

‍

비정형 문서를 위한 문서 인식 파이프라인

이러한 문제를 해결하기 위해, 글자 인식 중심의 OCR 접근이 아닌 문서 전체 구조를 해석하는 문서 인식 파이프라인를 설계했습니다.

문서가 업로드되면 형식에 따라 OCR 모듈과 규칙 기반 변환 모듈로 전달됩니다. 1차 처리 결과는 문자 인식 결과를 마크다운 형태로 저장합니다. 이후 원본 문서를 이미지로 변환해 1차 결과물과 함께 VLM에 입력합니다. 이 단계에서 사용자의 의도를 프롬프트로 전달할 수 있습니다.

2차 결과물은 텍스트, 표 구조, 이미지 설명이 반영된 마크다운 문서이며, 이 결과는 이후 온톨로지 처리와 임베딩 생성의 입력 데이터로 활용됩니다. 이후 LLM을 통해 의미 단위로 문서를 청킹하고, 각 청크는 임베딩 벡터로 생성되어 벡터 데이터베이스에 저장됩니다.

이 파이프라인은 특정 모델에 종속되지 않도록 설계되어, OCR, VLM, LLM 모두 오픈소스 로컬 모델과 상용 API를 선택적으로 사용할 수 있습니다. 모듈 단위 교체를 통해 성능 개선이 가능하며, 최신 모델을 유연하게 조합할 수 있습니다.

‍

문서 인식에서 의도를 반영한다는 것

문서 인식 결과의 품질은 단순 인식 정확도뿐 아니라 사람이 문서를 읽는 방식을 얼마나 반영하는지에 따라 달라집니다.

예를 들어, 하나의 페이지 안에 두 개의 컬럼으로 구성된 표가 있는 경우, 사람은 일반적으로 왼쪽 컬럼을 먼저 읽고 오른쪽 컬럼을 읽습니다. 그러나 별도 지시가 없으면 모델은 행 기준으로 인식할 수 있습니다.

이 파이프라인에서는 프롬프트를 통해 문서 인식 순서를 제어할 수 있습니다. “컬럼 우선으로 인식”과 같은 지시를 통해 사람의 의도를 반영한 결과를 얻을 수 있습니다.

또한 셀 병합이 많은 표의 경우, 마크다운 한계를 VLM 후처리와 HTML 삽입으로 보완합니다. 일반적으로 생략되는 이미지 역시 설명 형태로 저장해, 이미지 기반 질의에도 대응할 수 있습니다.

‍

온톨로지를 통한 지식 구조화

문서 인식의 결과는 온톨로지 규칙을 통해 지식으로 전환됩니다.

문서는 섹션, 문단, 표, 행과 열 단위로 분해되고, 각 단위에서 정의된 분류 체계를 기반으로 객체를 식별합니다. 이후 표기와 단위를 정규화하고, 문서 내 근거를 기반으로 관계를 연결합니다. 최종 결과는 팩트와 그래프 형태로 저장되며, 모든 정보에는 출처와 증거가 함께 보존됩니다.

이 과정의 목적은 요약이 아니라, 조건과 근거가 유지되는 지식 표현입니다. 이를 통해 결과에 대한 추적성과 검증 가능성을 확보할 수 있습니다.

‍

RAG와 온톨로지 기반 탐색의 차이

LLM이나 Agent가 외부 지식을 활용해야 하는 경우, 정보 접근 방식은 결과 품질에 직접적인 영향을 미칩니다.

RAG는 문장 유사도를 기준으로 정보를 검색합니다. 이 방식은 관련 문장을 빠르게 가져올 수 있지만, 질문의 핵심과 직접 관련 없는 정보가 함께 포함될 수 있습니다.

반면 온톨로지는 문장이 아니라 객체와 관계를 기준으로 탐색합니다. 특정 객체에서 정의된 관계를 따라가며 필요한 정보를 조회하기 때문에, 질문의 의도에 맞는 일관된 결과를 제공합니다.

문서에 이 방식을 적용하면, 객체, 관계, 근거가 연결된 지식 그래프가 생성되고, 질의 시에는 이 그래프를 관계 기반으로 탐색해 답변 정확도를 높일 수 있습니다.

‍

여러 문서를 연결하는 지식 그래프

여러 문서가 업로드되면 각 문서에서 추출된 객체와 관계는 하나의 온톨로지 그래프로 통합됩니다. 사용자의 질의에 대해 Agent는 특정 문서 하나에 의존하지 않고, 그래프 상에서 연관된 노드와 근거를 따라 서로 다른 문서의 정보를 함께 조회합니다.

이 구조는 협업 환경에서 특히 효과적입니다. 서로 다른 사람이 업로드한 문서라도 온톨로지 기준으로 연결되기 때문에, 개인 단위 검색을 넘어 팀 전체가 공유하는 지식 그래프가 형성됩니다.

‍

비정형 문서를 지식 자산으로 전환하기

기업 문서는 계속 증가합니다. 그러나 문서가 많아질수록 정보 접근성은 오히려 낮아집니다. 핵심은 문서를 잘 찾는 기능이 아니라, 문서 속 정보를 재사용 가능한 지식 구조로 전환할 수 있는가입니다.

문서 인식 파이프라인을 통해 비정형 문서를 의미 단위로 복원하고, 이를 온톨로지 기반 지식 그래프로 축적하면, 질문은 폴더 탐색이 아니라 사실과 근거를 조회하는 형태로 바뀝니다.

온톨로지는 비정형 데이터를 조직의 지식 자산으로 전환하기 위한 핵심 데이터 표현 방식입니다. 다음 글에서는 이렇게 구축된 온톨로지를 활용해 AI와 Agent를 어떻게 고도화할 수 있는지를 다룰 예정입니다.

‍