Learn And Earn

DocLayout-YOLO 본문

딥러닝/Document Layout Analysis

DocLayout-YOLO

Determined 2024. 11. 24. 22:36
반응형

그림 1. 그래서 이 모델은 결과적으로 (정량적) 뭘 얼마나 잘하는데?

TL;DR

  • 체계적인 레이아웃 데이터 증강 전략을 기반으로 요소 및 레이아웃 다양성 담보한 고품질의 합성 데이터셋 확보. (DocSynth-400K)
  • 추가적으로 문서 내 다양한 크기의 객체들 (한 줄 짜리 제목부터 한 페이지 다 차지하는 테이블까지)이 존재함을 고려한 모델 아키텍쳐를 도입했다고 함.
  • DocLayout-YOLO는 YOLO-v10m 을 DocSynth-400K에 사전훈련 후 DocLayNet에 추가적으로 훈련하여 실증화한 모델
  • 그림1에서 확인 가능하듯,  속도, 정확도 측면에서 우수한 모델 훈련에 성공하여 실증화 측면에서도 임팩트 있는 연구.

Problem and Solution

Problem ❌: 

  • unimodal(이미지만 입력)은 빠르지만 부정확한 반면, multimodal(이미지와 텍스트를 입력)은 느리지만 정확하다
    👉 trade-off에 대응할 해결책 필요
  • 기존의 document layout analysis (DLA) 방법론들은 주로 학술적인 문서를 대상으로만 훈련 및 평가 되었다.

Solution ✅:

  • Dataset 제작
    • 훈련 : 문서 내 요소 (이미지, 이미지설명, 제목, 단락 등) + 문서의 레이아웃 (1컬럼, 2컬럼, 3컬럼, ppt 등)
    • 평가 : 평가 목적의 데이터셋 Bench의 큐레이션 

그림2 : 학술 문서 뿐 만이 아닌, 시장분석 및 금융 도메인의 문서들 또한 평가의 대상으로 포함한 DocStructBench 데이터셋

  • 구조 개조 : 문서의 서로 다른 크기의 객체들을 인식해야 한다는 문제의식 반영 GL-CRM 모듈  
    • GL; 문서의 한 페이지 이미지의 receptive field를 점차 작게함
    • CRM; dilation 파라미터를 달리하는 convolution 연산의 결과들을 종합(fuse)하여 다른 스케일의 피쳐를 종합함

그림3. GL(왼쪽)과 CRM(오른쪽)

 

  • DocLayout-YOLO = 다양한 문서 데이터셋 + 문서에서의 객체 인식 고려한 inductive bias의 산물

Experimental Result

1. DocLayout 은 데이터셋 생성 전략과 inductive bias의 시너지에서 얻은 결과물

표 1. unimodal의 베이스 라인에 데이터와 inductive bias라는 두 요소를 곁들이니 좋은 결과가 나왔다!

2. DocLayout은 기존 알고리즘보다 "좋다"

  • 다양한 도메인의 문서들에서도 높은 정확도를 보인다
  • 속도와 정확도를 고려했을 때의 장점 (속도의 증가를 고려했을 때에(YOLO-v10m 보다는 못하더라도), 기존 정확한 multimodal 방법보다도 높은 정확도를 얻게 됨--그림 1 참조)

ㅇㅇ

표3 : 다양한 시나리오의 DocStructBench에서의 실험 결과 암만 못해도 1등~2등은 하는 걸 볼 수 있다.


짧은 소고

정말 마구잡이지만 자연어 처리 프로젝트 몇 개를 진행하면서 문서 파싱은 결국은 거쳐가야 할 작업이었다. 그리고 조직/부서마다 얼마나 괴랄한 양식의 문서를 가지고 있는지를 감안한다면 문서 파싱은 순수 논리적 알고리즘으로 해결하기에는 힘에 부치는 일이다. AI 기반의 문서 파싱 방법론이 빠르게 성장하여 문서 안에 잠들어 있는 가치를 발굴할 수 있기를 기대한다.

Reference

[1] Zhao, Z., Kang, H., Wang, B., & He, C. (2024). DocLayout-YOLO: Enhancing Document Layout Analysis through Diverse Synthetic Data and Global-to-Local Adaptive Perception. arXiv preprint arXiv:2410.12628. 

반응형
Comments