Notice
Recent Posts
Recent Comments
Link
반응형
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | ||||||
| 2 | 3 | 4 | 5 | 6 | 7 | 8 |
| 9 | 10 | 11 | 12 | 13 | 14 | 15 |
| 16 | 17 | 18 | 19 | 20 | 21 | 22 |
| 23 | 24 | 25 | 26 | 27 | 28 | 29 |
| 30 |
Tags
- pytorch
- 딥러닝
- pytorch forward 연산
- 순열
- 대조학습
- permutations
- document layout analysis
- AlphaGo
- 스터디미니
- Python
- 알파고
- 문서 파싱
- metric learning
- 티스토리챌린지
- 스페인어학습지
- MCTS
- TensorFlow
- 강화학습
- MTBE
- 파이썬
- Monte Carlo
- text embedding
- pytorch hook
- pytorch forward 디버깅
- 오블완
- 환급기원
- feature vector
- OCR
- pytorch forward
- document parsing
Archives
- Today
- Total
Learn And Earn
DocLayout-YOLO 본문
반응형

TL;DR
- 체계적인 레이아웃 데이터 증강 전략을 기반으로 요소 및 레이아웃 다양성 담보한 고품질의 합성 데이터셋 확보. (DocSynth-400K)
- 추가적으로 문서 내 다양한 크기의 객체들 (한 줄 짜리 제목부터 한 페이지 다 차지하는 테이블까지)이 존재함을 고려한 모델 아키텍쳐를 도입했다고 함.
- DocLayout-YOLO는 YOLO-v10m 을 DocSynth-400K에 사전훈련 후 DocLayNet에 추가적으로 훈련하여 실증화한 모델
- 그림1에서 확인 가능하듯, 속도, 정확도 측면에서 우수한 모델 훈련에 성공하여 실증화 측면에서도 임팩트 있는 연구.
Problem and Solution
Problem ❌:
- unimodal(이미지만 입력)은 빠르지만 부정확한 반면, multimodal(이미지와 텍스트를 입력)은 느리지만 정확하다
👉 trade-off에 대응할 해결책 필요 - 기존의 document layout analysis (DLA) 방법론들은 주로 학술적인 문서를 대상으로만 훈련 및 평가 되었다.
Solution ✅:
- Dataset 제작
- 훈련 : 문서 내 요소 (이미지, 이미지설명, 제목, 단락 등) + 문서의 레이아웃 (1컬럼, 2컬럼, 3컬럼, ppt 등)
- 평가 : 평가 목적의 데이터셋 Bench의 큐레이션

- 구조 개조 : 문서의 서로 다른 크기의 객체들을 인식해야 한다는 문제의식 반영 GL-CRM 모듈
- GL; 문서의 한 페이지 이미지의 receptive field를 점차 작게함
- CRM; dilation 파라미터를 달리하는 convolution 연산의 결과들을 종합(fuse)하여 다른 스케일의 피쳐를 종합함

- DocLayout-YOLO = 다양한 문서 데이터셋 + 문서에서의 객체 인식 고려한 inductive bias의 산물
Experimental Result
1. DocLayout 은 데이터셋 생성 전략과 inductive bias의 시너지에서 얻은 결과물

2. DocLayout은 기존 알고리즘보다 "좋다"
- 다양한 도메인의 문서들에서도 높은 정확도를 보인다
- 속도와 정확도를 고려했을 때의 장점 (속도의 증가를 고려했을 때에(YOLO-v10m 보다는 못하더라도), 기존 정확한 multimodal 방법보다도 높은 정확도를 얻게 됨--그림 1 참조)

ㅇㅇ

짧은 소고
정말 마구잡이지만 자연어 처리 프로젝트 몇 개를 진행하면서 문서 파싱은 결국은 거쳐가야 할 작업이었다. 그리고 조직/부서마다 얼마나 괴랄한 양식의 문서를 가지고 있는지를 감안한다면 문서 파싱은 순수 논리적 알고리즘으로 해결하기에는 힘에 부치는 일이다. AI 기반의 문서 파싱 방법론이 빠르게 성장하여 문서 안에 잠들어 있는 가치를 발굴할 수 있기를 기대한다.
Reference
반응형
Comments