'오블완' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

목록오블완 (4)

Learn And Earn

Towards General Text Embeddings with Multi-stage Contrastive Learning

TL;DR문제 의식 : 기존의 "일반적인" 목적의 텍스트 임베딩 모델은 사실 일반적이지 않다! (특정 태스크만을 고려한 훈련과정 등)2단계의 빅데이터를 활용한 "양방향의" Constrastive Learning을 통해 훈련한 모델은 "작은 모델 사이즈"에도 불구하고 "좋다"어떤 측면에서 "좋다"? 모든 NLU 태스크에 대해서?다양한 태스크 별로 (인간 기준 make-sense 한) positive/negative labeling scheme 정의 및 적용다양한 태스크 벤치마크 데이터셋 MTEB에 평가 결과, GTE_large는 새로운 SOTA로 자리매김하여 다양한 태스크에도 사용 가능한 임베딩 모델을 제시함.Multi Stage Contrastive LearningContrastive Learning :..

딥러닝/Embedding 2024. 11. 27. 17:03

TrOCR: Transformer-based Optical Character Recognitionwith Pre-trained Models

TL;DR기존 AI OCR 한계점 : 이미지 이해(CNN), 문자 단위 자연어 생성(RNN), 추가 후처리 (언어모델)트랜스포머 구조 TrOCR은 end-to-end로 하나의 모델로 OCR을 위한 이미지 이해, 토큰 단위 자연어 생성의 과정을 수행이미지 인코더(ViT), 자연어 디코더초기화를 각각 ViT 스타일 인코더, 자연어 디코더에서 하는 게 좋다고 추천함뿐만 아니라 TrOCR은 합성 데이터에 사전 훈련 후, 커스텀 데이터셋에 미세 조정을 진행하면 되기 때문에 용도에 맞게 활용이 매우 용이하다는 측면에서 기여하는 바가 크다.성능 측면에서도 (CER) 인쇄본, 손글씨, scene-text 등 다양한 시나리오의 데이터셋에 대해서도 잘함.TrOCR 구조이미지 이해를 위한 ViT 스타일의 인코더와 (BeIT..

딥러닝/OCR 2024. 11. 26. 23:11

CRAFT (Character Region Awareness for Text Detection)

TL;DRText Detection 모델을 훈련 할 때 char 단위 bounding box label 활용 일렬로 배열된 문자열이 아니면 오작동한계점을 "방법론"을 적용해서 "극복"방법론의 개괄 설명워드 단위 인식 : 텍스트의 각 문자를 감지하여 워드 또는 텍스트 인스턴스를 bottom-up으로 결합함Affinity Score 도입 : "문자간 연결 가능성" 표현한 수치. 이를 기준으로 텍스트 형상을 정확히 표현Weakly-Supervised Learning 활용 : 문자 수준 어노테이션 부족 문제를 해결하기 위해 합성 이미지에서의 문자 어노테이션을 활용하고"극복"의 해석정량적 평가 : 다양한 시나리오의 데이터셋에서 Recall, Precision, F1 score 측면에서 우수한 성능을 보임 (표1..

딥러닝/OCR 2024. 11. 25. 21:52

DocLayout-YOLO

TL;DR체계적인 레이아웃 데이터 증강 전략을 기반으로 요소 및 레이아웃 다양성 담보한 고품질의 합성 데이터셋 확보. (DocSynth-400K)추가적으로 문서 내 다양한 크기의 객체들 (한 줄 짜리 제목부터 한 페이지 다 차지하는 테이블까지)이 존재함을 고려한 모델 아키텍쳐를 도입했다고 함.DocLayout-YOLO는 YOLO-v10m 을 DocSynth-400K에 사전훈련 후 DocLayNet에 추가적으로 훈련하여 실증화한 모델그림1에서 확인 가능하듯, 속도, 정확도 측면에서 우수한 모델 훈련에 성공하여 실증화 측면에서도 임팩트 있는 연구.Problem and SolutionProblem ❌: unimodal(이미지만 입력)은 빠르지만 부정확한 반면, multimodal(이미지와 텍스트를 입력)은 ..

딥러닝/Document Layout Analysis 2024. 11. 24. 22:36

Prev 1 Next

목록오블완 (4)

Learn And Earn

티스토리툴바