Notice
Recent Posts
Recent Comments
Link
반응형
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
Tags
- pytorch forward 연산
- 파이썬
- 스터디미니
- 환급기원
- OCR
- 스페인어학습지
- 강화학습
- metric learning
- text embedding
- MTBE
- permutations
- document parsing
- 딥러닝
- AlphaGo
- 대조학습
- 티스토리챌린지
- document layout analysis
- MCTS
- feature vector
- TensorFlow
- 알파고
- pytorch forward
- Monte Carlo
- 순열
- pytorch
- 오블완
- pytorch forward 디버깅
- 문서 파싱
- Python
- pytorch hook
Archives
- Today
- Total
Learn And Earn
Towards General Text Embeddings with Multi-stage Contrastive Learning 본문
딥러닝/Embedding
Towards General Text Embeddings with Multi-stage Contrastive Learning
Determined 2024. 11. 27. 17:03반응형
TL;DR
- 문제 의식 : 기존의 "일반적인" 목적의 텍스트 임베딩 모델은 사실 일반적이지 않다! (특정 태스크만을 고려한 훈련과정 등)
- 2단계의 빅데이터를 활용한 "양방향의" Constrastive Learning을 통해 훈련한 모델은 "작은 모델 사이즈"에도 불구하고 "좋다"
- 어떤 측면에서 "좋다"? 모든 NLU 태스크에 대해서?
- 다양한 태스크 별로 (인간 기준 make-sense 한) positive/negative labeling scheme 정의 및 적용
- 다양한 태스크 벤치마크 데이터셋 MTEB에 평가 결과, GTE_large는 새로운 SOTA로 자리매김하여 다양한 태스크에도 사용 가능한 임베딩 모델을 제시함.
Multi Stage Contrastive Learning
Contrastive Learning : commutable comparison
일반적인 텍스트 특징벡터를 대조학습을 통해 얻을 때 query -> doc의 단 방향 손실함수를 사용함.
본 논문은 양방향, 즉, query -> doc // doc -> query의 양 방향 참조를 함.
Unsupervised Contrastive Pre-training
Unsupervised라고 하는 건 일단 전문가의 손길을 거쳐 라벨링 된 것은 아니기 때문임.
그럼에도 불구하고 positivity 자체는 데이터셋 특징을 고려했을 때 쉽게 쌍을 지을 수 있음. 표 1 참고.
또한, 도합 33개의 이질적인 데이터셋을 합쳐 훈련에 활용하기에 배치 샘플링 전략 역시 중요하다. 이를 위해서 각 데이터셋의 종류를 다항분포를 따르는 다항 분포로 모델링하여 데이터셋 크기에 비례한 확률로 추출한다.
Supervised Contrastive Fine-tuning
Experimental Result
비지도 대조 학습 -> 지도 대조 학습 순서로 진행해야 가장 최적의 결과를 얻음
MTBE 내의 다양한 태스크들에 대해서 좋은 성능을 보임을 확인함.
- 진정한 의미의 General Text Embedding이 드디어 구현되었다는 의의가 있음.
- 특히 GTE_large는 해당 벤치마크 데이터셋에 대해서 SOTA를 찍어 성능 최적화 면에서도 의의가 있음.
양방향의 참조를 통한 대조학습 손실함수는 성능 향상 (MTEB 평균값)에 기여함
- 사전학습/추가학습 가릴 것 없이 개선된 손실함수를 사용하는 것이 가장 좋았음.
Reference
반응형
'딥러닝 > Embedding' 카테고리의 다른 글
ImageBind: One Embedding Space To Bind Them All (2) | 2024.11.28 |
---|
Comments