ImageBind: One Embedding Space To Bind Them All

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

Learn And Earn

ImageBind: One Embedding Space To Bind Them All 본문

딥러닝/Embedding

ImageBind: One Embedding Space To Bind Them All

Determined 2024. 11. 28. 23:04

TL;DR

그림 1. ImageBind는 명시적(Naturally)으로 학습된 모달리티 쌍이 아닌 순서쌍에 대해서도 암시적(Emergent)으로 학습이 이루어짐을 여러 측면에서 보인다.

이미지와의 5개의 CLIP과 같은 다른 모달리티 사이의 대조학습을 통해 학습이 이루어지지 않은 두 모달리티 사이에도 Fully Connected한 방식으로 정보의 전달이 이루어짐을 실증화해 보인다.
특히, Cross-modal Retrieval 및 Zero(Few) Shot Downstream task (분류 및 인식) 에서도 좋은 성능을 보이고 있다
- 기존 소위 cross-modal embedding 방법론은 데이터 라벨링 제약이 있음
- 즉, 의도하는 두 모달리티에 따른 pair-wise한 데이터셋이 있어야 함

기존 방법

CLIP을 선두로 하여 두 순서쌍의 모달리티로 구성된 데이터셋 + Supervised Contrastive Learning을
바탕으로 이미지 인코더와 텍스트 인코더를 학습한다.

그림 2. CLIP은 이미지와 이를 설명하는 설명 텍스트 순서쌍을 활용하여 대조 학습을 진행한다.

방법론 : ImageBind

각 모달리티의 representation을 학습하는 인코더를 학습하는 것이 목표이다.

전처리 : 이미지화

이미지를 제외한 모달리티들 중, 모든 모달리티의 인코더는 트랜스포머 구조를 따른다.

텍스트 : CLIP에서 사용하던 텍스트 임베딩 모델
비디오 : 2초길이 영상 중 두 프레임 $\rightarrow$ 의 이미지로 전처리
오디오 : 16kHZ 2초 길이의 비디오 프레임 $\rightarrow$ mel-spectogram의 이미지로 전처리
thermal image, depth image : 1채널 이미지로 간주
IMU : $6 \times 2000$ (X, Y, Z 차원 가속도계, 각속도계 신호파 stacking) $\rightarrow$ 1차원 신호파 (by 1D Conv)

초기화 전략

이미지-텍스트 모달리티의 cross-encoder인 CLIP의 사전 훈련된 파라미터에서 이미지 인코더와 오디오 인코더를 초기화
특히, 이미지의 인코더는 freeze하고, 다른 모달리티에 대해서는 학습을 진행
- 대조학습은 결국 Hypersphere위의 점들을 이리 저리 옮겨가는 과정이기에, 이미 잘 학습된 이미지 인코더를 고정시키는 것은 학습의 과정에서 오는 불안정성을 낮추는 것에 기여할 것으로 생각됨

훈련 전략

이미지 인코더는 고정되었고, 이미지가 기준 modality가 되기 때문에, 다른 모달리티를 섞은 배치를 샘플링해서 훈련하든, 각각의 독립된 환경에서 동일한 CLIP 초기화 파라미터 하에서 병렬 + 독립으로 훈련을 해도 결과는 같다. 시간 측면에서는 후자를 선택하는 것이 낫겠다. 훈련에 활용된 손실함수는 온도 초매개변수가 있는 InfoNCE 손실함수 그대로이다.

실험 결과 : 꿈보다 해몽

고찰

이미지를 기준으로 하여 독립적으로 pair-wise하게 학습한 representation들이 사실은 서로도 잘 align된다는 매우 흥미로운 발견이다. (img, txt, audio, video, thermal, depth, imu) 이런식으로 연관된 순서쌍 데이터셋이 있는 것(현실적으로 불가능한 시나리오)도 아닌데도 높은 alignment를 보인다는 것은 놀라운 일이다. 왜 이러한 현상이 일어나는지에 대한 연구가 있을지 궁금하다.

얻어진 표현 위에서 측정한 downstream task 측정, cross modal retrieval 등 정량적인 결과가 확인 가능한 활용처도 있었지만,

embedding-space 위에서의 벡터 연산 및 생성 태스크는 다소 정성적인 결과로 보인다. 보다 더 정량적으로 확인이 가능한 활용처들이 발굴되고 이를 평가할 수 있는 벤치마크 데이터셋이 있다면 이러한 연구 가속의 밑바탕이 될 것이다.