AI·테크

Sentence Transformers, 멀티모달 임베딩 모델 파인튜닝 지원

VDR 과제에서 기존 모델 대비 NDCG@10 0.888→0.947 달성, 4배 큰 모델도 능가

신하영·2026년 4월 15일 수 15:00·5분 읽기·

Training and Finetuning Multimodal Embedding & Reranker Models with Sentence Transformers

요약

•Sentence Transformers가 멀티모달 임베딩 모델 파인튜닝을 정식 지원한다.
•VDR 과제에서 2B 모델 파인튜닝 결과 NDCG@10 0.888→0.947, 4배 큰 모델 능가.
•기존 텍스트 전용 학습 파이프라인과 완전 호환, 접근 장벽이 크게 낮아졌다.

텍스트를 넘어, 이미지·문서까지 학습하는 임베딩 모델 시대

허깅페이스(Hugging Face)의 파이썬(Python) 라이브러리 Sentence Transformers가 멀티모달(multimodal) 임베딩 및 리랭커(reranker) 모델의 학습·파인튜닝(finetuning) 기능을 정식 지원하기 시작했다. 2026년 4월 16일 공개된 공식 블로그 포스트에서 개발자 톰 아르센(Tom Aarsen)은 텍스트, 이미지, 오디오, 동영상을 동시에 처리하는 멀티모달 모델을 사용자의 도메인 데이터로 직접 파인튜닝하는 전체 파이프라인을 상세히 공개했다. 실험 결과, Qwen/Qwen3-VL-Embedding-2B 모델을 시각 문서 검색(Visual Document Retrieval, VDR) 과제에 파인튜닝한 결과 NDCG@10 지표가 0.888에서 0.947로 향상됐으며, 모델 크기가 최대 4배에 달하는 기존 VDR 모델들을 모두 능가하는 성능을 기록했다.

왜 파인튜닝이 필요한가

범용 멀티모달 임베딩 모델은 이미지-텍스트 매칭, 시각적 질의응답(Visual Question Answering), 문서 이해 등 다양한 과제에서 준수한 성능을 보인다. 그러나 '범용성'은 특정 도메인에서의 최적 성능을 보장하지 않는다. 예를 들어 VDR 과제에서는 "Q3 매출이 얼마였는가"와 같은 텍스트 쿼리에 대해 수천 개의 문서 페이지 이미지 중 가장 관련성 높은 페이지를 찾아야 하는데, 이는 표·차트·레이아웃 이해라는 고도로 특화된 능력을 요구한다. 파인튜닝은 이러한 도메인 특화 패턴을 모델에 학습시키는 핵심 수단이다.

아르센은 이를 직접 수치로 입증했다. 파인튜닝된 모델 tomaarsen/Qwen3-VL-Embedding-2B-vdr은 동일 평가 데이터셋에서 NDCG@10 0.947을 기록해, 베이스 모델(0.888)은 물론 테스트한 모든 기존 VDR 모델을 상회했다. 특히 파라미터 수가 4배 큰 대형 모델도 능가한다는 점에서 파인튜닝의 효율성이 두드러진다.

이전과 무엇이 달라졌나

항목	기존 (텍스트 전용)	이번 업데이트 (멀티모달)	변화
지원 모달리티	텍스트	텍스트, 이미지, 오디오, 동영상	4종 추가
학습 파이프라인	SentenceTransformerTrainer	동일 (SentenceTransformerTrainer)	일관성 유지
데이터셋 구성	텍스트 쌍	텍스트 + 이미지 혼합	이미지 전처리 자동화
손실 함수	다양한 옵션	CachedMultipleNegativesRankingLoss, MatryoshkaLoss 포함	동일 옵션 지원
평가 지표 (VDR)	—	NDCG@10 0.947 (베이스 0.888)	+6.6%p

이번 업데이트의 핵심 설계 원칙은 기존 텍스트 전용 학습 파이프라인과의 완전한 호환성이다. 개발자는 기존 SentenceTransformerTrainer를 그대로 사용하며, 모달리티가 추가되더라도 데이터셋에 이미지를 포함시키기만 하면 모델의 프로세서(processor)가 이미지 전처리를 자동으로 처리한다. 학습 구성 요소는 ① 모델(Model), ② 데이터셋(Dataset), ③ 손실 함수(Loss Function), ④ 학습 인자(Training Arguments), ⑤ 평가기(Evaluator), ⑥ 트레이너(Trainer)로 텍스트 전용 학습과 동일하다.

손실 함수로는 대규모 배치 학습에 효율적인 CachedMultipleNegativesRankingLoss와 다양한 임베딩 차원을 동시에 최적화하는 MatryoshkaLoss가 지원된다. 마트료시카(Matryoshka) 방식은 하나의 모델로 다양한 차원의 임베딩을 유연하게 활용할 수 있어 스토리지와 검색 속도 간 트레이드오프 조정이 가능하다는 장점이 있다.

[전문가 분석] 멀티모달 검색 시장의 지형 변화

이번 업데이트는 단순한 라이브러리 기능 추가를 넘어 멀티모달 검색(Multimodal Retrieval) 생태계에 실질적인 변화를 가져올 가능성이 높다.

첫째, 접근성 혁신이다. 기존에는 멀티모달 임베딩 모델 파인튜닝이 복잡한 커스텀 학습 코드를 요구했으나, Sentence Transformers의 표준화된 파이프라인이 이를 크게 단순화했다. 스타트업과 중소 연구팀도 자체 도메인 데이터로 특화 모델을 구축할 수 있는 진입 장벽이 낮아졌다.

둘째, 모델 크기 대비 성능 효율의 재정의 가능성이 높다. 2B 파라미터 규모의 모델이 도메인 파인튜닝을 통해 8B급 모델을 능가한 이번 결과는 '크기보다 특화'라는 방향성을 실증한다. 검색 증강 생성(RAG, Retrieval-Augmented Generation) 파이프라인에서 멀티모달 문서 검색의 정확도가 핵심 병목인 기업들에게 파인튜닝 전략이 유효한 대안으로 부상할 가능성이 있다.

셋째, VDR 응용 범위 확대가 예상된다. 재무 보고서, 법률 문서, 의료 영상 등 레이아웃과 시각 정보가 혼재하는 문서를 다루는 산업에서 VDR 기반 검색 시스템 도입이 가속화될 가능성이 높다. 특히 기업 내부 문서 검색, 규정 준수 검토, 특허 검색 등 고부가가치 영역에서의 활용이 주목된다.

다만 멀티모달 모델 학습에는 상당한 GPU 메모리와 연산 자원이 필요하다는 점, 고품질 도메인 학습 데이터 확보가 성능의 핵심 변수라는 점은 여전히 과제로 남는다.

#sentence-transformers #멀티모달 #임베딩 #VDR #RAG #LLM #huggingface-series