AI·테크

Sentence Transformers, 멀티모달 임베딩 모델 파인튜닝 지원

VDR 과제에서 기존 모델 대비 NDCG@10 0.888→0.947 달성, 4배 큰 모델도 능가

신하영··5분 읽기·
Training and Finetuning Multimodal Embedding & Reranker Models with Sentence Transformers
요약
  • Sentence Transformers가 멀티모달 임베딩 모델 파인튜닝을 정식 지원한다.
  • VDR 과제에서 2B 모델 파인튜닝 결과 NDCG@10 0.888→0.947, 4배 큰 모델 능가.
  • 기존 텍스트 전용 학습 파이프라인과 완전 호환, 접근 장벽이 크게 낮아졌다.

텍스트를 넘어, 이미지·문서까지 학습하는 임베딩 모델 시대

허깅페이스(Hugging Face)의 파이썬(Python) 라이브러리 Sentence Transformers가 멀티모달(multimodal) 임베딩 및 리랭커(reranker) 모델의 학습·파인튜닝(finetuning) 기능을 정식 지원하기 시작했다. 2026년 4월 16일 공개된 공식 블로그 포스트에서 개발자 톰 아르센(Tom Aarsen)은 텍스트, 이미지, 오디오, 동영상을 동시에 처리하는 멀티모달 모델을 사용자의 도메인 데이터로 직접 파인튜닝하는 전체 파이프라인을 상세히 공개했다. 실험 결과, Qwen/Qwen3-VL-Embedding-2B 모델을 시각 문서 검색(Visual Document Retrieval, VDR) 과제에 파인튜닝한 결과 NDCG@10 지표가 0.888에서 0.947로 향상됐으며, 모델 크기가 최대 4배에 달하는 기존 VDR 모델들을 모두 능가하는 성능을 기록했다.

왜 파인튜닝이 필요한가

범용 멀티모달 임베딩 모델은 이미지-텍스트 매칭, 시각적 질의응답(Visual Question Answering), 문서 이해 등 다양한 과제에서 준수한 성능을 보인다. 그러나 '범용성'은 특정 도메인에서의 최적 성능을 보장하지 않는다. 예를 들어 VDR 과제에서는 "Q3 매출이 얼마였는가"와 같은 텍스트 쿼리에 대해 수천 개의 문서 페이지 이미지 중 가장 관련성 높은 페이지를 찾아야 하는데, 이는 표·차트·레이아웃 이해라는 고도로 특화된 능력을 요구한다. 파인튜닝은 이러한 도메인 특화 패턴을 모델에 학습시키는 핵심 수단이다.

아르센은 이를 직접 수치로 입증했다. 파인튜닝된 모델 tomaarsen/Qwen3-VL-Embedding-2B-vdr은 동일 평가 데이터셋에서 NDCG@10 0.947을 기록해, 베이스 모델(0.888)은 물론 테스트한 모든 기존 VDR 모델을 상회했다. 특히 파라미터 수가 4배 큰 대형 모델도 능가한다는 점에서 파인튜닝의 효율성이 두드러진다.

이전과 무엇이 달라졌나

항목기존 (텍스트 전용)이번 업데이트 (멀티모달)변화
지원 모달리티텍스트텍스트, 이미지, 오디오, 동영상4종 추가
학습 파이프라인SentenceTransformerTrainer동일 (SentenceTransformerTrainer)일관성 유지
데이터셋 구성텍스트 쌍텍스트 + 이미지 혼합이미지 전처리 자동화
손실 함수다양한 옵션CachedMultipleNegativesRankingLoss, MatryoshkaLoss 포함동일 옵션 지원
평가 지표 (VDR)NDCG@10 0.947 (베이스 0.888)+6.6%p

이번 업데이트의 핵심 설계 원칙은 기존 텍스트 전용 학습 파이프라인과의 완전한 호환성이다. 개발자는 기존 SentenceTransformerTrainer를 그대로 사용하며, 모달리티가 추가되더라도 데이터셋에 이미지를 포함시키기만 하면 모델의 프로세서(processor)가 이미지 전처리를 자동으로 처리한다. 학습 구성 요소는 ① 모델(Model), ② 데이터셋(Dataset), ③ 손실 함수(Loss Function), ④ 학습 인자(Training Arguments), ⑤ 평가기(Evaluator), ⑥ 트레이너(Trainer)로 텍스트 전용 학습과 동일하다.

손실 함수로는 대규모 배치 학습에 효율적인 CachedMultipleNegativesRankingLoss와 다양한 임베딩 차원을 동시에 최적화하는 MatryoshkaLoss가 지원된다. 마트료시카(Matryoshka) 방식은 하나의 모델로 다양한 차원의 임베딩을 유연하게 활용할 수 있어 스토리지와 검색 속도 간 트레이드오프 조정이 가능하다는 장점이 있다.

[전문가 분석] 멀티모달 검색 시장의 지형 변화

이번 업데이트는 단순한 라이브러리 기능 추가를 넘어 멀티모달 검색(Multimodal Retrieval) 생태계에 실질적인 변화를 가져올 가능성이 높다.

첫째, 접근성 혁신이다. 기존에는 멀티모달 임베딩 모델 파인튜닝이 복잡한 커스텀 학습 코드를 요구했으나, Sentence Transformers의 표준화된 파이프라인이 이를 크게 단순화했다. 스타트업과 중소 연구팀도 자체 도메인 데이터로 특화 모델을 구축할 수 있는 진입 장벽이 낮아졌다.

둘째, 모델 크기 대비 성능 효율의 재정의 가능성이 높다. 2B 파라미터 규모의 모델이 도메인 파인튜닝을 통해 8B급 모델을 능가한 이번 결과는 '크기보다 특화'라는 방향성을 실증한다. 검색 증강 생성(RAG, Retrieval-Augmented Generation) 파이프라인에서 멀티모달 문서 검색의 정확도가 핵심 병목인 기업들에게 파인튜닝 전략이 유효한 대안으로 부상할 가능성이 있다.

셋째, VDR 응용 범위 확대가 예상된다. 재무 보고서, 법률 문서, 의료 영상 등 레이아웃과 시각 정보가 혼재하는 문서를 다루는 산업에서 VDR 기반 검색 시스템 도입이 가속화될 가능성이 높다. 특히 기업 내부 문서 검색, 규정 준수 검토, 특허 검색 등 고부가가치 영역에서의 활용이 주목된다.

다만 멀티모달 모델 학습에는 상당한 GPU 메모리와 연산 자원이 필요하다는 점, 고품질 도메인 학습 데이터 확보가 성능의 핵심 변수라는 점은 여전히 과제로 남는다.

공유

댓글 (20)

진지한에스프레소방금 전

Sentence 관련 배경 설명이 이해하기 쉬웠습니다. 주변에도 공유해야겠어요.

별빛의연구자방금 전

유익한 기사네요. Transformers의 전문가 코멘트가 설득력 있었습니다.

바닷가의탐험가5분 전

친구한테도 추천했습니다.

차분한녹차5분 전

임베딩의 향후 전망이 궁금합니다.

공원의드럼12분 전

참고가 됩니다. Sentence이 앞으로 어떻게 전개될지 주목해야겠습니다.

활발한고양이12분 전

참고가 됩니다. Transformers에 대해 처음 접하는 정보가 있었습니다. 다른 시각의 분석도 읽어보고 싶습니다.

부산의탐험가30분 전

읽기 좋은 기사입니다. 멀티모달 관련 데이터가 인상적이었습니다.

구름위관찰자30분 전

임베딩에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다. 후속 기사 부탁드립니다.

차분한사자1시간 전

몰랐던 사실을 알게 됐습니다. Sentence 주제로 시리즈 기사가 나오면 좋겠습니다. 주변에도 공유해야겠어요.

강남의연구자1시간 전

언론이 이래야죠.

현명한드리머2시간 전

기자님 수고하셨습니다.

재빠른펭귄2시간 전

좋은 정보 감사합니다.

진지한사자3시간 전

Sentence 주제로 시리즈 기사가 나오면 좋겠습니다.

바닷가의사자3시간 전

Transformers 관련 용어 설명이 친절해서 좋았습니다. 후속 기사 부탁드립니다.

겨울의커피5시간 전

멀티모달 관련 해외 동향도 궁금합니다.

도서관의워커5시간 전

객관적인 시각이 돋보이는 기사입니다.

냉철한분석가8시간 전

좋은 정리입니다. Sentence의 향후 전망이 궁금합니다. 좋은 기사 감사합니다.

밝은비평가8시간 전

Transformers이 일상에 어떤 영향을 줄지 생각해보게 됩니다. 생각이 바뀌었습니다.

대전의부엉이

멀티모달에 대해 주변 사람들과 이야기 나눠볼 만합니다.

대전의시민

임베딩이 일상에 어떤 영향을 줄지 생각해보게 됩니다.

이 시리즈의 다른 기사

AI·테크 더보기

최신 뉴스