Sentence Transformers, 멀티모달 임베딩 모델 파인튜닝 지원
VDR 과제에서 기존 모델 대비 NDCG@10 0.888→0.947 달성, 4배 큰 모델도 능가

- •Sentence Transformers가 멀티모달 임베딩 모델 파인튜닝을 정식 지원한다.
- •VDR 과제에서 2B 모델 파인튜닝 결과 NDCG@10 0.888→0.947, 4배 큰 모델 능가.
- •기존 텍스트 전용 학습 파이프라인과 완전 호환, 접근 장벽이 크게 낮아졌다.
텍스트를 넘어, 이미지·문서까지 학습하는 임베딩 모델 시대
허깅페이스(Hugging Face)의 파이썬(Python) 라이브러리 Sentence Transformers가 멀티모달(multimodal) 임베딩 및 리랭커(reranker) 모델의 학습·파인튜닝(finetuning) 기능을 정식 지원하기 시작했다. 2026년 4월 16일 공개된 공식 블로그 포스트에서 개발자 톰 아르센(Tom Aarsen)은 텍스트, 이미지, 오디오, 동영상을 동시에 처리하는 멀티모달 모델을 사용자의 도메인 데이터로 직접 파인튜닝하는 전체 파이프라인을 상세히 공개했다. 실험 결과, Qwen/Qwen3-VL-Embedding-2B 모델을 시각 문서 검색(Visual Document Retrieval, VDR) 과제에 파인튜닝한 결과 NDCG@10 지표가 0.888에서 0.947로 향상됐으며, 모델 크기가 최대 4배에 달하는 기존 VDR 모델들을 모두 능가하는 성능을 기록했다.
왜 파인튜닝이 필요한가
범용 멀티모달 임베딩 모델은 이미지-텍스트 매칭, 시각적 질의응답(Visual Question Answering), 문서 이해 등 다양한 과제에서 준수한 성능을 보인다. 그러나 '범용성'은 특정 도메인에서의 최적 성능을 보장하지 않는다. 예를 들어 VDR 과제에서는 "Q3 매출이 얼마였는가"와 같은 텍스트 쿼리에 대해 수천 개의 문서 페이지 이미지 중 가장 관련성 높은 페이지를 찾아야 하는데, 이는 표·차트·레이아웃 이해라는 고도로 특화된 능력을 요구한다. 파인튜닝은 이러한 도메인 특화 패턴을 모델에 학습시키는 핵심 수단이다.
아르센은 이를 직접 수치로 입증했다. 파인튜닝된 모델 tomaarsen/Qwen3-VL-Embedding-2B-vdr은 동일 평가 데이터셋에서 NDCG@10 0.947을 기록해, 베이스 모델(0.888)은 물론 테스트한 모든 기존 VDR 모델을 상회했다. 특히 파라미터 수가 4배 큰 대형 모델도 능가한다는 점에서 파인튜닝의 효율성이 두드러진다.
이전과 무엇이 달라졌나
| 항목 | 기존 (텍스트 전용) | 이번 업데이트 (멀티모달) | 변화 |
|---|---|---|---|
| 지원 모달리티 | 텍스트 | 텍스트, 이미지, 오디오, 동영상 | 4종 추가 |
| 학습 파이프라인 | SentenceTransformerTrainer | 동일 (SentenceTransformerTrainer) | 일관성 유지 |
| 데이터셋 구성 | 텍스트 쌍 | 텍스트 + 이미지 혼합 | 이미지 전처리 자동화 |
| 손실 함수 | 다양한 옵션 | CachedMultipleNegativesRankingLoss, MatryoshkaLoss 포함 | 동일 옵션 지원 |
| 평가 지표 (VDR) | — | NDCG@10 0.947 (베이스 0.888) | +6.6%p |
이번 업데이트의 핵심 설계 원칙은 기존 텍스트 전용 학습 파이프라인과의 완전한 호환성이다. 개발자는 기존 SentenceTransformerTrainer를 그대로 사용하며, 모달리티가 추가되더라도 데이터셋에 이미지를 포함시키기만 하면 모델의 프로세서(processor)가 이미지 전처리를 자동으로 처리한다. 학습 구성 요소는 ① 모델(Model), ② 데이터셋(Dataset), ③ 손실 함수(Loss Function), ④ 학습 인자(Training Arguments), ⑤ 평가기(Evaluator), ⑥ 트레이너(Trainer)로 텍스트 전용 학습과 동일하다.
손실 함수로는 대규모 배치 학습에 효율적인 CachedMultipleNegativesRankingLoss와 다양한 임베딩 차원을 동시에 최적화하는 MatryoshkaLoss가 지원된다. 마트료시카(Matryoshka) 방식은 하나의 모델로 다양한 차원의 임베딩을 유연하게 활용할 수 있어 스토리지와 검색 속도 간 트레이드오프 조정이 가능하다는 장점이 있다.
[전문가 분석] 멀티모달 검색 시장의 지형 변화
이번 업데이트는 단순한 라이브러리 기능 추가를 넘어 멀티모달 검색(Multimodal Retrieval) 생태계에 실질적인 변화를 가져올 가능성이 높다.
첫째, 접근성 혁신이다. 기존에는 멀티모달 임베딩 모델 파인튜닝이 복잡한 커스텀 학습 코드를 요구했으나, Sentence Transformers의 표준화된 파이프라인이 이를 크게 단순화했다. 스타트업과 중소 연구팀도 자체 도메인 데이터로 특화 모델을 구축할 수 있는 진입 장벽이 낮아졌다.
둘째, 모델 크기 대비 성능 효율의 재정의 가능성이 높다. 2B 파라미터 규모의 모델이 도메인 파인튜닝을 통해 8B급 모델을 능가한 이번 결과는 '크기보다 특화'라는 방향성을 실증한다. 검색 증강 생성(RAG, Retrieval-Augmented Generation) 파이프라인에서 멀티모달 문서 검색의 정확도가 핵심 병목인 기업들에게 파인튜닝 전략이 유효한 대안으로 부상할 가능성이 있다.
셋째, VDR 응용 범위 확대가 예상된다. 재무 보고서, 법률 문서, 의료 영상 등 레이아웃과 시각 정보가 혼재하는 문서를 다루는 산업에서 VDR 기반 검색 시스템 도입이 가속화될 가능성이 높다. 특히 기업 내부 문서 검색, 규정 준수 검토, 특허 검색 등 고부가가치 영역에서의 활용이 주목된다.
다만 멀티모달 모델 학습에는 상당한 GPU 메모리와 연산 자원이 필요하다는 점, 고품질 도메인 학습 데이터 확보가 성능의 핵심 변수라는 점은 여전히 과제로 남는다.
댓글 (20)
Sentence 관련 배경 설명이 이해하기 쉬웠습니다. 주변에도 공유해야겠어요.
유익한 기사네요. Transformers의 전문가 코멘트가 설득력 있었습니다.
친구한테도 추천했습니다.
임베딩의 향후 전망이 궁금합니다.
참고가 됩니다. Sentence이 앞으로 어떻게 전개될지 주목해야겠습니다.
참고가 됩니다. Transformers에 대해 처음 접하는 정보가 있었습니다. 다른 시각의 분석도 읽어보고 싶습니다.
읽기 좋은 기사입니다. 멀티모달 관련 데이터가 인상적이었습니다.
임베딩에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다. 후속 기사 부탁드립니다.
몰랐던 사실을 알게 됐습니다. Sentence 주제로 시리즈 기사가 나오면 좋겠습니다. 주변에도 공유해야겠어요.
언론이 이래야죠.
기자님 수고하셨습니다.
좋은 정보 감사합니다.
Sentence 주제로 시리즈 기사가 나오면 좋겠습니다.
Transformers 관련 용어 설명이 친절해서 좋았습니다. 후속 기사 부탁드립니다.
멀티모달 관련 해외 동향도 궁금합니다.
객관적인 시각이 돋보이는 기사입니다.
좋은 정리입니다. Sentence의 향후 전망이 궁금합니다. 좋은 기사 감사합니다.
Transformers이 일상에 어떤 영향을 줄지 생각해보게 됩니다. 생각이 바뀌었습니다.
멀티모달에 대해 주변 사람들과 이야기 나눠볼 만합니다.
임베딩이 일상에 어떤 영향을 줄지 생각해보게 됩니다.
이 시리즈의 다른 기사
AI·테크 더보기
최신 뉴스

IMF, 7년 만에 베네수엘라와 관계 재개…49억 달러 동결 해제 기대
IMF가 2019년 이후 중단됐던 베네수엘라와의 공식 관계를 7년 만에 재개했다.

IMF, 7년 만에 베네수엘라와 관계 재개…49억 달러 동결 해제 가능성
IMF가 7년 만에 베네수엘라와 공식 협력을 재개하기로 결정했다.

경상흑자 역대 최대인데 원화는 왜 약해지나
한국은행, 경상흑자에도 원화 약세 이어지는 구조적 원인 공식 분석.

금융당국, 미래에셋에 SpaceX IPO 조기 마케팅 경고
금융당국이 미래에셋증권의 SpaceX IPO 조기 마케팅에 구두 경고를 내렸다.

베네치아, 수백 년 안에 사라진다...유럽 연구팀의 4가지 생존 방안
유럽 연구팀, 베네치아 생존 위한 4가지 시나리오를 Scientific Reports에 발표했다.

96년 전통 깬다…월드컵 결승전, 사상 첫 하프타임 쇼
FIFA가 96년 만에 처음으로 월드컵 결승전 하프타임 쇼를 도입한다.

레바논 사망자 2,196명…이스라엘 공습에 의료 시스템 붕괴 위기
이스라엘 공습으로 레바논 누적 사망자 2,196명, 부상자 7,185명 기록

이란 전쟁 속 걸프 3국, 사모채권으로 100억 달러 조달
걸프 3국이 이란 전쟁 이후 처음으로 사모채권 발행에 나서 약 100억 달러를 조달했다.





