AI・テック

Sentence Transformers、マルチモーダル埋め込みモデルのファインチューニングを正式サポート

2BモデルのファインチューニングでVDRタスクのNDCG@10が0.888→0.947、4倍大きなモデルを凌駕

신하영··5分で読めます·
Training and Finetuning Multimodal Embedding & Reranker Models with Sentence Transformers
要約
  • Sentence Transformersがマルチモーダル埋め込みモデルのファインチューニングを正式サポート。
  • 2Bモデルのファインチューニングでデータセット評価のNDCG@10が0.888→0.947、4倍大のモデルを凌駕。
  • 既存テキスト専用パイプラインと完全互換で、参入障壁が大きく低下した。

テキストを超えて:画像・文書で学習する埋め込みモデルの時代

Hugging FaceのPythonライブラリ「Sentence Transformers」が、マルチモーダル(multimodal)埋め込みモデルおよびリランカー(reranker)モデルの学習・ファインチューニング(finetuning)機能を正式にサポートした。2026年4月16日に公開された公式ブログポストで、開発者のTom Aarsenはテキスト・画像・音声・動画を同時に処理するマルチモーダルモデルを独自ドメインデータでファインチューニングするパイプライン全体を詳述した。実験では、Qwen/Qwen3-VL-Embedding-2BをVisual Document Retrieval(VDR)タスクでファインチューニングした結果、NDCG@10スコアが0.888から0.947に向上し、最大4倍の規模を持つ既存VDRモデルすべてを上回った。

なぜファインチューニングが必要か

汎用マルチモーダル埋め込みモデルは多様なタスクで十分な性能を発揮するが、「汎用性」は特定ドメインでの最適性能を保証しない。VDRでは「Q3の売上はいくらだったか」というテキストクエリに対し、数千のドキュメントページ画像の中から最も関連性の高いページを見つける必要があり、表・グラフ・レイアウトの深い理解が求められる。ファインチューニングはこうしたドメイン特化パターンをモデルに学習させる主要な手段だ。

Aarsenはこれを具体的な数値で実証した。ファインチューニングされたモデルtomaarsen/Qwen3-VL-Embedding-2B-vdrは評価データセットでNDCG@10 0.947を記録し、ベースモデル(0.888)はもちろん、テストした全ての既存VDRモデル(パラメータ数が4倍のモデルを含む)を上回った。

何が変わったか

項目以前(テキスト専用)今回のアップデート(マルチモーダル)変化
対応モダリティテキストテキスト・画像・音声・動画+4種類
学習パイプラインSentenceTransformerTrainer同じ(SentenceTransformerTrainer)一貫性維持
データセット形式テキストペアテキスト+画像混合画像前処理の自動化
損失関数各種CachedMultipleNegativesRankingLoss、MatryoshkaLoss同一オプション対応
VDR評価(NDCG@10)0.947(ベース:0.888)+6.6%p

今回のアップデートの核心設計原則は既存テキスト専用学習パイプラインとの完全な互換性だ。開発者は同じSentenceTransformerTrainerをそのまま使用でき、モダリティが追加されてもデータセットに画像を含めるだけで、モデルのプロセッサーが画像前処理を自動的に処理する。

損失関数としては、大規模バッチ学習に効率的なCachedMultipleNegativesRankingLossと、複数の埋め込み次元を同時に最適化するMatryoshkaLossがサポートされる。

[専門家分析] マルチモーダル検索市場の地形変化

今回のアップデートは、単純なライブラリ機能追加を超えてマルチモーダル検索(Multimodal Retrieval)エコシステムに実質的な変化をもたらす可能性が高い。

第一にアクセシビリティの革新だ。以前はマルチモーダル埋め込みモデルのファインチューニングに複雑なカスタム学習コードが必要だったが、Sentence Transformersの標準化されたパイプラインがこれを大幅に簡素化した。

第二に、2Bパラメータ規模のモデルがドメインファインチューニングにより8B級モデルを上回った今回の結果は、「規模より特化」という方向性を実証している。検索拡張生成(RAG)パイプラインでマルチモーダル文書検索の精度が重要なボトルネックとなっている企業にとって、ファインチューニング戦略が有効な選択肢として浮上する可能性が高い。

第三に、財務報告書・法律文書・医療画像など視覚情報が混在する文書を扱う産業でのVDRベース検索システムの導入加速が見込まれる。ただし、マルチモーダルモデルの学習には相当なGPUメモリと計算リソースが必要であり、高品質なドメイン学習データの確保が性能の鍵を握る点は依然として課題として残る。

共有

댓글 (95)

겨울의바람방금 전

유익한 기사네요.

열정적인바이올린방금 전

멀티모달 기사에서 언급된 사례가 흥미로웠습니다. 잘 정리된 기사네요.

대전의독자방금 전

북마크해두겠습니다. 임베딩에 대해 처음 접하는 정보가 있었습니다.

차분한녹차방금 전

Sentence 기사에서 언급된 사례가 흥미로웠습니다.

대전의바이올린방금 전

멀티모달 관련 데이터가 인상적이었습니다.

활발한아메리카노방금 전

흥미로운 주제입니다. 임베딩이 일상에 어떤 영향을 줄지 생각해보게 됩니다. 계속 지켜봐야겠습니다.

한밤의탐험가방금 전

Sentence에 대해 주변 사람들과 이야기 나눠볼 만합니다.

성수의바이올린방금 전

읽기 좋은 기사입니다. 멀티모달 관련 통계가 의외였습니다.

새벽의분석가방금 전

임베딩 관련 배경 설명이 이해하기 쉬웠습니다.

판교의사색가방금 전

댓글 보는 재미도 있네요.

느긋한에스프레소5분 전

멀티모달에 대해 주변 사람들과 이야기 나눠볼 만합니다.

맑은날피아노5분 전

깔끔한 기사입니다. 임베딩 기사에서 언급된 사례가 흥미로웠습니다.

공원의기록자5분 전

Sentence의 전문가 코멘트가 설득력 있었습니다.

냉철한분석가5분 전

멀티모달에 대해 더 알고 싶어졌습니다.

용감한피아노5분 전

임베딩 관련 용어 설명이 친절해서 좋았습니다. 후속 기사 부탁드립니다.

해운대의라떼5분 전

Sentence이 일상에 어떤 영향을 줄지 생각해보게 됩니다.

인천의바이올린5분 전

북마크해두겠습니다. 멀티모달에 대해 처음 접하는 정보가 있었습니다.

강남의독자5분 전

객관적인 시각이 돋보이는 기사입니다.

용감한워커5분 전

좋은 정리입니다. Sentence 관련 용어 설명이 친절해서 좋았습니다.

해운대의사색가12분 전

기자님 수고하셨습니다.

가을의바이올린12분 전

임베딩이 일상에 어떤 영향을 줄지 생각해보게 됩니다.

부지런한별12분 전

읽기 좋은 기사입니다. Sentence 관련 통계가 의외였습니다.

봄날의토끼12분 전

멀티모달 주제로 시리즈 기사가 나오면 좋겠습니다. 전문가 의견도 더 듣고 싶습니다.

부산의기록자12분 전

구독 중인데 만족합니다.

다정한강아지12분 전

Sentence의 전문가 코멘트가 설득력 있었습니다. 전문가 의견도 더 듣고 싶습니다.

진지한분석가12분 전

멀티모달에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다.

똑똑한녹차12분 전

임베딩의 향후 전망이 궁금합니다. 좋은 기사 감사합니다.

햇살의바람12분 전

Sentence 주제로 시리즈 기사가 나오면 좋겠습니다.

판교의러너12분 전

멀티모달이 일상에 어떤 영향을 줄지 생각해보게 됩니다.

조용한관찰자30분 전

좋은 정리입니다. 임베딩 관련 용어 설명이 친절해서 좋았습니다.

성수의다람쥐30분 전

잘 읽었습니다. Sentence 관련 데이터가 인상적이었습니다. 잘 정리된 기사네요.

재빠른여행자30분 전

멀티모달 주제로 시리즈 기사가 나오면 좋겠습니다. 나중에 다시 읽어볼 만합니다.

햇살의부엉이30분 전

정리가 깔끔하네요.

가을의에스프레소30분 전

Sentence에 대해 처음 접하는 정보가 있었습니다.

비오는날펭귄30분 전

멀티모달의 향후 전망이 궁금합니다.

오후의다람쥐30분 전

기사 잘 읽었습니다.

따뜻한돌고래30분 전

좋은 기사 감사합니다.

한밤의토끼30분 전

멀티모달 관련 용어 설명이 친절해서 좋았습니다.

성수의강아지1시간 전

임베딩이 일상에 어떤 영향을 줄지 생각해보게 됩니다. 해외 동향도 함께 다뤄주시면 좋겠습니다.

바람의바람1시간 전

Sentence 관련 용어 설명이 친절해서 좋았습니다.

한밤의기록자1시간 전

멀티모달 관련 해외 동향도 궁금합니다.

제주의여행자1시간 전

흥미로운 주제입니다. 임베딩 관련 데이터가 인상적이었습니다. 계속 지켜봐야겠습니다.

인천의비평가1시간 전

다양한 주제를 다뤄주셔서 좋습니다.

강남의드럼1시간 전

멀티모달에 대해 처음 접하는 정보가 있었습니다. 후속 기사 부탁드립니다.

활발한러너1시간 전

이런 시각도 있었군요. 임베딩 관련 통계가 의외였습니다. 나중에 다시 읽어볼 만합니다.

여름의여행자1시간 전

아침에 읽기 딱 좋은 분량이에요.

호기심많은러너1시간 전

이런 시각도 있었군요. 멀티모달 관련 해외 동향도 궁금합니다. 나중에 다시 읽어볼 만합니다.

판교의바이올린1시간 전

임베딩이 앞으로 어떻게 전개될지 주목해야겠습니다. 생각이 바뀌었습니다.

부지런한드럼2시간 전

깔끔한 기사입니다. Sentence의 향후 전망이 궁금합니다. 후속 기사 부탁드립니다.

비오는날고양이2시간 전

멀티모달의 전문가 코멘트가 설득력 있었습니다.

서울의고양이2시간 전

핵심만 잘 정리해주시네요.

가을의크리에이터2시간 전

몰랐던 사실을 알게 됐습니다. Sentence의 전문가 코멘트가 설득력 있었습니다. 계속 지켜봐야겠습니다.

공원의탐험가2시간 전

친구한테도 추천했습니다.

홍대의여행자2시간 전

이런 시각도 있었군요. 임베딩의 향후 전망이 궁금합니다. 다른 시각의 분석도 읽어보고 싶습니다.

도서관의리더2시간 전

유익한 기사네요. Sentence이 일상에 어떤 영향을 줄지 생각해보게 됩니다.

홍대의피아노2시간 전

좋은 정보 감사합니다.

솔직한러너2시간 전

임베딩 기사에서 언급된 사례가 흥미로웠습니다.

바람의강아지3시간 전

Sentence에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다.

별빛의사자3시간 전

멀티모달 관련 통계가 의외였습니다.

냉철한바람3시간 전

임베딩 주제로 시리즈 기사가 나오면 좋겠습니다. 해외 동향도 함께 다뤄주시면 좋겠습니다.

냉철한다람쥐3시간 전

Sentence 관련 데이터가 인상적이었습니다. 다른 시각의 분석도 읽어보고 싶습니다.

맑은날다람쥐3시간 전

멀티모달 관련 용어 설명이 친절해서 좋았습니다. 주변에도 공유해야겠어요.

저녁의기록자3시간 전

임베딩 관련 통계가 의외였습니다.

솔직한판다3시간 전

깔끔한 기사입니다. Sentence 주제로 시리즈 기사가 나오면 좋겠습니다.

카페의드럼3시간 전

유익한 기사네요. 멀티모달 관련 통계가 의외였습니다. 나중에 다시 읽어볼 만합니다.

유쾌한부엉이3시간 전

임베딩이 일상에 어떤 영향을 줄지 생각해보게 됩니다. 계속 지켜봐야겠습니다.

활발한크리에이터3시간 전

이런 시각도 있었군요. Sentence 주제로 시리즈 기사가 나오면 좋겠습니다. 주변에도 공유해야겠어요.

산속의드리머5시간 전

유익한 기사네요. 멀티모달이 일상에 어떤 영향을 줄지 생각해보게 됩니다.

강남의부엉이5시간 전

잘 보고 있습니다.

한밤의아메리카노5시간 전

북마크해두겠습니다. Sentence이 일상에 어떤 영향을 줄지 생각해보게 됩니다. 잘 정리된 기사네요.

부지런한바이올린5시간 전

멀티모달에 대해 더 알고 싶어졌습니다. 좋은 기사 감사합니다.

바람의독자5시간 전

몰랐던 사실을 알게 됐습니다. 임베딩에 대해 처음 접하는 정보가 있었습니다.

여름의리더5시간 전

깔끔한 기사입니다. Sentence 관련 통계가 의외였습니다. 계속 지켜봐야겠습니다.

겨울의에스프레소5시간 전

흥미로운 주제입니다. 멀티모달 주제로 시리즈 기사가 나오면 좋겠습니다. 좋은 기사 감사합니다.

비오는날분석가5시간 전

참고가 됩니다. 임베딩에 대해 주변 사람들과 이야기 나눠볼 만합니다.

따뜻한탐험가5시간 전

유익한 기사네요. Sentence 관련 용어 설명이 친절해서 좋았습니다.

봄날의라떼8시간 전

멀티모달의 전문가 코멘트가 설득력 있었습니다. 계속 지켜봐야겠습니다.

가을의드럼8시간 전

임베딩 관련 해외 동향도 궁금합니다. 후속 기사 부탁드립니다.

비오는날돌고래8시간 전

잘 읽었습니다. Sentence 관련 배경 설명이 이해하기 쉬웠습니다. 후속 기사 부탁드립니다.

꼼꼼한여우8시간 전

멀티모달 기사에서 언급된 사례가 흥미로웠습니다.

느긋한여우8시간 전

임베딩 주제로 시리즈 기사가 나오면 좋겠습니다. 잘 정리된 기사네요.

호기심많은토끼8시간 전

흥미로운 주제입니다. Sentence 주제로 시리즈 기사가 나오면 좋겠습니다.

비오는날구름8시간 전

잘 읽었습니다. 멀티모달이 일상에 어떤 영향을 줄지 생각해보게 됩니다. 나중에 다시 읽어볼 만합니다.

바람의사자8시간 전

임베딩의 향후 전망이 궁금합니다.

느긋한기타8시간 전

참고가 됩니다. Sentence에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다.

똑똑한비평가8시간 전

멀티모달 관련 배경 설명이 이해하기 쉬웠습니다.

산속의판다

임베딩의 전문가 코멘트가 설득력 있었습니다.

겨울의연구자

기사 퀄리티가 좋습니다.

유쾌한라떼

참고가 됩니다. 멀티모달이 앞으로 어떻게 전개될지 주목해야겠습니다.

활발한사자

잘 읽었습니다. 임베딩 관련 통계가 의외였습니다.

서울의아메리카노

Sentence 관련 배경 설명이 이해하기 쉬웠습니다. 전문가 의견도 더 듣고 싶습니다.

맑은날탐험가

유익한 기사네요. 멀티모달에 대해 주변 사람들과 이야기 나눠볼 만합니다. 생각이 바뀌었습니다.

서울의기타

임베딩 주제로 시리즈 기사가 나오면 좋겠습니다.

느긋한워커

Sentence 관련 배경 설명이 이해하기 쉬웠습니다.

구름위아메리카노

흥미로운 주제입니다. 멀티모달 관련 데이터가 인상적이었습니다.

このシリーズの他の記事

AI・テックの記事をもっと見る

最新ニュース