AI・テック

Sentence Transformers v5.4、テキスト・画像・音声・動画の統合マルチモーダル埋め込みに対応

新たなマルチモーダル埋め込みとリランキングサポートにより、クロスモーダル検索とマルチモーダルRAGパイプラインが同一APIで構築可能に

Elena Volkov·2026년 4월 8일 수 15:00·5分で読めます·

Multimodal Embedding & Reranker Models with Sentence Transformers

要約

•Sentence Transformers v5.4がテキスト・画像・音声・動画を単一APIで埋め込むマルチモーダル対応を正式リリースした。
•Qwen3-VL-2BなどのVLMベースモデル使用時は最低8GBのVRAMが必要で、クロスモーダル検索とマルチモーダルRAGパイプラインの構築が可能になった。
•既存のencode() APIをそのまま維持することで、テキスト専用からマルチモーダルへの移行コストを最小化している。

1つのAPIでテキスト・画像・音声・動画を比較

Python埋め込みライブラリ「Sentence Transformers」は2026年4月9日にv5.4アップデートをリリースし、マルチモーダル(multimodal)な埋め込みおよびリランキング(reranking)機能を正式にサポートした。このアップデートにより、開発者は既存のmodel.encode() APIをそのまま使いながら、テキストだけでなく画像・音声・動画も単一の共有埋め込み空間にマッピングできるようになった。Hugging Faceブログの発表によれば、今回の機能追加はビジュアルドキュメント検索、クロスモーダル(cross-modal)セマンティック検索、マルチモーダルRAG(Retrieval-Augmented Generation)パイプラインの構築を直接ターゲットとしている。

マルチモーダルモデルとは

従来の埋め込みモデルはテキストを固定サイズのベクトルに変換することに特化していた。マルチモーダル埋め込みモデルはこの概念を拡張し、テキスト・画像・音声・動画といった異なるモダリティの入力を単一の共有埋め込み空間に投影する。これにより、テキストクエリで画像ドキュメントを検索したり、説明文で動画クリップを見つけたりする作業が、既存のコサイン類似度関数をそのまま使って実現できる。

リランカー(reranker、Cross Encoder)モデルも同様だ。従来はテキスト同士のペアの関連性スコアのみ算出できたが、今回のアップデートで画像とテキストの混合ペアや、テキストと画像を組み合わせた複合ドキュメントのペアに対しても関連性スコアを計算できるようになった。

インストールとハードウェア要件

マルチモーダル機能はモダリティごとに追加依存関係のインストールが必要だ。

pip install -U "sentence-transformers[image]"
pip install -U "sentence-transformers[audio]"
pip install -U "sentence-transformers[video]"
pip install -U "sentence-transformers[image,video,train]"

Qwen3-VL-2BなどのVLM(Vision-Language Model)ベースのモデルを使用する場合、2Bパラメータモデルには最低8GBのVRAMが必要で、8B変種では約20GBのGPUメモリが必要となる。CPUでの推論は非常に低速なため、GPUのないローカル環境にはテキスト専用またはCLIPベースのモデルが推奨される。ローカルGPUがない場合はGoogle ColabなどのクラウドGPUサービスの利用が提案されている。

旧バージョンとの比較

項目	v5.4以前	v5.4以降	変化
対応モダリティ	テキストのみ	テキスト・画像・音声・動画	マルチモーダル拡張
埋め込みAPI	`model.encode(text)`	`model.encode([text, image, url...])`	同一APIを維持
リランキング対象	テキスト同士のペア	テキスト・画像混合ペア	クロスモーダル対応
画像入力形式	非対応	URL・ファイルパス・PILオブジェクト	多様な形式に対応
VLMモデルサポート	なし	Qwen3-VL-2Bなど	新規追加
学習・ファインチューニング	テキストのみ	マルチモーダル学習対応	拡張

モデルの読み込み方法は従来と変わらない。SentenceTransformer("Qwen/Qwen3-VL-Embedding-2B")のようにモデル名を指定するだけで、ライブラリが対応モダリティを自動検出する。画像解像度やモデル精度などの詳細設定はProcessor and Model kwargsオプションで制御できる。

対応パイプライン

v5.4が直接実現する主要なパイプラインは3つある。

クロスモーダルセマンティック検索: テキストクエリで画像・動画ドキュメントを検索、またはその逆方向も可能。既存のコサイン類似度演算をそのまま活用できる。

マルチモーダルRAGパイプライン: 画像を含むPDF、スライド、Webページなどのビジュアルドキュメントを埋め込みデータベースにインデックスし、テキストクエリで関連文書を検索・再順位付けする構造を実装できる。

混合モダリティリランキング: 初期検索(retrieval)結果としてテキストと画像が混在したドキュメントリストが返された場合でも、リランカーモデルが全体に対して統合関連性スコアを算出する。

[専門家分析] マルチモーダルRAGの実用化が加速する可能性が高い

今回のアップデートはマルチモーダル検索インフラ構築の参入障壁を大幅に下げるという点で重要な意味を持つ。これまでマルチモーダルRAGは概念的には注目されていたものの、実装の複雑さとモダリティごとのパイプライン分離の問題から、実際のプロダクション適用が遅れていた。

Sentence TransformersはすでにPython埋め込みエコシステムにおいて事実上の標準(de facto standard)の地位を占めている。同一のAPIインターフェースを維持したままマルチモーダルに対応したことで、既存のテキスト専用RAGパイプラインに最小限のコード変更で画像検索機能を追加できる可能性が高い。

ただし、Qwen3-VL-2Bのような VLMベースモデルのGPUメモリ要件（最低8GB）は、ローカル環境で実験したい開発者にとって依然としてハードルになり得る。より軽量なマルチモーダル埋め込みモデルが登場するにつれて、この機能の採用率は急速に高まる可能性がある。Hugging Faceがマルチモーダルモデルの学習・ファインチューニング方法を別ブログ記事として同時公開したことは、単なる推論を超えてカスタムマルチモーダルモデルのエコシステム形成を積極的に支援する意図と解釈される。

#sentence-transformers #멀티모달 #RAG #임베딩 #LLM #크로스모달검색 #Qwen3-VL