Sentence Transformers v5.4、テキスト・画像・音声・動画の統合マルチモーダル埋め込みに対応
新たなマルチモーダル埋め込みとリランキングサポートにより、クロスモーダル検索とマルチモーダルRAGパイプラインが同一APIで構築可能に

- •Sentence Transformers v5.4がテキスト・画像・音声・動画を単一APIで埋め込むマルチモーダル対応を正式リリースした。
- •Qwen3-VL-2BなどのVLMベースモデル使用時は最低8GBのVRAMが必要で、クロスモーダル検索とマルチモーダルRAGパイプラインの構築が可能になった。
- •既存のencode() APIをそのまま維持することで、テキスト専用からマルチモーダルへの移行コストを最小化している。
1つのAPIでテキスト・画像・音声・動画を比較
Python埋め込みライブラリ「Sentence Transformers」は2026年4月9日にv5.4アップデートをリリースし、マルチモーダル(multimodal)な埋め込みおよびリランキング(reranking)機能を正式にサポートした。このアップデートにより、開発者は既存のmodel.encode() APIをそのまま使いながら、テキストだけでなく画像・音声・動画も単一の共有埋め込み空間にマッピングできるようになった。Hugging Faceブログの発表によれば、今回の機能追加はビジュアルドキュメント検索、クロスモーダル(cross-modal)セマンティック検索、マルチモーダルRAG(Retrieval-Augmented Generation)パイプラインの構築を直接ターゲットとしている。
マルチモーダルモデルとは
従来の埋め込みモデルはテキストを固定サイズのベクトルに変換することに特化していた。マルチモーダル埋め込みモデルはこの概念を拡張し、テキスト・画像・音声・動画といった異なるモダリティの入力を単一の共有埋め込み空間に投影する。これにより、テキストクエリで画像ドキュメントを検索したり、説明文で動画クリップを見つけたりする作業が、既存のコサイン類似度関数をそのまま使って実現できる。
リランカー(reranker、Cross Encoder)モデルも同様だ。従来はテキスト同士のペアの関連性スコアのみ算出できたが、今回のアップデートで画像とテキストの混合ペアや、テキストと画像を組み合わせた複合ドキュメントのペアに対しても関連性スコアを計算できるようになった。
インストールとハードウェア要件
マルチモーダル機能はモダリティごとに追加依存関係のインストールが必要だ。
pip install -U "sentence-transformers[image]"
pip install -U "sentence-transformers[audio]"
pip install -U "sentence-transformers[video]"
pip install -U "sentence-transformers[image,video,train]"
Qwen3-VL-2BなどのVLM(Vision-Language Model)ベースのモデルを使用する場合、2Bパラメータモデルには最低8GBのVRAMが必要で、8B変種では約20GBのGPUメモリが必要となる。CPUでの推論は非常に低速なため、GPUのないローカル環境にはテキスト専用またはCLIPベースのモデルが推奨される。ローカルGPUがない場合はGoogle ColabなどのクラウドGPUサービスの利用が提案されている。
旧バージョンとの比較
| 項目 | v5.4以前 | v5.4以降 | 変化 |
|---|---|---|---|
| 対応モダリティ | テキストのみ | テキスト・画像・音声・動画 | マルチモーダル拡張 |
| 埋め込みAPI | model.encode(text) | model.encode([text, image, url...]) | 同一APIを維持 |
| リランキング対象 | テキスト同士のペア | テキスト・画像混合ペア | クロスモーダル対応 |
| 画像入力形式 | 非対応 | URL・ファイルパス・PILオブジェクト | 多様な形式に対応 |
| VLMモデルサポート | なし | Qwen3-VL-2Bなど | 新規追加 |
| 学習・ファインチューニング | テキストのみ | マルチモーダル学習対応 | 拡張 |
モデルの読み込み方法は従来と変わらない。SentenceTransformer("Qwen/Qwen3-VL-Embedding-2B")のようにモデル名を指定するだけで、ライブラリが対応モダリティを自動検出する。画像解像度やモデル精度などの詳細設定はProcessor and Model kwargsオプションで制御できる。
対応パイプライン
v5.4が直接実現する主要なパイプラインは3つある。
クロスモーダルセマンティック検索: テキストクエリで画像・動画ドキュメントを検索、またはその逆方向も可能。既存のコサイン類似度演算をそのまま活用できる。
マルチモーダルRAGパイプライン: 画像を含むPDF、スライド、Webページなどのビジュアルドキュメントを埋め込みデータベースにインデックスし、テキストクエリで関連文書を検索・再順位付けする構造を実装できる。
混合モダリティリランキング: 初期検索(retrieval)結果としてテキストと画像が混在したドキュメントリストが返された場合でも、リランカーモデルが全体に対して統合関連性スコアを算出する。
[専門家分析] マルチモーダルRAGの実用化が加速する可能性が高い
今回のアップデートはマルチモーダル検索インフラ構築の参入障壁を大幅に下げるという点で重要な意味を持つ。これまでマルチモーダルRAGは概念的には注目されていたものの、実装の複雑さとモダリティごとのパイプライン分離の問題から、実際のプロダクション適用が遅れていた。
Sentence TransformersはすでにPython埋め込みエコシステムにおいて事実上の標準(de facto standard)の地位を占めている。同一のAPIインターフェースを維持したままマルチモーダルに対応したことで、既存のテキスト専用RAGパイプラインに最小限のコード変更で画像検索機能を追加できる可能性が高い。
ただし、Qwen3-VL-2Bのような VLMベースモデルのGPUメモリ要件(最低8GB)は、ローカル環境で実験したい開発者にとって依然としてハードルになり得る。より軽量なマルチモーダル埋め込みモデルが登場するにつれて、この機能の採用率は急速に高まる可能性がある。Hugging Faceがマルチモーダルモデルの学習・ファインチューニング方法を別ブログ記事として同時公開したことは、単なる推論を超えてカスタムマルチモーダルモデルのエコシステム形成を積極的に支援する意図と解釈される。
댓글 (11)
Sentence 관련 배경 설명이 이해하기 쉬웠습니다.
Transformers 관련 해외 동향도 궁금합니다. 잘 정리된 기사네요.
기사 잘 읽었습니다.
멀티모달에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다.
기자님 수고하셨습니다.
좋은 정리입니다. Sentence 관련 데이터가 인상적이었습니다. 생각이 바뀌었습니다.
Transformers에 대해 더 알고 싶어졌습니다. 좋은 기사 감사합니다.
v5 관련 배경 설명이 이해하기 쉬웠습니다.
몰랐던 사실을 알게 됐습니다. 멀티모달에 대해 더 알고 싶어졌습니다.
흥미로운 주제입니다. RAG에 대해 주변 사람들과 이야기 나눠볼 만합니다.
요즘 이 매체 기사가 제일 읽기 좋아요.
AI・テックの記事をもっと見る
最新ニュース

ICIJ、メルクのキイトルーダ価格戦略と特許乱用疑惑を報道
ICIJがメルクのキイトルーダ価格戦略と特許乱用疑惑を大規模調査報道で明らかにした。

イスラエル・レバノン10日間停戦が発効、国連「交渉の糸口に」
イスラエルとレバノンの10日間停戦が4月17日深夜0時に発効した。

JWST, 성간 혜성 3I/ATLAS에서 메테인 최초 검출…외계 행성계 단서 포착
JWST가 성간 혜성 3I/ATLAS에서 메테인을 최초 직접 검출, 외계 행성계 내부 조성 단서 확보.

IMF, 7년 만에 베네수엘라와 관계 재개…49억 달러 동결 해제 기대
IMF가 2019년 이후 중단됐던 베네수엘라와의 공식 관계를 7년 만에 재개했다.

米国の政治漫画家たちが描く今週のワシントン
米国各地の政治漫画家が毎週の風刺で時代を記録している。

IMF, 7년 만에 베네수엘라와 관계 재개…49억 달러 동결 해제 가능성
IMF가 7년 만에 베네수엘라와 공식 협력을 재개하기로 결정했다.

ジャングルがコンクリートを飲み込んだ日——ロンドン・バービカン温室の逆説
写真家アルトラートがロンドン・バービカン温室の空間的逆説を連作でとらえた。

경상흑자 역대 최대인데 원화는 왜 약해지나
한국은행, 경상흑자에도 원화 약세 이어지는 구조적 원인 공식 분석.





