IA y Tecnología

Sentence Transformers v5.4 Unifica la Incrustación Multimodal de Texto, Imágenes, Audio y Vídeo

El nuevo soporte de embeddings y reranking multimodal permite búsquedas entre modalidades y pipelines RAG multimodales con una API familiar

Elena Volkov··5 min de lectura·
Multimodal Embedding & Reranker Models with Sentence Transformers
Resumen
  • Sentence Transformers v5.4 introduce soporte multimodal para incrustar texto, imágenes, audio y vídeo mediante una única API unificada.
  • Los modelos basados en VLM como Qwen3-VL-2B requieren al menos 8 GB de VRAM, habilitando búsqueda cross-modal y pipelines RAG multimodales.
  • La API encode() existente se conserva, minimizando los costes de migración para desarrolladores que pasan de pipelines de solo texto a multimodales.

Una sola API para comparar texto, imágenes, audio y vídeo

La librería Python Sentence Transformers lanzó su actualización v5.4 el 9 de abril de 2026, incorporando oficialmente capacidades de embeddings y reranking multimodal. Con esta actualización, los desarrolladores pueden utilizar la misma API model.encode() para proyectar texto, imágenes, audio y vídeo en un espacio de embeddings compartido. Según una publicación en el Blog de Hugging Face, las nuevas funciones apuntan directamente a la recuperación de documentos visuales, la búsqueda semántica entre modalidades (cross-modal) y los pipelines de Generación Aumentada por Recuperación (RAG) multimodal.

¿Qué son los modelos multimodales?

Los modelos de embeddings tradicionales convierten texto en vectores de tamaño fijo. Los modelos de embeddings multimodales amplían este concepto proyectando entradas de distintas modalidades —texto, imágenes, audio y vídeo— en un único espacio de embeddings compartido. Esto permite usar una consulta de texto para buscar documentos de imagen, o recuperar clips de vídeo a partir de una descripción, todo con las mismas funciones de similitud coseno ya conocidas.

Lo mismo aplica a los modelos reranker (Cross Encoder). Antes limitados a pares texto-texto, ahora pueden puntuar la relevancia de pares mixtos imagen-texto o documentos que combinan texto e imágenes.

Instalación y requisitos de hardware

Las funciones multimodales requieren dependencias adicionales por modalidad:

pip install -U "sentence-transformers[image]"
pip install -U "sentence-transformers[audio]"
pip install -U "sentence-transformers[video]"
pip install -U "sentence-transformers[image,video,train]"

Los modelos basados en Modelos de Lenguaje Visual (VLM) como Qwen3-VL-2B requieren al menos 8 GB de VRAM para la variante de 2B parámetros, y aproximadamente 20 GB para las variantes de 8B. La inferencia en CPU es extremadamente lenta para estos modelos; se recomiendan modelos solo de texto o basados en CLIP para entornos sin GPU. Para quienes no dispongan de GPU local, se sugieren servicios de GPU en la nube como Google Colab.

¿Qué cambió respecto a versiones anteriores?

FunciónAntes de v5.4Después de v5.4Cambio
Modalidades soportadasSolo textoTexto, imagen, audio, vídeoExtensión multimodal
API de embeddingsmodel.encode(text)model.encode([text, image, url...])Misma API
Alcance del rerankingPares texto-textoPares mixtos texto-imagenSoporte cross-modal
Formatos de entrada de imagenNo soportadoURL, ruta de archivo, objeto PILMúltiples formatos
Soporte de modelos VLMNingunoQwen3-VL-2B y otrosNuevo
Entrenamiento/ajuste finoSolo textoEntrenamiento multimodalExtendido

La carga de modelos sigue siendo igual. Con solo especificar el nombre del modelo, la librería detecta automáticamente las modalidades soportadas. La configuración avanzada como la resolución de imagen y la precisión del modelo se controla mediante Processor and Model kwargs.

Pipelines habilitados

v5.4 abre tres tipos principales de pipelines:

Búsqueda semántica cross-modal: Busca documentos de imagen y vídeo con consultas de texto, o viceversa, usando operaciones estándar de similitud coseno.

Pipelines RAG multimodal: Indexa documentos visuales como PDFs con imágenes, presentaciones y páginas web en una base de datos de embeddings, y recupera y reordena los resultados con consultas de texto.

Reranking de modalidades mixtas: Cuando la recuperación inicial devuelve una lista mixta de documentos de texto e imagen, el modelo reranker produce una puntuación de relevancia unificada.

[Análisis de expertos] Es probable que la adopción de RAG multimodal se acelere

Esta actualización reduce significativamente la barrera para construir infraestructura de búsqueda multimodal. Aunque el RAG multimodal ha despertado interés conceptual, su adopción en producción ha sido lenta debido a la complejidad de implementación y la necesidad de pipelines separados por modalidad.

Sentence Transformers ya ocupa una posición de estándar de facto en el ecosistema de embeddings en Python. Al mantener la misma interfaz API mientras se amplía a multimodal, es muy probable que los pipelines RAG de solo texto puedan incorporar búsqueda de imágenes con cambios mínimos de código.

Sin embargo, los requisitos de memoria GPU de los modelos basados en VLM —al menos 8 GB para Qwen3-VL-2B— pueden seguir siendo un obstáculo para los desarrolladores que experimentan localmente. A medida que surjan modelos de embeddings multimodales más ligeros, se espera que las tasas de adopción aumenten rápidamente. La publicación simultánea de Hugging Face de una guía de entrenamiento y ajuste fino para modelos multimodales sugiere una intención clara de fomentar un ecosistema más amplio de modelos multimodales personalizados.

Compartir

댓글 (92)

대전의분석가방금 전

흥미로운 주제입니다. Sentence에 대해 처음 접하는 정보가 있었습니다. 나중에 다시 읽어볼 만합니다.

새벽의시민방금 전

Transformers에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다.

신중한여우방금 전

v5이 앞으로 어떻게 전개될지 주목해야겠습니다.

신중한드럼방금 전

멀티모달 관련 통계가 의외였습니다.

비오는날바람방금 전

RAG에 대해 처음 접하는 정보가 있었습니다.

한밤의커피방금 전

기사 잘 읽었습니다.

햇살의펭귄방금 전

Transformers 관련 통계가 의외였습니다.

부산의사자방금 전

v5 관련 통계가 의외였습니다. 좋은 기사 감사합니다.

부지런한돌고래방금 전

멀티모달 기사에서 언급된 사례가 흥미로웠습니다. 후속 기사 부탁드립니다.

오후의비평가방금 전

RAG이 일상에 어떤 영향을 줄지 생각해보게 됩니다.

해운대의크리에이터5분 전

Sentence의 향후 전망이 궁금합니다.

활발한토끼5분 전

Transformers 관련 용어 설명이 친절해서 좋았습니다.

진지한피아노5분 전

읽기 좋은 기사입니다. v5 관련 배경 설명이 이해하기 쉬웠습니다. 생각이 바뀌었습니다.

바닷가의다람쥐5분 전

멀티모달 관련 데이터가 인상적이었습니다. 나중에 다시 읽어볼 만합니다.

여름의라떼5분 전

읽기 좋은 기사입니다. RAG 관련 데이터가 인상적이었습니다.

차분한독자5분 전

북마크해두겠습니다. Sentence 주제로 시리즈 기사가 나오면 좋겠습니다.

가을의바이올린5분 전

Transformers에 대해 처음 접하는 정보가 있었습니다.

따뜻한드럼5분 전

v5 기사에서 언급된 사례가 흥미로웠습니다. 주변에도 공유해야겠어요.

열정적인러너5분 전

멀티모달에 대해 처음 접하는 정보가 있었습니다.

겨울의크리에이터12분 전

RAG 관련 용어 설명이 친절해서 좋았습니다.

느긋한기록자12분 전

유익한 기사네요. Sentence 관련 배경 설명이 이해하기 쉬웠습니다. 해외 동향도 함께 다뤄주시면 좋겠습니다.

도서관의라떼12분 전

이런 시각도 있었군요. Transformers 관련 배경 설명이 이해하기 쉬웠습니다.

진지한비평가12분 전

핵심만 잘 정리해주시네요.

현명한구름12분 전

북마크해두겠습니다. 멀티모달의 전문가 코멘트가 설득력 있었습니다.

새벽의토끼12분 전

유익한 기사네요.

새벽의독자12분 전

Sentence의 전문가 코멘트가 설득력 있었습니다.

유쾌한녹차12분 전

Transformers에 대해 더 알고 싶어졌습니다. 해외 동향도 함께 다뤄주시면 좋겠습니다.

도서관의피아노12분 전

v5 관련 용어 설명이 친절해서 좋았습니다.

가을의첼로30분 전

멀티모달에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다.

유쾌한구름30분 전

좋은 정리입니다. RAG 관련 데이터가 인상적이었습니다. 전문가 의견도 더 듣고 싶습니다.

열정적인분석가30분 전

Sentence 관련 데이터가 인상적이었습니다.

공원의첼로30분 전

Transformers 관련 배경 설명이 이해하기 쉬웠습니다.

판교의부엉이30분 전

v5에 대해 주변 사람들과 이야기 나눠볼 만합니다.

조용한바이올린30분 전

참고가 됩니다. 멀티모달의 전문가 코멘트가 설득력 있었습니다. 전문가 의견도 더 듣고 싶습니다.

인천의분석가30분 전

RAG 관련 해외 동향도 궁금합니다.

봄날의아메리카노30분 전

Sentence 기사에서 언급된 사례가 흥미로웠습니다.

차분한비평가30분 전

흥미로운 주제입니다. Transformers이 일상에 어떤 영향을 줄지 생각해보게 됩니다. 좋은 기사 감사합니다.

도서관의판다1시간 전

읽기 좋은 기사입니다. v5 관련 해외 동향도 궁금합니다. 잘 정리된 기사네요.

현명한탐험가1시간 전

멀티모달 관련 배경 설명이 이해하기 쉬웠습니다.

산속의시민1시간 전

RAG의 향후 전망이 궁금합니다.

차분한여우1시간 전

Sentence이 앞으로 어떻게 전개될지 주목해야겠습니다.

조용한커피1시간 전

Transformers에 대해 더 알고 싶어졌습니다. 전문가 의견도 더 듣고 싶습니다.

햇살의녹차1시간 전

v5에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다. 후속 기사 부탁드립니다.

새벽의고양이1시간 전

멀티모달에 대해 더 알고 싶어졌습니다.

조용한별1시간 전

언론이 이래야죠.

비오는날크리에이터1시간 전

Sentence에 대해 주변 사람들과 이야기 나눠볼 만합니다. 생각이 바뀌었습니다.

냉철한별2시간 전

읽기 좋은 기사입니다. Transformers에 대해 더 알고 싶어졌습니다. 생각이 바뀌었습니다.

서울의돌고래2시간 전

몰랐던 사실을 알게 됐습니다. v5 기사에서 언급된 사례가 흥미로웠습니다.

가을의관찰자2시간 전

멀티모달 관련 데이터가 인상적이었습니다.

새벽의여행자2시간 전

RAG 관련 용어 설명이 친절해서 좋았습니다. 전문가 의견도 더 듣고 싶습니다.

서울의별2시간 전

Sentence에 대해 더 알고 싶어졌습니다.

봄날의사색가2시간 전

Transformers 주제로 시리즈 기사가 나오면 좋겠습니다. 후속 기사 부탁드립니다.

인천의고양이2시간 전

이런 시각도 있었군요. v5에 대해 더 알고 싶어졌습니다.

별빛의시민2시간 전

유익한 기사네요. 멀티모달 주제로 시리즈 기사가 나오면 좋겠습니다.

인천의바람2시간 전

다른 기사도 기대하겠습니다.

대전의돌고래2시간 전

북마크해두겠습니다. Sentence의 전문가 코멘트가 설득력 있었습니다.

따뜻한크리에이터3시간 전

Transformers이 일상에 어떤 영향을 줄지 생각해보게 됩니다. 주변에도 공유해야겠어요.

햇살의라떼3시간 전

v5 관련 해외 동향도 궁금합니다.

공원의아메리카노3시간 전

다양한 주제를 다뤄주셔서 좋습니다.

강남의러너3시간 전

RAG 기사에서 언급된 사례가 흥미로웠습니다.

부지런한고양이3시간 전

친구한테도 추천했습니다.

현명한비평가3시간 전

기사 퀄리티가 좋습니다.

신중한러너3시간 전

v5이 일상에 어떤 영향을 줄지 생각해보게 됩니다.

산속의여우3시간 전

읽기 좋은 기사입니다. 멀티모달 관련 해외 동향도 궁금합니다.

부산의아메리카노3시간 전

객관적인 시각이 돋보이는 기사입니다.

비오는날피아노5시간 전

Sentence 관련 해외 동향도 궁금합니다. 후속 기사 부탁드립니다.

겨울의펭귄5시간 전

Transformers에 대해 더 알고 싶어졌습니다.

아침의돌고래5시간 전

북마크해두겠습니다. v5 관련 통계가 의외였습니다. 잘 정리된 기사네요.

부산의해5시간 전

몰랐던 사실을 알게 됐습니다. 멀티모달에 대해 처음 접하는 정보가 있었습니다.

대전의크리에이터5시간 전

RAG 관련 용어 설명이 친절해서 좋았습니다. 다른 시각의 분석도 읽어보고 싶습니다.

느긋한바이올린5시간 전

유익한 기사네요. Sentence 주제로 시리즈 기사가 나오면 좋겠습니다. 생각이 바뀌었습니다.

해운대의해5시간 전

Transformers에 대해 더 알고 싶어졌습니다. 나중에 다시 읽어볼 만합니다.

밝은다람쥐5시간 전

v5 기사에서 언급된 사례가 흥미로웠습니다.

차분한돌고래5시간 전

멀티모달이 일상에 어떤 영향을 줄지 생각해보게 됩니다. 전문가 의견도 더 듣고 싶습니다.

부지런한커피8시간 전

RAG의 전문가 코멘트가 설득력 있었습니다. 다른 시각의 분석도 읽어보고 싶습니다.

재빠른기타8시간 전

Sentence이 앞으로 어떻게 전개될지 주목해야겠습니다. 후속 기사 부탁드립니다.

바닷가의구름8시간 전

Transformers의 전문가 코멘트가 설득력 있었습니다.

부지런한토끼8시간 전

참고가 됩니다. v5 관련 통계가 의외였습니다. 계속 지켜봐야겠습니다.

겨울의리더8시간 전

멀티모달의 전문가 코멘트가 설득력 있었습니다. 생각이 바뀌었습니다.

성수의리더8시간 전

RAG 관련 배경 설명이 이해하기 쉬웠습니다. 후속 기사 부탁드립니다.

열정적인첼로8시간 전

북마크해두겠습니다. Sentence 관련 용어 설명이 친절해서 좋았습니다.

여름의다람쥐8시간 전

이런 시각도 있었군요. Transformers 관련 통계가 의외였습니다.

대전의아메리카노8시간 전

참고가 됩니다. v5 관련 데이터가 인상적이었습니다. 좋은 기사 감사합니다.

바닷가의강아지

잘 읽었습니다. 멀티모달의 향후 전망이 궁금합니다.

현명한강아지

RAG 관련 배경 설명이 이해하기 쉬웠습니다. 해외 동향도 함께 다뤄주시면 좋겠습니다.

해운대의돌고래

읽기 좋은 기사입니다. Sentence 기사에서 언급된 사례가 흥미로웠습니다.

맑은날구름

잘 보고 있습니다.

활발한크리에이터

v5 관련 배경 설명이 이해하기 쉬웠습니다.

공원의여행자

잘 읽었습니다. 멀티모달 주제로 시리즈 기사가 나오면 좋겠습니다. 주변에도 공유해야겠어요.

가을의강아지

유익한 기사네요. RAG이 앞으로 어떻게 전개될지 주목해야겠습니다. 해외 동향도 함께 다뤄주시면 좋겠습니다.

홍대의관찰자

잘 읽었습니다. Sentence의 전문가 코멘트가 설득력 있었습니다.

밝은워커

Transformers 관련 통계가 의외였습니다. 계속 지켜봐야겠습니다.

Más en IA y Tecnología

Últimas noticias