Sentence Transformers v5.4 Unifica la Incrustación Multimodal de Texto, Imágenes, Audio y Vídeo
El nuevo soporte de embeddings y reranking multimodal permite búsquedas entre modalidades y pipelines RAG multimodales con una API familiar

- •Sentence Transformers v5.4 introduce soporte multimodal para incrustar texto, imágenes, audio y vídeo mediante una única API unificada.
- •Los modelos basados en VLM como Qwen3-VL-2B requieren al menos 8 GB de VRAM, habilitando búsqueda cross-modal y pipelines RAG multimodales.
- •La API encode() existente se conserva, minimizando los costes de migración para desarrolladores que pasan de pipelines de solo texto a multimodales.
Una sola API para comparar texto, imágenes, audio y vídeo
La librería Python Sentence Transformers lanzó su actualización v5.4 el 9 de abril de 2026, incorporando oficialmente capacidades de embeddings y reranking multimodal. Con esta actualización, los desarrolladores pueden utilizar la misma API model.encode() para proyectar texto, imágenes, audio y vídeo en un espacio de embeddings compartido. Según una publicación en el Blog de Hugging Face, las nuevas funciones apuntan directamente a la recuperación de documentos visuales, la búsqueda semántica entre modalidades (cross-modal) y los pipelines de Generación Aumentada por Recuperación (RAG) multimodal.
¿Qué son los modelos multimodales?
Los modelos de embeddings tradicionales convierten texto en vectores de tamaño fijo. Los modelos de embeddings multimodales amplían este concepto proyectando entradas de distintas modalidades —texto, imágenes, audio y vídeo— en un único espacio de embeddings compartido. Esto permite usar una consulta de texto para buscar documentos de imagen, o recuperar clips de vídeo a partir de una descripción, todo con las mismas funciones de similitud coseno ya conocidas.
Lo mismo aplica a los modelos reranker (Cross Encoder). Antes limitados a pares texto-texto, ahora pueden puntuar la relevancia de pares mixtos imagen-texto o documentos que combinan texto e imágenes.
Instalación y requisitos de hardware
Las funciones multimodales requieren dependencias adicionales por modalidad:
pip install -U "sentence-transformers[image]"
pip install -U "sentence-transformers[audio]"
pip install -U "sentence-transformers[video]"
pip install -U "sentence-transformers[image,video,train]"
Los modelos basados en Modelos de Lenguaje Visual (VLM) como Qwen3-VL-2B requieren al menos 8 GB de VRAM para la variante de 2B parámetros, y aproximadamente 20 GB para las variantes de 8B. La inferencia en CPU es extremadamente lenta para estos modelos; se recomiendan modelos solo de texto o basados en CLIP para entornos sin GPU. Para quienes no dispongan de GPU local, se sugieren servicios de GPU en la nube como Google Colab.
¿Qué cambió respecto a versiones anteriores?
| Función | Antes de v5.4 | Después de v5.4 | Cambio |
|---|---|---|---|
| Modalidades soportadas | Solo texto | Texto, imagen, audio, vídeo | Extensión multimodal |
| API de embeddings | model.encode(text) | model.encode([text, image, url...]) | Misma API |
| Alcance del reranking | Pares texto-texto | Pares mixtos texto-imagen | Soporte cross-modal |
| Formatos de entrada de imagen | No soportado | URL, ruta de archivo, objeto PIL | Múltiples formatos |
| Soporte de modelos VLM | Ninguno | Qwen3-VL-2B y otros | Nuevo |
| Entrenamiento/ajuste fino | Solo texto | Entrenamiento multimodal | Extendido |
La carga de modelos sigue siendo igual. Con solo especificar el nombre del modelo, la librería detecta automáticamente las modalidades soportadas. La configuración avanzada como la resolución de imagen y la precisión del modelo se controla mediante Processor and Model kwargs.
Pipelines habilitados
v5.4 abre tres tipos principales de pipelines:
Búsqueda semántica cross-modal: Busca documentos de imagen y vídeo con consultas de texto, o viceversa, usando operaciones estándar de similitud coseno.
Pipelines RAG multimodal: Indexa documentos visuales como PDFs con imágenes, presentaciones y páginas web en una base de datos de embeddings, y recupera y reordena los resultados con consultas de texto.
Reranking de modalidades mixtas: Cuando la recuperación inicial devuelve una lista mixta de documentos de texto e imagen, el modelo reranker produce una puntuación de relevancia unificada.
[Análisis de expertos] Es probable que la adopción de RAG multimodal se acelere
Esta actualización reduce significativamente la barrera para construir infraestructura de búsqueda multimodal. Aunque el RAG multimodal ha despertado interés conceptual, su adopción en producción ha sido lenta debido a la complejidad de implementación y la necesidad de pipelines separados por modalidad.
Sentence Transformers ya ocupa una posición de estándar de facto en el ecosistema de embeddings en Python. Al mantener la misma interfaz API mientras se amplía a multimodal, es muy probable que los pipelines RAG de solo texto puedan incorporar búsqueda de imágenes con cambios mínimos de código.
Sin embargo, los requisitos de memoria GPU de los modelos basados en VLM —al menos 8 GB para Qwen3-VL-2B— pueden seguir siendo un obstáculo para los desarrolladores que experimentan localmente. A medida que surjan modelos de embeddings multimodales más ligeros, se espera que las tasas de adopción aumenten rápidamente. La publicación simultánea de Hugging Face de una guía de entrenamiento y ajuste fino para modelos multimodales sugiere una intención clara de fomentar un ecosistema más amplio de modelos multimodales personalizados.
댓글 (92)
흥미로운 주제입니다. Sentence에 대해 처음 접하는 정보가 있었습니다. 나중에 다시 읽어볼 만합니다.
Transformers에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다.
v5이 앞으로 어떻게 전개될지 주목해야겠습니다.
멀티모달 관련 통계가 의외였습니다.
RAG에 대해 처음 접하는 정보가 있었습니다.
기사 잘 읽었습니다.
Transformers 관련 통계가 의외였습니다.
v5 관련 통계가 의외였습니다. 좋은 기사 감사합니다.
멀티모달 기사에서 언급된 사례가 흥미로웠습니다. 후속 기사 부탁드립니다.
RAG이 일상에 어떤 영향을 줄지 생각해보게 됩니다.
Sentence의 향후 전망이 궁금합니다.
Transformers 관련 용어 설명이 친절해서 좋았습니다.
읽기 좋은 기사입니다. v5 관련 배경 설명이 이해하기 쉬웠습니다. 생각이 바뀌었습니다.
멀티모달 관련 데이터가 인상적이었습니다. 나중에 다시 읽어볼 만합니다.
읽기 좋은 기사입니다. RAG 관련 데이터가 인상적이었습니다.
북마크해두겠습니다. Sentence 주제로 시리즈 기사가 나오면 좋겠습니다.
Transformers에 대해 처음 접하는 정보가 있었습니다.
v5 기사에서 언급된 사례가 흥미로웠습니다. 주변에도 공유해야겠어요.
멀티모달에 대해 처음 접하는 정보가 있었습니다.
RAG 관련 용어 설명이 친절해서 좋았습니다.
유익한 기사네요. Sentence 관련 배경 설명이 이해하기 쉬웠습니다. 해외 동향도 함께 다뤄주시면 좋겠습니다.
이런 시각도 있었군요. Transformers 관련 배경 설명이 이해하기 쉬웠습니다.
핵심만 잘 정리해주시네요.
북마크해두겠습니다. 멀티모달의 전문가 코멘트가 설득력 있었습니다.
유익한 기사네요.
Sentence의 전문가 코멘트가 설득력 있었습니다.
Transformers에 대해 더 알고 싶어졌습니다. 해외 동향도 함께 다뤄주시면 좋겠습니다.
v5 관련 용어 설명이 친절해서 좋았습니다.
멀티모달에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다.
좋은 정리입니다. RAG 관련 데이터가 인상적이었습니다. 전문가 의견도 더 듣고 싶습니다.
Sentence 관련 데이터가 인상적이었습니다.
Transformers 관련 배경 설명이 이해하기 쉬웠습니다.
v5에 대해 주변 사람들과 이야기 나눠볼 만합니다.
참고가 됩니다. 멀티모달의 전문가 코멘트가 설득력 있었습니다. 전문가 의견도 더 듣고 싶습니다.
RAG 관련 해외 동향도 궁금합니다.
Sentence 기사에서 언급된 사례가 흥미로웠습니다.
흥미로운 주제입니다. Transformers이 일상에 어떤 영향을 줄지 생각해보게 됩니다. 좋은 기사 감사합니다.
읽기 좋은 기사입니다. v5 관련 해외 동향도 궁금합니다. 잘 정리된 기사네요.
멀티모달 관련 배경 설명이 이해하기 쉬웠습니다.
RAG의 향후 전망이 궁금합니다.
Sentence이 앞으로 어떻게 전개될지 주목해야겠습니다.
Transformers에 대해 더 알고 싶어졌습니다. 전문가 의견도 더 듣고 싶습니다.
v5에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다. 후속 기사 부탁드립니다.
멀티모달에 대해 더 알고 싶어졌습니다.
언론이 이래야죠.
Sentence에 대해 주변 사람들과 이야기 나눠볼 만합니다. 생각이 바뀌었습니다.
읽기 좋은 기사입니다. Transformers에 대해 더 알고 싶어졌습니다. 생각이 바뀌었습니다.
몰랐던 사실을 알게 됐습니다. v5 기사에서 언급된 사례가 흥미로웠습니다.
멀티모달 관련 데이터가 인상적이었습니다.
RAG 관련 용어 설명이 친절해서 좋았습니다. 전문가 의견도 더 듣고 싶습니다.
Sentence에 대해 더 알고 싶어졌습니다.
Transformers 주제로 시리즈 기사가 나오면 좋겠습니다. 후속 기사 부탁드립니다.
이런 시각도 있었군요. v5에 대해 더 알고 싶어졌습니다.
유익한 기사네요. 멀티모달 주제로 시리즈 기사가 나오면 좋겠습니다.
다른 기사도 기대하겠습니다.
북마크해두겠습니다. Sentence의 전문가 코멘트가 설득력 있었습니다.
Transformers이 일상에 어떤 영향을 줄지 생각해보게 됩니다. 주변에도 공유해야겠어요.
v5 관련 해외 동향도 궁금합니다.
다양한 주제를 다뤄주셔서 좋습니다.
RAG 기사에서 언급된 사례가 흥미로웠습니다.
친구한테도 추천했습니다.
기사 퀄리티가 좋습니다.
v5이 일상에 어떤 영향을 줄지 생각해보게 됩니다.
읽기 좋은 기사입니다. 멀티모달 관련 해외 동향도 궁금합니다.
객관적인 시각이 돋보이는 기사입니다.
Sentence 관련 해외 동향도 궁금합니다. 후속 기사 부탁드립니다.
Transformers에 대해 더 알고 싶어졌습니다.
북마크해두겠습니다. v5 관련 통계가 의외였습니다. 잘 정리된 기사네요.
몰랐던 사실을 알게 됐습니다. 멀티모달에 대해 처음 접하는 정보가 있었습니다.
RAG 관련 용어 설명이 친절해서 좋았습니다. 다른 시각의 분석도 읽어보고 싶습니다.
유익한 기사네요. Sentence 주제로 시리즈 기사가 나오면 좋겠습니다. 생각이 바뀌었습니다.
Transformers에 대해 더 알고 싶어졌습니다. 나중에 다시 읽어볼 만합니다.
v5 기사에서 언급된 사례가 흥미로웠습니다.
멀티모달이 일상에 어떤 영향을 줄지 생각해보게 됩니다. 전문가 의견도 더 듣고 싶습니다.
RAG의 전문가 코멘트가 설득력 있었습니다. 다른 시각의 분석도 읽어보고 싶습니다.
Sentence이 앞으로 어떻게 전개될지 주목해야겠습니다. 후속 기사 부탁드립니다.
Transformers의 전문가 코멘트가 설득력 있었습니다.
참고가 됩니다. v5 관련 통계가 의외였습니다. 계속 지켜봐야겠습니다.
멀티모달의 전문가 코멘트가 설득력 있었습니다. 생각이 바뀌었습니다.
RAG 관련 배경 설명이 이해하기 쉬웠습니다. 후속 기사 부탁드립니다.
북마크해두겠습니다. Sentence 관련 용어 설명이 친절해서 좋았습니다.
이런 시각도 있었군요. Transformers 관련 통계가 의외였습니다.
참고가 됩니다. v5 관련 데이터가 인상적이었습니다. 좋은 기사 감사합니다.
잘 읽었습니다. 멀티모달의 향후 전망이 궁금합니다.
RAG 관련 배경 설명이 이해하기 쉬웠습니다. 해외 동향도 함께 다뤄주시면 좋겠습니다.
읽기 좋은 기사입니다. Sentence 기사에서 언급된 사례가 흥미로웠습니다.
잘 보고 있습니다.
v5 관련 배경 설명이 이해하기 쉬웠습니다.
잘 읽었습니다. 멀티모달 주제로 시리즈 기사가 나오면 좋겠습니다. 주변에도 공유해야겠어요.
유익한 기사네요. RAG이 앞으로 어떻게 전개될지 주목해야겠습니다. 해외 동향도 함께 다뤄주시면 좋겠습니다.
잘 읽었습니다. Sentence의 전문가 코멘트가 설득력 있었습니다.
Transformers 관련 통계가 의외였습니다. 계속 지켜봐야겠습니다.
Más en IA y Tecnología
Últimas noticias

ICIJ investiga las estrategias de precios y patentes de Merck con Keytruda
El ICIJ revela las estrategias de precios y patentes de Merck con Keytruda en la investigación Cancer Calculus.

Entra en vigor la tregua de 10 días entre Israel y Líbano; la ONU espera que abra negociaciones
Un alto el fuego de 10 días entre Israel y Líbano entró en vigor el 17 de abril a medianoche.

JWST, 성간 혜성 3I/ATLAS에서 메테인 최초 검출…외계 행성계 단서 포착
JWST가 성간 혜성 3I/ATLAS에서 메테인을 최초 직접 검출, 외계 행성계 내부 조성 단서 확보.

IMF, 7년 만에 베네수엘라와 관계 재개…49억 달러 동결 해제 기대
IMF가 2019년 이후 중단됐던 베네수엘라와의 공식 관계를 7년 만에 재개했다.

Los caricaturistas de EE.UU. retratan la semana política en Washington
Los caricaturistas políticos de todo EE.UU. documentan la era mediante sátira semanal.

IMF, 7년 만에 베네수엘라와 관계 재개…49억 달러 동결 해제 가능성
IMF가 7년 만에 베네수엘라와 공식 협력을 재개하기로 결정했다.

Cuando la jungla devoró el hormigón: la paradoja del Conservatorio Barbican de Londres
El fotógrafo Altrath capta en una nueva serie la paradoja espacial del Conservatorio Barbican de Londres.

경상흑자 역대 최대인데 원화는 왜 약해지나
한국은행, 경상흑자에도 원화 약세 이어지는 구조적 원인 공식 분석.





