IA y Tecnología

Sentence Transformers lanza soporte para ajuste fino de modelos de embeddings multimodales

Un modelo de 2B parámetros ajustado alcanza NDCG@10 de 0.947 en VDR, superando modelos 4 veces más grandes

신하영·2026년 4월 15일 수 15:00·5 min de lectura·

Training and Finetuning Multimodal Embedding & Reranker Models with Sentence Transformers

Resumen

•Sentence Transformers lanza soporte oficial para el ajuste fino de modelos de embeddings multimodales.
•Un modelo de 2B parámetros ajustado alcanzó NDCG@10 de 0.947 en VDR, superando modelos 4 veces más grandes.
•La compatibilidad total con el pipeline existente de solo texto reduce significativamente la barrera de entrada.

Más allá del texto: la era del entrenamiento de modelos de embeddings con imágenes y documentos

La biblioteca Python Sentence Transformers de Hugging Face ha lanzado oficialmente soporte para el entrenamiento y ajuste fino (finetuning) de modelos de embeddings y rerankers multimodales. En una publicación del 16 de abril de 2026, el desarrollador Tom Aarsen detalló el pipeline completo para ajustar modelos multimodales — capaces de procesar texto, imágenes, audio y vídeo — con datos de dominio propios. En su experimento, el ajuste fino de Qwen/Qwen3-VL-Embedding-2B para la tarea de Recuperación Visual de Documentos (VDR) elevó el NDCG@10 de 0.888 a 0.947, superando a todos los modelos VDR existentes, incluidos los de hasta cuatro veces su tamaño.

Por qué importa el ajuste fino

Los modelos de embeddings multimodales de propósito general funcionan razonablemente bien en tareas diversas, pero la generalidad raramente se traduce en rendimiento óptimo en un dominio específico. En VDR, por ejemplo, el modelo debe encontrar la página de documento más relevante entre miles dada una consulta de texto como "¿Cuáles fueron los ingresos del Q3?", una tarea que requiere comprensión profunda de tablas, gráficos y maquetaciones documentales. El ajuste fino es el mecanismo principal para enseñar estos patrones especializados al modelo.

Aarsen lo demostró con cifras concretas. El modelo ajustado tomaarsen/Qwen3-VL-Embedding-2B-vdr registró un NDCG@10 de 0.947, superando al modelo base (0.888) y a todos los demás modelos VDR probados, incluyendo los que tienen cuatro veces más parámetros.

¿Qué ha cambiado?

Elemento	Antes (solo texto)	Esta actualización (multimodal)	Cambio
Modalidades soportadas	Texto	Texto, imagen, audio, vídeo	+4 modalidades
Pipeline de entrenamiento	SentenceTransformerTrainer	Igual (SentenceTransformerTrainer)	API consistente
Formato del dataset	Pares de texto	Texto + imagen mixto	Preprocesamiento automático
Funciones de pérdida	Diversas	CachedMultipleNegativesRankingLoss, MatryoshkaLoss	Mismas opciones
Evaluación VDR (NDCG@10)	—	0.947 (base: 0.888)	+6.6%p

El principio de diseño central es la compatibilidad total con el pipeline de entrenamiento de solo texto. Los desarrolladores usan el mismo SentenceTransformerTrainer; añadir una nueva modalidad es tan simple como incluir imágenes en el dataset, y el procesador del modelo gestiona el preprocesamiento automáticamente.

[Análisis de expertos] Reconfiguración del ecosistema de recuperación multimodal

Esta actualización es probable que genere cambios sustanciales en el ecosistema de recuperación multimodal más allá de una simple adición de funcionalidades.

Primero, accesibilidad: anteriormente, el ajuste fino de modelos multimodales requería código de entrenamiento personalizado complejo. El pipeline estandarizado de Sentence Transformers reduce significativamente esa barrera.

Segundo, un modelo de 2B parámetros superando modelos de escala 8B mediante ajuste fino de dominio valida la dirección de especialización sobre escala. Para empresas donde la precisión en la recuperación de documentos multimodales es un cuello de botella crítico en pipelines RAG, las estrategias de ajuste fino probablemente emergerán como una alternativa viable.

Tercero, se espera la expansión de aplicaciones VDR en industrias con documentos ricos en información visual: informes financieros, documentos legales, imágenes médicas. Sin embargo, el entrenamiento multimodal sigue demandando recursos computacionales significativos, y la obtención de datos de entrenamiento de alta calidad sigue siendo la variable pivotal para el rendimiento.

#sentence-transformers #멀티모달 #임베딩 #VDR #RAG #LLM #huggingface-series

열정적인사색가방금 전

참고가 됩니다. Sentence에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다. 생각이 바뀌었습니다.

느긋한첼로방금 전

Transformers의 향후 전망이 궁금합니다.

현명한연구자방금 전

유익한 기사네요. lanza 주제로 시리즈 기사가 나오면 좋겠습니다.

한밤의별방금 전

멀티모달이 일상에 어떤 영향을 줄지 생각해보게 됩니다. 나중에 다시 읽어볼 만합니다.

조용한기타방금 전

임베딩이 앞으로 어떻게 전개될지 주목해야겠습니다. 후속 기사 부탁드립니다.

성수의기록자5분 전

Sentence에 대해 더 알고 싶어졌습니다.

제주의드리머5분 전

Transformers이 앞으로 어떻게 전개될지 주목해야겠습니다. 주변에도 공유해야겠어요.

도서관의라떼5분 전

lanza에 대해 처음 접하는 정보가 있었습니다.

오후의아메리카노5분 전

기사 잘 읽었습니다.

아침의비평가12분 전

임베딩 관련 해외 동향도 궁금합니다.

따뜻한토끼12분 전

몰랐던 사실을 알게 됐습니다. Sentence이 일상에 어떤 영향을 줄지 생각해보게 됩니다. 전문가 의견도 더 듣고 싶습니다.

맑은날비평가12분 전

읽기 좋은 기사입니다. Transformers의 향후 전망이 궁금합니다.

오후의탐험가12분 전

흥미로운 주제입니다. lanza 관련 통계가 의외였습니다. 잘 정리된 기사네요.

서울의러너30분 전

멀티모달 기사에서 언급된 사례가 흥미로웠습니다.

활발한여행자30분 전

임베딩에 대해 주변 사람들과 이야기 나눠볼 만합니다.

활발한크리에이터30분 전

Sentence 관련 용어 설명이 친절해서 좋았습니다.

봄날의돌고래30분 전

이런 시각도 있었군요. Transformers이 일상에 어떤 영향을 줄지 생각해보게 됩니다.

별빛의독자1시간 전

흥미로운 주제입니다. lanza 관련 배경 설명이 이해하기 쉬웠습니다. 나중에 다시 읽어볼 만합니다.

다정한고양이1시간 전

좋은 정리입니다. 멀티모달의 전문가 코멘트가 설득력 있었습니다. 계속 지켜봐야겠습니다.

조용한여행자1시간 전

읽기 좋은 기사입니다. 임베딩의 전문가 코멘트가 설득력 있었습니다. 해외 동향도 함께 다뤄주시면 좋겠습니다.

여름의에스프레소1시간 전

댓글 보는 재미도 있네요.

여름의탐험가2시간 전

Transformers 관련 용어 설명이 친절해서 좋았습니다.

비오는날해2시간 전

lanza이 일상에 어떤 영향을 줄지 생각해보게 됩니다. 주변에도 공유해야겠어요.

용감한강아지2시간 전

읽기 좋은 기사입니다. 멀티모달에 대해 처음 접하는 정보가 있었습니다.

다정한독자2시간 전

읽기 좋은 기사입니다. 임베딩 주제로 시리즈 기사가 나오면 좋겠습니다.

부산의부엉이2시간 전

잘 읽었습니다. Sentence 기사에서 언급된 사례가 흥미로웠습니다.

부지런한시민3시간 전

몰랐던 사실을 알게 됐습니다. Transformers의 전문가 코멘트가 설득력 있었습니다. 후속 기사 부탁드립니다.

재빠른연구자3시간 전

lanza 관련 해외 동향도 궁금합니다. 계속 지켜봐야겠습니다.

솔직한커피3시간 전

몰랐던 사실을 알게 됐습니다. 멀티모달 주제로 시리즈 기사가 나오면 좋겠습니다.

성수의토끼3시간 전

임베딩에 대해 주변 사람들과 이야기 나눠볼 만합니다. 후속 기사 부탁드립니다.

바람의펭귄5시간 전

북마크해두겠습니다. Sentence 관련 용어 설명이 친절해서 좋았습니다.

현명한커피5시간 전

깔끔한 기사입니다. Transformers 주제로 시리즈 기사가 나오면 좋겠습니다. 좋은 기사 감사합니다.

가을의기타5시간 전

몰랐던 사실을 알게 됐습니다. lanza 관련 배경 설명이 이해하기 쉬웠습니다.

꼼꼼한구름5시간 전

멀티모달 관련 배경 설명이 이해하기 쉬웠습니다.

열정적인드럼8시간 전

임베딩 관련 배경 설명이 이해하기 쉬웠습니다. 좋은 기사 감사합니다.

햇살의달8시간 전

잘 읽었습니다. Sentence에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다.

따뜻한탐험가8시간 전

좋은 정리입니다. Transformers에 대해 처음 접하는 정보가 있었습니다. 주변에도 공유해야겠어요.

서울의다람쥐8시간 전

lanza 주제로 시리즈 기사가 나오면 좋겠습니다.

활발한에스프레소

참고가 됩니다. 멀티모달에 대해 주변 사람들과 이야기 나눠볼 만합니다.

별빛의부엉이

기자님 수고하셨습니다.

똑똑한부엉이

Sentence의 전문가 코멘트가 설득력 있었습니다.

열정적인구름

Transformers 기사에서 언급된 사례가 흥미로웠습니다. 후속 기사 부탁드립니다.

Más de esta serie

Hugging Face redefine la contribución al código abierto en la era de los agentes de código

15/4/2026

Anthropic restringe el acceso de Claude en la plataforma de agente abierta... Lanzamiento de la 'Guía alternativa' de Hugging Face

26/3/2026

Nuevo estándar para la evaluación de agentes de IA de voz y lanzamiento del marco EVA

23/3/2026

El ecosistema de inteligencia artificial de código abierto de Hugging Face superará los 13 millones de usuarios y los 2 millones de modelos para 2025

17/3/2026

Más en IA y Tecnología

OpenAI, 생명과학 전용 추론 AI 'GPT-Rosalind' 출시… 신약 개발 패러다임 흔든다

Últimas noticias

Global

IMF, 7년 만에 베네수엘라와 관계 재개…49억 달러 동결 해제 기대

IMF가 2019년 이후 중단됐던 베네수엘라와의 공식 관계를 7년 만에 재개했다.

6시간 전

Economía

IMF, 7년 만에 베네수엘라와 관계 재개…49억 달러 동결 해제 가능성

IMF가 7년 만에 베네수엘라와 공식 협력을 재개하기로 결정했다.

6시간 전

Economía

경상흑자 역대 최대인데 원화는 왜 약해지나

한국은행, 경상흑자에도 원화 약세 이어지는 구조적 원인 공식 분석.

7시간 전

Economía

금융당국, 미래에셋에 SpaceX IPO 조기 마케팅 경고

금융당국이 미래에셋증권의 SpaceX IPO 조기 마케팅에 구두 경고를 내렸다.

7시간 전

Global

베네치아, 수백 년 안에 사라진다...유럽 연구팀의 4가지 생존 방안

유럽 연구팀, 베네치아 생존 위한 4가지 시나리오를 Scientific Reports에 발표했다.

7시간 전

Deportes y Esports

96년 전통 깬다…월드컵 결승전, 사상 첫 하프타임 쇼

FIFA가 96년 만에 처음으로 월드컵 결승전 하프타임 쇼를 도입한다.

7시간 전

Global

레바논 사망자 2,196명…이스라엘 공습에 의료 시스템 붕괴 위기

이스라엘 공습으로 레바논 누적 사망자 2,196명, 부상자 7,185명 기록

7시간 전

Economía

이란 전쟁 속 걸프 3국, 사모채권으로 100억 달러 조달

걸프 3국이 이란 전쟁 이후 처음으로 사모채권 발행에 나서 약 100억 달러를 조달했다.

8시간 전

ArayoNews

Sentence Transformers lanza soporte para ajuste fino de modelos de embeddings multimodales

Más allá del texto: la era del entrenamiento de modelos de embeddings con imágenes y documentos

Por qué importa el ajuste fino

¿Qué ha cambiado?

[Análisis de expertos] Reconfiguración del ecosistema de recuperación multimodal

댓글 (42)

Más de esta serie

Más en IA y Tecnología

OpenAI, 생명과학 전용 추론 AI 'GPT-Rosalind' 출시… 신약 개발 패러다임 흔든다

EU, Anthropic의 Claude Mythos AI 사이버 위협 놓고 직접 협의 개시

퍼플렉시티, Mac 전용 AI 에이전트 'Personal Computer' 정식 출시

글로벌 금융당국, Anthropic 'Mythos' AI 사이버 위협에 일제히 긴급 대응

앤스로픽, 런던에 800명 규모 사무소 확보…미 국방부 갈등 속 유럽 거점 구축

릴리 파운다요, 사망 위험 57% 감소…경구용 GLP-1 시대 열리나

Últimas noticias

IMF, 7년 만에 베네수엘라와 관계 재개…49억 달러 동결 해제 기대

IMF, 7년 만에 베네수엘라와 관계 재개…49억 달러 동결 해제 가능성

경상흑자 역대 최대인데 원화는 왜 약해지나

금융당국, 미래에셋에 SpaceX IPO 조기 마케팅 경고

베네치아, 수백 년 안에 사라진다...유럽 연구팀의 4가지 생존 방안

96년 전통 깬다…월드컵 결승전, 사상 첫 하프타임 쇼

레바논 사망자 2,196명…이스라엘 공습에 의료 시스템 붕괴 위기

이란 전쟁 속 걸프 3국, 사모채권으로 100억 달러 조달