Sentence Transformers v5.4, 텍스트·이미지·오디오·영상 통합 임베딩 지원
멀티모달 임베딩·리랭커 모델로 크로스모달 검색과 멀티모달 RAG 파이프라인 구축 가능

- •Sentence Transformers v5.4가 텍스트·이미지·오디오·영상을 단일 API로 임베딩하는 멀티모달 지원을 출시했다.
- •Qwen3-VL-2B 등 VLM 기반 모델 사용 시 최소 8GB VRAM이 필요하며, 크로스모달 검색과 멀티모달 RAG 파이프라인 구축이 가능하다.
- •기존 encode() API를 그대로 유지해 텍스트 전용 파이프라인에서 멀티모달로의 전환 비용을 최소화했다.
하나의 API로 텍스트·이미지·오디오·영상을 비교한다
파이썬 임베딩 라이브러리 센텐스 트랜스포머스(Sentence Transformers)가 2026년 4월 9일 v5.4 업데이트를 통해 멀티모달(multimodal) 임베딩 및 리랭킹(reranking) 기능을 공식 지원하기 시작했다. 이번 업데이트로 개발자는 기존과 동일한 model.encode() API를 사용하면서 텍스트뿐 아니라 이미지, 오디오, 영상까지 하나의 공유 임베딩 공간에 매핑할 수 있다. 허깅페이스(Hugging Face) 블로그를 통해 공개된 내용에 따르면, 이번 기능 추가는 시각적 문서 검색, 크로스모달(cross-modal) 시맨틱 서치, 멀티모달 검색증강생성(RAG) 파이프라인 구축을 직접 겨냥한다.

멀티모달 임베딩이란 무엇인가
기존 임베딩 모델(embedding model)은 텍스트를 고정 크기 벡터(vector)로 변환하는 데 특화되어 있었다. 멀티모달 임베딩 모델은 이 개념을 확장해 텍스트, 이미지, 오디오, 영상 등 서로 다른 모달리티(modality)의 입력을 단일 임베딩 공간에 투영한다. 결과적으로 텍스트 쿼리로 이미지 문서를 검색하거나, 설명 문장으로 영상 클립을 찾는 작업이 기존 유사도(similarity) 함수 그대로 가능해진다.
리랭커(reranker, Cross Encoder) 모델도 마찬가지다. 기존에는 텍스트 쌍(pair)의 관련성 점수만 계산할 수 있었다면, 이번 업데이트로 이미지-텍스트 혼합 쌍, 텍스트-텍스트+이미지 복합 문서 쌍에 대해서도 관련성 점수를 산출할 수 있다.
설치 및 하드웨어 요구 사항
멀티모달 기능은 모달리티별 추가 의존성 설치가 필요하다.
pip install -U "sentence-transformers[image]"
pip install -U "sentence-transformers[audio]"
pip install -U "sentence-transformers[video]"
pip install -U "sentence-transformers[image,video,train]"
비전-언어 모델(VLM) 기반 모델인 Qwen3-VL-2B 계열을 사용할 경우, 2B 파라미터 모델은 최소 8GB 이상의 VRAM이 필요하며 8B 변형 모델은 약 20GB의 GPU 메모리를 요구한다. CPU 환경에서는 추론 속도가 매우 느리기 때문에, GPU가 없는 환경에서는 구글 코랩(Google Colab) 등 클라우드 GPU 서비스 이용이 권장된다. 텍스트 전용 또는 CLIP 계열 모델은 CPU 환경에서도 비교적 원활하게 동작한다.
이전 버전과 달라진 점
| 항목 | v5.4 이전 | v5.4 이후 | 변화 |
|---|---|---|---|
| 지원 모달리티 | 텍스트 전용 | 텍스트·이미지·오디오·영상 | 멀티모달 확장 |
| 임베딩 API | model.encode(text) | model.encode([text, image, url...]) | 동일 API 유지 |
| 리랭킹 대상 | 텍스트-텍스트 쌍 | 텍스트·이미지 혼합 쌍 | 크로스모달 지원 |
| 이미지 입력 형식 | 미지원 | URL·파일 경로·PIL 객체 | 다양한 포맷 허용 |
| VLM 모델 지원 | 없음 | Qwen3-VL-2B 등 | 신규 추가 |
| 훈련·파인튜닝 | 텍스트 전용 | 멀티모달 학습 지원 | 확장 |
모델 로딩 방식은 이전과 동일하다. SentenceTransformer("Qwen/Qwen3-VL-Embedding-2B")와 같이 모델명만 지정하면 라이브러리가 지원 모달리티를 자동으로 감지한다. 이미지 해상도나 모델 정밀도(precision) 등 세부 설정은 Processor and Model kwargs 옵션으로 제어할 수 있다.
활용 가능한 파이프라인
v5.4가 직접적으로 열어주는 파이프라인은 세 가지로 정리된다.
크로스모달 시맨틱 서치(cross-modal semantic search): 텍스트 쿼리로 이미지·영상 문서를 검색하거나 그 반대 방향으로도 적용 가능하다. 기존 코사인 유사도(cosine similarity) 연산을 그대로 활용할 수 있다.
멀티모달 RAG(Retrieval-Augmented Generation) 파이프라인: 이미지가 포함된 PDF, 슬라이드, 웹페이지 등 시각적 문서를 임베딩 데이터베이스에 색인하고 텍스트 질의로 관련 문서를 검색·재순위화(reranking)하는 구조를 구현할 수 있다.
혼합 모달리티 리랭킹(mixed-modality reranking): 초기 검색(retrieval) 결과로 텍스트와 이미지가 섞인 문서 목록이 반환되더라도 리랭커 모델이 전체 목록에 대해 통합 관련성 점수를 계산한다.
[전문가 분석] 멀티모달 RAG의 실용화 시점이 앞당겨진다
이번 업데이트는 멀티모달 검색 인프라 구축의 진입 장벽을 크게 낮춘다는 점에서 의미가 있다. 그간 멀티모달 RAG는 개념적으로는 주목받았지만 구현 복잡도와 모달리티별 파이프라인 분리 문제로 실제 프로덕션 적용이 더뎠다.
센텐스 트랜스포머스는 이미 파이썬 임베딩 생태계에서 사실상 표준(de facto standard) 위치를 차지하고 있다. 동일한 API 인터페이스를 유지한 채 멀티모달을 지원함으로써, 기존 텍스트 전용 RAG 파이프라인에 이미지 검색 기능을 최소한의 코드 변경으로 추가할 가능성이 높다.
다만 Qwen3-VL-2B 같은 VLM 기반 모델의 GPU 메모리 요구량(최소 8GB)은 로컬 환경에서 실험하려는 개발자에게 여전히 허들이 될 수 있다. 향후 더 경량화된 멀티모달 임베딩 모델이 등장할수록 이 기능의 채택률은 빠르게 높아질 가능성이 있다. 허깅페이스가 별도 블로그 포스트로 멀티모달 모델의 훈련·파인튜닝 방법도 함께 공개한 점은, 단순 추론을 넘어 커스텀 멀티모달 모델 생태계 형성을 적극적으로 지원하겠다는 의도로 해석된다.
댓글 (56)
유익한 기사네요. Sentence 관련 데이터가 인상적이었습니다. 나중에 다시 읽어볼 만합니다.
Transformers에 대해 처음 접하는 정보가 있었습니다.
다른 기사도 기대하겠습니다.
멀티모달에 대해 처음 접하는 정보가 있었습니다.
RAG이 앞으로 어떻게 전개될지 주목해야겠습니다.
Sentence 관련 배경 설명이 이해하기 쉬웠습니다. 전문가 의견도 더 듣고 싶습니다.
깔끔한 기사입니다. Transformers에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다. 주변에도 공유해야겠어요.
v5 관련 해외 동향도 궁금합니다.
기자님 수고하셨습니다.
깔끔한 기사입니다. RAG 관련 통계가 의외였습니다.
흥미로운 주제입니다. Sentence 관련 통계가 의외였습니다.
흥미로운 주제입니다. Transformers 관련 배경 설명이 이해하기 쉬웠습니다. 전문가 의견도 더 듣고 싶습니다.
몰랐던 사실을 알게 됐습니다. v5에 대해 더 알고 싶어졌습니다. 나중에 다시 읽어볼 만합니다.
멀티모달 관련 배경 설명이 이해하기 쉬웠습니다.
좋은 정리입니다. RAG의 향후 전망이 궁금합니다.
구독 중인데 만족합니다.
몰랐던 사실을 알게 됐습니다. Transformers의 전문가 코멘트가 설득력 있었습니다.
유익한 기사네요. v5이 일상에 어떤 영향을 줄지 생각해보게 됩니다. 해외 동향도 함께 다뤄주시면 좋겠습니다.
멀티모달에 대해 처음 접하는 정보가 있었습니다. 좋은 기사 감사합니다.
깔끔한 기사입니다. RAG의 전문가 코멘트가 설득력 있었습니다.
정리가 깔끔하네요.
Transformers의 전문가 코멘트가 설득력 있었습니다.
이런 시각도 있었군요. v5에 대해 주변 사람들과 이야기 나눠볼 만합니다. 잘 정리된 기사네요.
참고가 됩니다. 멀티모달 주제로 시리즈 기사가 나오면 좋겠습니다.
좋은 정리입니다. RAG에 대해 주변 사람들과 이야기 나눠볼 만합니다. 전문가 의견도 더 듣고 싶습니다.
Sentence 관련 해외 동향도 궁금합니다.
잘 읽었습니다. Transformers 관련 데이터가 인상적이었습니다. 좋은 기사 감사합니다.
언론이 이래야죠.
잘 읽었습니다. 멀티모달의 향후 전망이 궁금합니다. 해외 동향도 함께 다뤄주시면 좋겠습니다.
이런 시각도 있었군요. RAG이 일상에 어떤 영향을 줄지 생각해보게 됩니다. 좋은 기사 감사합니다.
몰랐던 사실을 알게 됐습니다. Sentence 관련 데이터가 인상적이었습니다. 계속 지켜봐야겠습니다.
이런 시각도 있었군요. Transformers 관련 해외 동향도 궁금합니다.
좋은 정보 감사합니다.
멀티모달이 일상에 어떤 영향을 줄지 생각해보게 됩니다. 생각이 바뀌었습니다.
이런 시각도 있었군요. RAG 관련 용어 설명이 친절해서 좋았습니다. 전문가 의견도 더 듣고 싶습니다.
Sentence이 앞으로 어떻게 전개될지 주목해야겠습니다. 생각이 바뀌었습니다.
Transformers이 앞으로 어떻게 전개될지 주목해야겠습니다.
참고가 됩니다. v5에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다.
이런 시각도 있었군요. 멀티모달이 앞으로 어떻게 전개될지 주목해야겠습니다. 해외 동향도 함께 다뤄주시면 좋겠습니다.
잘 읽었습니다. RAG에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다. 다른 시각의 분석도 읽어보고 싶습니다.
읽기 좋은 기사입니다. Sentence에 대해 처음 접하는 정보가 있었습니다. 다른 시각의 분석도 읽어보고 싶습니다.
Transformers이 일상에 어떤 영향을 줄지 생각해보게 됩니다. 잘 정리된 기사네요.
v5에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다. 주변에도 공유해야겠어요.
멀티모달에 대해 주변 사람들과 이야기 나눠볼 만합니다.
이런 시각도 있었군요. RAG이 앞으로 어떻게 전개될지 주목해야겠습니다.
잘 읽었습니다. Sentence에 대해 더 알고 싶어졌습니다.
북마크해두겠습니다. Transformers에 대해 더 알고 싶어졌습니다.
깔끔한 기사입니다. v5 관련 통계가 의외였습니다. 주변에도 공유해야겠어요.
멀티모달 관련 용어 설명이 친절해서 좋았습니다. 좋은 기사 감사합니다.
RAG 관련 통계가 의외였습니다.
Sentence에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다. 계속 지켜봐야겠습니다.
읽기 좋은 기사입니다. Transformers이 앞으로 어떻게 전개될지 주목해야겠습니다.
흥미로운 주제입니다. v5 관련 통계가 의외였습니다. 잘 정리된 기사네요.
잘 읽었습니다. 멀티모달의 전문가 코멘트가 설득력 있었습니다.
RAG의 전문가 코멘트가 설득력 있었습니다.
Sentence 기사에서 언급된 사례가 흥미로웠습니다. 다른 시각의 분석도 읽어보고 싶습니다.
AI·테크 더보기
최신 뉴스

ICIJ, 머크의 키트루다 가격 담합 의혹 대규모 탐사 보도
ICIJ가 머크의 키트루다 가격 전략과 특허 남용 의혹을 탐사 보도했다.

이스라엘-레바논 10일 휴전 발효…유엔 '협상 전기 되길'
이스라엘-레바논 10일 휴전이 4월 17일 자정 공식 발효됐다.

JWST, 성간 혜성 3I/ATLAS에서 메테인 최초 검출…외계 행성계 단서 포착
JWST가 성간 혜성 3I/ATLAS에서 메테인을 최초 직접 검출, 외계 행성계 내부 조성 단서 확보.

IMF, 7년 만에 베네수엘라와 관계 재개…49억 달러 동결 해제 기대
IMF가 2019년 이후 중단됐던 베네수엘라와의 공식 관계를 7년 만에 재개했다.

미국 정치만화가들이 포착한 이번 주 워싱턴
미국 전역 정치만화가들이 매주 정치 풍자로 시대를 기록한다.

IMF, 7년 만에 베네수엘라와 관계 재개…49억 달러 동결 해제 가능성
IMF가 7년 만에 베네수엘라와 공식 협력을 재개하기로 결정했다.

정글이 콘크리트를 삼킨 날, 런던 바비칸의 역설
사진가 알트라트, 런던 바비칸 보존원의 공간 역설을 연작으로 포착했다.

경상흑자 역대 최대인데 원화는 왜 약해지나
한국은행, 경상흑자에도 원화 약세 이어지는 구조적 원인 공식 분석.





