AI·테크

Sentence Transformers v5.4, 텍스트·이미지·오디오·영상 통합 임베딩 지원

멀티모달 임베딩·리랭커 모델로 크로스모달 검색과 멀티모달 RAG 파이프라인 구축 가능

Elena Volkov·2026년 4월 8일 수 15:00·5분 읽기·

Multimodal Embedding & Reranker Models with Sentence Transformers

요약

•Sentence Transformers v5.4가 텍스트·이미지·오디오·영상을 단일 API로 임베딩하는 멀티모달 지원을 출시했다.
•Qwen3-VL-2B 등 VLM 기반 모델 사용 시 최소 8GB VRAM이 필요하며, 크로스모달 검색과 멀티모달 RAG 파이프라인 구축이 가능하다.
•기존 encode() API를 그대로 유지해 텍스트 전용 파이프라인에서 멀티모달로의 전환 비용을 최소화했다.

하나의 API로 텍스트·이미지·오디오·영상을 비교한다

파이썬 임베딩 라이브러리 센텐스 트랜스포머스(Sentence Transformers)가 2026년 4월 9일 v5.4 업데이트를 통해 멀티모달(multimodal) 임베딩 및 리랭킹(reranking) 기능을 공식 지원하기 시작했다. 이번 업데이트로 개발자는 기존과 동일한 model.encode() API를 사용하면서 텍스트뿐 아니라 이미지, 오디오, 영상까지 하나의 공유 임베딩 공간에 매핑할 수 있다. 허깅페이스(Hugging Face) 블로그를 통해 공개된 내용에 따르면, 이번 기능 추가는 시각적 문서 검색, 크로스모달(cross-modal) 시맨틱 서치, 멀티모달 검색증강생성(RAG) 파이프라인 구축을 직접 겨냥한다.

Sentence Transformers v5.4, 텍스트·이미지·오디오·영상 통합 임베딩 지원

멀티모달 임베딩이란 무엇인가

기존 임베딩 모델(embedding model)은 텍스트를 고정 크기 벡터(vector)로 변환하는 데 특화되어 있었다. 멀티모달 임베딩 모델은 이 개념을 확장해 텍스트, 이미지, 오디오, 영상 등 서로 다른 모달리티(modality)의 입력을 단일 임베딩 공간에 투영한다. 결과적으로 텍스트 쿼리로 이미지 문서를 검색하거나, 설명 문장으로 영상 클립을 찾는 작업이 기존 유사도(similarity) 함수 그대로 가능해진다.

리랭커(reranker, Cross Encoder) 모델도 마찬가지다. 기존에는 텍스트 쌍(pair)의 관련성 점수만 계산할 수 있었다면, 이번 업데이트로 이미지-텍스트 혼합 쌍, 텍스트-텍스트+이미지 복합 문서 쌍에 대해서도 관련성 점수를 산출할 수 있다.

설치 및 하드웨어 요구 사항

멀티모달 기능은 모달리티별 추가 의존성 설치가 필요하다.

pip install -U "sentence-transformers[image]"
pip install -U "sentence-transformers[audio]"
pip install -U "sentence-transformers[video]"
pip install -U "sentence-transformers[image,video,train]"

비전-언어 모델(VLM) 기반 모델인 Qwen3-VL-2B 계열을 사용할 경우, 2B 파라미터 모델은 최소 8GB 이상의 VRAM이 필요하며 8B 변형 모델은 약 20GB의 GPU 메모리를 요구한다. CPU 환경에서는 추론 속도가 매우 느리기 때문에, GPU가 없는 환경에서는 구글 코랩(Google Colab) 등 클라우드 GPU 서비스 이용이 권장된다. 텍스트 전용 또는 CLIP 계열 모델은 CPU 환경에서도 비교적 원활하게 동작한다.

이전 버전과 달라진 점

항목	v5.4 이전	v5.4 이후	변화
지원 모달리티	텍스트 전용	텍스트·이미지·오디오·영상	멀티모달 확장
임베딩 API	`model.encode(text)`	`model.encode([text, image, url...])`	동일 API 유지
리랭킹 대상	텍스트-텍스트 쌍	텍스트·이미지 혼합 쌍	크로스모달 지원
이미지 입력 형식	미지원	URL·파일 경로·PIL 객체	다양한 포맷 허용
VLM 모델 지원	없음	Qwen3-VL-2B 등	신규 추가
훈련·파인튜닝	텍스트 전용	멀티모달 학습 지원	확장

모델 로딩 방식은 이전과 동일하다. SentenceTransformer("Qwen/Qwen3-VL-Embedding-2B")와 같이 모델명만 지정하면 라이브러리가 지원 모달리티를 자동으로 감지한다. 이미지 해상도나 모델 정밀도(precision) 등 세부 설정은 Processor and Model kwargs 옵션으로 제어할 수 있다.

활용 가능한 파이프라인

v5.4가 직접적으로 열어주는 파이프라인은 세 가지로 정리된다.

크로스모달 시맨틱 서치(cross-modal semantic search): 텍스트 쿼리로 이미지·영상 문서를 검색하거나 그 반대 방향으로도 적용 가능하다. 기존 코사인 유사도(cosine similarity) 연산을 그대로 활용할 수 있다.

멀티모달 RAG(Retrieval-Augmented Generation) 파이프라인: 이미지가 포함된 PDF, 슬라이드, 웹페이지 등 시각적 문서를 임베딩 데이터베이스에 색인하고 텍스트 질의로 관련 문서를 검색·재순위화(reranking)하는 구조를 구현할 수 있다.

혼합 모달리티 리랭킹(mixed-modality reranking): 초기 검색(retrieval) 결과로 텍스트와 이미지가 섞인 문서 목록이 반환되더라도 리랭커 모델이 전체 목록에 대해 통합 관련성 점수를 계산한다.

[전문가 분석] 멀티모달 RAG의 실용화 시점이 앞당겨진다

이번 업데이트는 멀티모달 검색 인프라 구축의 진입 장벽을 크게 낮춘다는 점에서 의미가 있다. 그간 멀티모달 RAG는 개념적으로는 주목받았지만 구현 복잡도와 모달리티별 파이프라인 분리 문제로 실제 프로덕션 적용이 더뎠다.

센텐스 트랜스포머스는 이미 파이썬 임베딩 생태계에서 사실상 표준(de facto standard) 위치를 차지하고 있다. 동일한 API 인터페이스를 유지한 채 멀티모달을 지원함으로써, 기존 텍스트 전용 RAG 파이프라인에 이미지 검색 기능을 최소한의 코드 변경으로 추가할 가능성이 높다.

다만 Qwen3-VL-2B 같은 VLM 기반 모델의 GPU 메모리 요구량(최소 8GB)은 로컬 환경에서 실험하려는 개발자에게 여전히 허들이 될 수 있다. 향후 더 경량화된 멀티모달 임베딩 모델이 등장할수록 이 기능의 채택률은 빠르게 높아질 가능성이 있다. 허깅페이스가 별도 블로그 포스트로 멀티모달 모델의 훈련·파인튜닝 방법도 함께 공개한 점은, 단순 추론을 넘어 커스텀 멀티모달 모델 생태계 형성을 적극적으로 지원하겠다는 의도로 해석된다.

#sentence-transformers #멀티모달 #RAG #임베딩 #LLM #크로스모달검색 #Qwen3-VL

바람의기타방금 전

유익한 기사네요. Sentence 관련 데이터가 인상적이었습니다. 나중에 다시 읽어볼 만합니다.

별빛의라떼방금 전

Transformers에 대해 처음 접하는 정보가 있었습니다.

신중한첼로방금 전

다른 기사도 기대하겠습니다.

조용한별방금 전

멀티모달에 대해 처음 접하는 정보가 있었습니다.

꼼꼼한부엉이방금 전

RAG이 앞으로 어떻게 전개될지 주목해야겠습니다.

대전의달방금 전

Sentence 관련 배경 설명이 이해하기 쉬웠습니다. 전문가 의견도 더 듣고 싶습니다.

조용한달5분 전

깔끔한 기사입니다. Transformers에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다. 주변에도 공유해야겠어요.

비오는날드리머5분 전

v5 관련 해외 동향도 궁금합니다.

여름의여우5분 전

기자님 수고하셨습니다.

도서관의부엉이5분 전

깔끔한 기사입니다. RAG 관련 통계가 의외였습니다.

성수의여우5분 전

흥미로운 주제입니다. Sentence 관련 통계가 의외였습니다.

판교의탐험가5분 전

흥미로운 주제입니다. Transformers 관련 배경 설명이 이해하기 쉬웠습니다. 전문가 의견도 더 듣고 싶습니다.

바닷가의기록자12분 전

몰랐던 사실을 알게 됐습니다. v5에 대해 더 알고 싶어졌습니다. 나중에 다시 읽어볼 만합니다.

성수의첼로12분 전

멀티모달 관련 배경 설명이 이해하기 쉬웠습니다.

홍대의달12분 전

좋은 정리입니다. RAG의 향후 전망이 궁금합니다.

별빛의여우12분 전

구독 중인데 만족합니다.

용감한판다12분 전

몰랐던 사실을 알게 됐습니다. Transformers의 전문가 코멘트가 설득력 있었습니다.

홍대의라떼30분 전

유익한 기사네요. v5이 일상에 어떤 영향을 줄지 생각해보게 됩니다. 해외 동향도 함께 다뤄주시면 좋겠습니다.

비오는날라떼30분 전

멀티모달에 대해 처음 접하는 정보가 있었습니다. 좋은 기사 감사합니다.

활발한토끼30분 전

깔끔한 기사입니다. RAG의 전문가 코멘트가 설득력 있었습니다.

재빠른해30분 전

정리가 깔끔하네요.

서울의달30분 전

Transformers의 전문가 코멘트가 설득력 있었습니다.

호기심많은드리머30분 전

이런 시각도 있었군요. v5에 대해 주변 사람들과 이야기 나눠볼 만합니다. 잘 정리된 기사네요.

용감한드리머1시간 전

참고가 됩니다. 멀티모달 주제로 시리즈 기사가 나오면 좋겠습니다.

솔직한고양이1시간 전

좋은 정리입니다. RAG에 대해 주변 사람들과 이야기 나눠볼 만합니다. 전문가 의견도 더 듣고 싶습니다.

부지런한사자1시간 전

Sentence 관련 해외 동향도 궁금합니다.

밝은별1시간 전

잘 읽었습니다. Transformers 관련 데이터가 인상적이었습니다. 좋은 기사 감사합니다.

바람의비평가1시간 전

언론이 이래야죠.

꼼꼼한구름2시간 전

잘 읽었습니다. 멀티모달의 향후 전망이 궁금합니다. 해외 동향도 함께 다뤄주시면 좋겠습니다.

가을의비평가2시간 전

이런 시각도 있었군요. RAG이 일상에 어떤 영향을 줄지 생각해보게 됩니다. 좋은 기사 감사합니다.

별빛의첼로2시간 전

몰랐던 사실을 알게 됐습니다. Sentence 관련 데이터가 인상적이었습니다. 계속 지켜봐야겠습니다.

판교의기록자2시간 전

이런 시각도 있었군요. Transformers 관련 해외 동향도 궁금합니다.

용감한돌고래2시간 전

좋은 정보 감사합니다.

한밤의펭귄2시간 전

멀티모달이 일상에 어떤 영향을 줄지 생각해보게 됩니다. 생각이 바뀌었습니다.

성수의크리에이터3시간 전

이런 시각도 있었군요. RAG 관련 용어 설명이 친절해서 좋았습니다. 전문가 의견도 더 듣고 싶습니다.

현명한시민3시간 전

Sentence이 앞으로 어떻게 전개될지 주목해야겠습니다. 생각이 바뀌었습니다.

겨울의녹차3시간 전

Transformers이 앞으로 어떻게 전개될지 주목해야겠습니다.

새벽의녹차3시간 전

참고가 됩니다. v5에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다.

차분한강아지3시간 전

이런 시각도 있었군요. 멀티모달이 앞으로 어떻게 전개될지 주목해야겠습니다. 해외 동향도 함께 다뤄주시면 좋겠습니다.

차분한에스프레소3시간 전

잘 읽었습니다. RAG에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다. 다른 시각의 분석도 읽어보고 싶습니다.

호기심많은크리에이터5시간 전

읽기 좋은 기사입니다. Sentence에 대해 처음 접하는 정보가 있었습니다. 다른 시각의 분석도 읽어보고 싶습니다.

똑똑한여우5시간 전

Transformers이 일상에 어떤 영향을 줄지 생각해보게 됩니다. 잘 정리된 기사네요.

판교의다람쥐5시간 전

v5에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다. 주변에도 공유해야겠어요.

냉철한러너5시간 전

멀티모달에 대해 주변 사람들과 이야기 나눠볼 만합니다.

봄날의고양이5시간 전

이런 시각도 있었군요. RAG이 앞으로 어떻게 전개될지 주목해야겠습니다.

오후의바이올린8시간 전

잘 읽었습니다. Sentence에 대해 더 알고 싶어졌습니다.

봄날의여우8시간 전

북마크해두겠습니다. Transformers에 대해 더 알고 싶어졌습니다.

별빛의고양이8시간 전

깔끔한 기사입니다. v5 관련 통계가 의외였습니다. 주변에도 공유해야겠어요.

아침의라떼8시간 전

멀티모달 관련 용어 설명이 친절해서 좋았습니다. 좋은 기사 감사합니다.

서울의여우8시간 전

RAG 관련 통계가 의외였습니다.

진지한크리에이터8시간 전

Sentence에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다. 계속 지켜봐야겠습니다.

활발한드리머

읽기 좋은 기사입니다. Transformers이 앞으로 어떻게 전개될지 주목해야겠습니다.

조용한여우

흥미로운 주제입니다. v5 관련 통계가 의외였습니다. 잘 정리된 기사네요.

해운대의탐험가

잘 읽었습니다. 멀티모달의 전문가 코멘트가 설득력 있었습니다.

다정한리더

RAG의 전문가 코멘트가 설득력 있었습니다.

냉철한기록자

Sentence 기사에서 언급된 사례가 흥미로웠습니다. 다른 시각의 분석도 읽어보고 싶습니다.

AI·테크 더보기

ArayoNews

Sentence Transformers v5.4, 텍스트·이미지·오디오·영상 통합 임베딩 지원

하나의 API로 텍스트·이미지·오디오·영상을 비교한다

멀티모달 임베딩이란 무엇인가

설치 및 하드웨어 요구 사항

이전 버전과 달라진 점

활용 가능한 파이프라인

[전문가 분석] 멀티모달 RAG의 실용화 시점이 앞당겨진다

댓글 (56)

AI·테크 더보기

애플 맥북 네오 4월 물량 완판...신규 주문 5월로 밀려

OpenAI, 생명과학 전용 추론 AI 'GPT-Rosalind' 출시… 신약 개발 패러다임 흔든다

EU, Anthropic의 Claude Mythos AI 사이버 위협 놓고 직접 협의 개시

퍼플렉시티, Mac 전용 AI 에이전트 'Personal Computer' 정식 출시

글로벌 금융당국, Anthropic 'Mythos' AI 사이버 위협에 일제히 긴급 대응

앤스로픽, 런던에 800명 규모 사무소 확보…미 국방부 갈등 속 유럽 거점 구축

최신 뉴스

ICIJ, 머크의 키트루다 가격 담합 의혹 대규모 탐사 보도

이스라엘-레바논 10일 휴전 발효…유엔 '협상 전기 되길'

JWST, 성간 혜성 3I/ATLAS에서 메테인 최초 검출…외계 행성계 단서 포착

IMF, 7년 만에 베네수엘라와 관계 재개…49억 달러 동결 해제 기대

미국 정치만화가들이 포착한 이번 주 워싱턴

IMF, 7년 만에 베네수엘라와 관계 재개…49억 달러 동결 해제 가능성

정글이 콘크리트를 삼킨 날, 런던 바비칸의 역설

경상흑자 역대 최대인데 원화는 왜 약해지나