AI·테크

허깅페이스, 0.6B 단일 백본 비전 모델 '팔콘 퍼셉션' 공개

SAM 3 대비 Macro-F1 5.7p 우위… 파이프라인 없는 단일 트랜스포머로 객체 탐지·분할 통합

한서진··5분 읽기·
Falcon Perception
요약
  • 팔콘 퍼셉션(0.6B)은 SA-Co 벤치마크에서 Macro-F1 68.0을 달성, SAM 3(62.3)를 5.7p 상회했다.
  • 단일 조기 융합 트랜스포머와 하이브리드 어텐션 마스크로 모듈형 파이프라인 없이 탐지·분할을 통합했다.
  • 팔콘 OCR(0.3B)은 olmOCR 80.3, OmniDocBench 88.6을 기록하며 오픈소스 최고 처리량을 달성했다.

단일 백본으로 객체 탐지·분할 통합한 초경량 모델 등장

허깅페이스(Hugging Face) 블로그를 통해 자연어 프롬프트 기반 오픈-어휘(open-vocabulary) 객체 탐지·분할 모델 '팔콘 퍼셉션(Falcon Perception)'이 공개됐다. 파라미터 수 6억(0.6B)의 초경량 모델임에도 SA-Co 벤치마크에서 매크로 F1(Macro-F1) 68.0을 기록해 기존 SAM 3의 62.3을 5.7포인트 상회했다. 동시에 0.3B 파라미터 규모의 광학 문자 인식(OCR) 모델 '팔콘 OCR(Falcon OCR)'도 함께 발표됐으며, 오픈소스 OCR 모델 중 최고 처리량을 달성했다고 팀은 밝혔다.

허깅페이스, 0.6B 단일 백본 비전 모델 '팔콘 퍼셉션' 공개
허깅페이스, 0.6B 단일 백본 비전 모델 '팔콘 퍼셉션' 공개

파이프라인의 한계를 단일 백본으로 돌파

기존 오픈-어휘 퍼셉션 시스템 대부분은 모듈형 파이프라인으로 구성된다. 비전 백본(vision backbone)이 특징을 추출하고, 별도의 퓨전·디코더 단계가 언어와 결합하며, 추가 구성 요소가 매칭과 후처리를 담당하는 구조다. 이 방식은 안정적이지만 확장이 어렵고 각 컴포넌트 간 책임 소재가 불분명해 개선 방향 파악이 어렵다는 한계가 있다.

팔콘 퍼셉션 개발팀은 이 질문에서 출발했다. "올바른 어텐션 패턴(attention pattern)과 출력 인터페이스, 학습 신호를 선택한다면, 단일 조기 융합(early-fusion) 트랜스포머 백본 하나로 퍼셉션과 언어 모델링을 동시에 처리할 수 있는가?" 실험 결과는 대체로 긍정적이었다.

아키텍처: 하이브리드 어텐션과 퍼셉션 체인

팔콘 퍼셉션의 핵심은 단일 자기회귀(autoregressive) 트랜스포머가 이미지 패치, 텍스트, 태스크 토큰을 하나의 통합 시퀀스로 처리한다는 점이다. 모델은 객체 속성을 <coord><size><seg> 순서로 예측하는 '퍼셉션 체인(Chain-of-Perception)' 방식을 채택했다. 바운딩 박스 좌표와 크기는 전용 헤드를 통해 디코딩된 뒤 푸리에 특징(Fourier features)으로 재주입되며, 고해상도 분할 마스크는 <seg> 토큰과 업샘플링된 이미지 특징의 내적(dot product)으로 생성된다.

이미지 토큰과 텍스트 토큰은 구조적으로 다르다. 픽셀은 2D 공간 정보를 가지며 양방향 문맥이 유리하고, 예측 인터페이스는 순차적 구조가 자연스럽다. 이를 해결하기 위해 하이브리드 어텐션 마스크(hybrid attention mask)를 도입했다.

  • 이미지 토큰: 모든 이미지 토큰에 양방향 어텐션(bidirectional attention) 적용 → 전역 시각 문맥 구축
  • 텍스트·태스크 토큰: 이전 모든 시각 프리픽스(prefix)와 텍스트에 인과적(causal) 어텐션 적용

이 설계 덕분에 동일한 백본이 이미지 토큰에서는 양방향 비전 인코더처럼 작동하면서도 태스크 토큰에서는 자기회귀 예측을 지원한다.

허깅페이스, 0.6B 단일 백본 비전 모델 '팔콘 퍼셉션' 공개
허깅페이스, 0.6B 단일 백본 비전 모델 '팔콘 퍼셉션' 공개

SAM 3 대비 성능 비교

항목SAM 3팔콘 퍼셉션차이
SA-Co Macro-F162.368.0+5.7p
MCC (존재 보정)0.820.64-0.18
파라미터 수미공개0.6B
아키텍처 방식파이프라인단일 백본

전반적 탐지 정확도에서는 SAM 3를 앞섰으나, 객체 존재 여부를 판단하는 존재 보정(presence calibration) 지표인 MCC(매튜 상관계수)에서는 0.64 대 0.82로 SAM 3에 뒤처진다. 개발팀은 이를 현존하는 주요 개선 과제로 명시했다.

팔콘 OCR: 오픈소스 최고 처리량 달성

동시 공개된 팔콘 OCR은 0.3B 파라미터의 경량 OCR 모델로, olmOCR 벤치마크에서 80.3점, OmniDocBench에서 88.6점을 기록했다. 개발팀은 현존하는 오픈소스 OCR 모델 중 최고 처리량(throughput)을 달성했다고 밝혔다.

허깅페이스, 0.6B 단일 백본 비전 모델 '팔콘 퍼셉션' 공개
허깅페이스, 0.6B 단일 백본 비전 모델 '팔콘 퍼셉션' 공개

새 진단 벤치마크 'PBench' 함께 공개

이번 발표와 함께 팀은 PBench라는 진단 벤치마크도 공개했다. PBench는 성능을 단일 수치가 아닌 능력별로 세분화해 평가한다.

  • 속성 인식(attributes): 색상·크기 등 시각 속성 인식 능력
  • OCR 기반 중의성 해소(OCR-guided disambiguation): 텍스트 정보를 활용한 객체 구분
  • 공간 제약(spatial constraints): 상대적 위치 관계 이해
  • 관계(relations): 객체 간 상호 관계 파악
  • 밀집 장면(dense long-context crowded scenes): 복잡한 혼잡 장면에서의 성능 평가

[전문가 분석] 단일 백본 패러다임, 엣지 비전 AI의 새 기준 될까

팔콘 퍼셉션의 가장 큰 함의는 아키텍처 단순화가 성능 저하 없이 가능하다는 것을 6억 파라미터 소형 모델로 증명했다는 점이다. SAM 2, Grounding DINO, OWL-ViT 등 기존 강자들이 모듈형 파이프라인을 고수하는 상황에서, 단일 백본 방식이 경쟁력 있는 성능을 낼 수 있다는 시사점은 작지 않다.

다만 현실적 과제도 있다. MCC 0.64라는 존재 보정 성능은 실제 프로덕션 환경에서 오탐(false positive) 문제를 유발할 가능성이 높다. 특히 인원 계수, 의료 영상 분석 등 정밀도가 중요한 응용 분야에서는 추가 개선이 필요할 것으로 보인다.

오픈소스 생태계 관점에서는 팔콘 퍼셉션과 팔콘 OCR이 허깅페이스 플랫폼을 통해 공개됨으로써, 엣지 디바이스(edge device)나 자원 제약 환경에서의 비전-언어 통합 솔루션 수요를 흡수할 가능성이 높다. 6억 파라미터라는 경량성은 모바일·임베디드 환경 배포에도 적합한 수준으로, 향후 로보틱스·자율주행·산업용 비전 분야로의 확산이 기대된다.

허깅페이스, 0.6B 단일 백본 비전 모델 '팔콘 퍼셉션' 공개
허깅페이스, 0.6B 단일 백본 비전 모델 '팔콘 퍼셉션' 공개

허깅페이스, 0.6B 단일 백본 비전 모델 '팔콘 퍼셉션' 공개
허깅페이스, 0.6B 단일 백본 비전 모델 '팔콘 퍼셉션' 공개

공유

댓글 (26)

조용한크리에이터방금 전

허깅페이스 관련 해외 동향도 궁금합니다.

현명한분석가방금 전

6B이 일상에 어떤 영향을 줄지 생각해보게 됩니다. 계속 지켜봐야겠습니다.

솔직한독자방금 전

단일 관련 통계가 의외였습니다.

도서관의사자5분 전

컴퓨터비전이 일상에 어떤 영향을 줄지 생각해보게 됩니다.

따뜻한녹차5분 전

댓글 보는 재미도 있네요.

맑은날달5분 전

허깅페이스에 대해 더 알고 싶어졌습니다.

오후의여행자12분 전

잘 읽었습니다. 6B 관련 용어 설명이 친절해서 좋았습니다. 다른 시각의 분석도 읽어보고 싶습니다.

대전의바람12분 전

단일에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다. 계속 지켜봐야겠습니다.

꼼꼼한아메리카노30분 전

컴퓨터비전 관련 데이터가 인상적이었습니다. 잘 정리된 기사네요.

도서관의피아노30분 전

언론이 이래야죠.

카페의기타30분 전

잘 읽었습니다. 허깅페이스에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다.

공원의고양이1시간 전

6B 관련 데이터가 인상적이었습니다.

똑똑한에스프레소1시간 전

읽기 좋은 기사입니다. 단일 주제로 시리즈 기사가 나오면 좋겠습니다.

똑똑한라떼2시간 전

읽기 좋은 기사입니다. 컴퓨터비전 관련 데이터가 인상적이었습니다. 잘 정리된 기사네요.

인천의토끼2시간 전

멀티모달에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다.

진지한분석가2시간 전

요즘 이 매체 기사가 제일 읽기 좋아요.

차분한바이올린3시간 전

6B에 대해 처음 접하는 정보가 있었습니다.

조용한분석가3시간 전

단일에 대해 처음 접하는 정보가 있었습니다.

활발한사자3시간 전

컴퓨터비전에 대해 처음 접하는 정보가 있었습니다. 잘 정리된 기사네요.

아침의돌고래5시간 전

다양한 주제를 다뤄주셔서 좋습니다.

도서관의기록자5시간 전

허깅페이스의 향후 전망이 궁금합니다.

별빛의별8시간 전

6B이 일상에 어떤 영향을 줄지 생각해보게 됩니다.

홍대의드럼8시간 전

단일에 대해 주변 사람들과 이야기 나눠볼 만합니다.

산속의사색가8시간 전

흥미로운 주제입니다. 컴퓨터비전에 대해 처음 접하는 정보가 있었습니다.

차분한아메리카노

멀티모달 관련 통계가 의외였습니다. 나중에 다시 읽어볼 만합니다.

꼼꼼한관찰자

허깅페이스 기사에서 언급된 사례가 흥미로웠습니다.

이 시리즈의 다른 기사

AI·테크 더보기

최신 뉴스