AI·테크

엔비디아, 합성 데이터로 만든 다국어 OCR 모델 공개

1,200만 장 합성 이미지로 학습한 Nemotron OCR v2, 비영어권 인식 오류율 최대 94% 감소

한서진·2026년 4월 17일 금 07:17·5분 읽기·

Building a Fast Multilingual OCR Model with Synthetic Data

요약

•엔비디아가 1,200만 장 합성 이미지로 훈련한 다국어 OCR 모델 Nemotron OCR v2를 공개했다.
•비영어권 언어 NED 오류율이 0.56~0.92에서 0.035~0.069로 최대 94% 개선됐다.
•단일 A100 GPU에서 초당 34.7페이지 처리 속도를 달성했으며, 데이터셋과 모델 모두 오픈소스로 공개됐다.

엔비디아(NVIDIA), 다국어 OCR 모델 'Nemotron OCR v2' 공개

엔비디아(NVIDIA)가 합성 데이터(Synthetic Data) 기반의 다국어 광학 문자 인식(OCR, Optical Character Recognition) 모델 'Nemotron OCR v2'를 공개했다. 이 모델은 6개 언어에 걸쳐 1,200만 장의 합성 학습 이미지를 활용해 훈련됐으며, 단일 A100 GPU에서 초당 34.7페이지를 처리하는 속도를 달성했다. 비영어권 언어에서의 정규화 편집 거리(NED, Normalized Edit Distance) 점수는 기존 0.56~~0.92에서 0.035~~0.069로 대폭 개선됐다. 데이터셋은 nvidia/OCR-Synthetic-Multilingual-v1, 모델은 nvidia/nemotron-ocr-v2로 허깅페이스(Hugging Face)에 공개됐다.

왜 이게 중요한가: OCR의 데이터 병목을 합성으로 돌파

OCR 모델 개발의 핵심 장벽은 언제나 '데이터'였다. 고품질 학습을 위해서는 이미지-텍스트 쌍에 단어·줄·문단 단위의 정밀 경계 상자(Bounding Box)와 읽기 순서 정보까지 수동으로 주석(Annotation)을 달아야 한다. 수백만 장 규모에서 이를 수작업으로 처리하는 것은 비용과 시간 모두 현실적이지 않다.

기존 벤치마크 데이터셋인 ICDAR나 Total-Text는 레이블 품질은 높지만 규모가 수만 장 수준에 머물고, 영어·중국어에 편중돼 있다. 웹에서 수집한 PDF는 양은 많지만 텍스트 레이어가 불완전하거나 스캔 이미지에 저품질 OCR 결과물이 혼재해 신뢰도가 낮다.

합성 데이터는 이 두 가지 한계를 동시에 해결한다. 텍스트를 이미지에 프로그래밍 방식으로 렌더링하면 경계 상자·전사(Transcription)·읽기 순서 모두 '정확히 알고 있는' 상태로 생성되기 때문이다. 관건은 현실감(Realism)이다. 폰트, 색상, 배경, 레이아웃, 증강(Augmentation)을 충분히 다양화해야 실제 문서에 대한 일반화 능력이 확보된다.

이전 버전과 무엇이 달라졌나

항목	Nemotron OCR v1	Nemotron OCR v2	변화
지원 언어	영어 중심	6개 언어(영어·일어·한국어·러시아어·중국어 등)	다국어로 확장
지원 문자 수	855자	14,244자	CJK·키릴 문자 포함
학습 데이터	제한적	1,200만 장 합성 이미지	대규모 합성 데이터
비영어 NED 점수	0.56~0.92	0.035~0.069	최대 94% 개선
처리 속도	미공개	34.7페이지/초 (A100 1장)	공유 백본 구조 도입
아키텍처	독립 모듈	탐지·인식·관계 모델 공유 백본	중복 연산 제거

v1에서 v2로의 전환에서 핵심은 '아키텍처 개선'이 아니라 '데이터 문제 해결'이었다. 엔비디아 연구팀은 v1의 문자 집합을 14,244자로 확장하는 실험을 먼저 진행했지만, 학습 데이터 없이 문자 집합만 늘리는 것은 효과가 미미했다고 밝혔다. 모델이 해당 문자들의 시각적 특성을 학습한 적이 없었기 때문이다.

이 흐름은 언제부터: OCR과 합성 데이터의 교차점

문서 인식(Document AI) 분야에서 합성 데이터의 활용은 2010년대 중반부터 본격화됐다. 딥마인드(DeepMind)의 SynthText(2016)와 같이 자연 장면에 텍스트를 합성하는 연구가 문자 탐지 분야에서 먼저 성과를 보였고, 이후 문서 이해 모델 훈련으로 확장됐다.

2022년 NAVER의 SynthDoG는 다국어 문서 이미지 합성 파이프라인을 공개해 주목받았다. 그러나 당시까지도 합성 데이터만으로 실제 문서 수준의 정확도를 달성하기는 어려웠다. 엔비디아의 이번 발표는 렌더링 엔진의 다양성과 무작위화 수준이 충분히 높아졌을 때 합성 데이터만으로도 실용적인 다국어 OCR이 가능함을 보여준 사례다.

대규모 언어 모델(LLM, Large Language Model)의 확산이 이 흐름을 가속했다. 문서에서 텍스트를 추출해 LLM에 입력하는 파이프라인이 일반화되면서, OCR 품질이 하류(Downstream) 작업 전체의 성패를 좌우하는 구조가 됐다. 특히 비영어권 기업용 문서 처리 수요가 급증하면서 다국어 OCR의 중요성은 더욱 커졌다.

[전문가 분석] 향후 전망과 시사점

이번 공개에서 주목해야 할 점은 모델뿐 아니라 파이프라인 자체가 공개됐다는 것이다. 연구팀은 합성 데이터 파이프라인이 폰트와 소스 텍스트만 있으면 어떤 언어로도 확장 가능하도록 설계됐다고 밝혔다. 이는 특정 언어 데이터셋이 부족한 중소 언어권 연구자에게 실질적인 진입 장벽 해소로 작용할 가능성이 높다.

속도 면에서도 시사점이 크다. A100 단일 GPU에서 34.7페이지/초는 기업 환경의 대량 문서 처리(Batch Processing)에 실용적인 수준이다. 탐지(Detection)·인식(Recognition)·관계(Relational) 모델이 백본(Backbone)을 공유하는 구조는 중복 연산을 제거해 이 속도를 가능하게 했다.

다만 합성 데이터 기반 모델의 한계도 존재한다. 손글씨, 이미지 왜곡이 심한 역사 문서, 특수 도메인 전문 용어 등 합성 데이터로 충분히 커버하기 어려운 분포(Distribution)에서의 성능은 추가 검증이 필요하다. 또한 NED 점수가 개선됐어도 실제 비즈니스 문서 파이프라인에서의 성능은 문서 유형별 세부 평가가 따라야 한다.

향후 이 모델은 엔터프라이즈 문서 처리, RAG(Retrieval-Augmented Generation) 파이프라인의 전처리 단계, 다국어 디지털 아카이브 구축 등에 폭넓게 활용될 가능성이 높다. 오픈소스로 공개된 데이터셋과 모델이 커뮤니티 기반의 추가 언어 확장으로 이어질지 주목된다.

#nvidia-series #Nemotron-OCR #OCR #합성데이터 #다국어AI #문서AI #LLM

부지런한여행자방금 전

엔비디아에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다. 해외 동향도 함께 다뤄주시면 좋겠습니다.

차분한사자방금 전

북마크해두겠습니다. 합성에 대해 처음 접하는 정보가 있었습니다.

진지한크리에이터방금 전

데이터로 주제로 시리즈 기사가 나오면 좋겠습니다.

조용한탐험가방금 전

이런 시각도 있었군요. Nemotron-OCR 관련 데이터가 인상적이었습니다. 전문가 의견도 더 듣고 싶습니다.

다정한워커방금 전

읽기 좋은 기사입니다. OCR 관련 배경 설명이 이해하기 쉬웠습니다.

제주의피아노방금 전

댓글 보는 재미도 있네요.

활발한독자5분 전

북마크해두겠습니다. 합성 관련 배경 설명이 이해하기 쉬웠습니다. 전문가 의견도 더 듣고 싶습니다.

유쾌한탐험가5분 전

깔끔한 기사입니다. 데이터로에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다.

꼼꼼한연구자5분 전

깔끔한 기사입니다. Nemotron-OCR의 향후 전망이 궁금합니다. 잘 정리된 기사네요.

바닷가의라떼5분 전

OCR 기사에서 언급된 사례가 흥미로웠습니다.

아침의피아노5분 전

엔비디아이 일상에 어떤 영향을 줄지 생각해보게 됩니다. 다른 시각의 분석도 읽어보고 싶습니다.

열정적인드리머5분 전

잘 읽었습니다. 합성 기사에서 언급된 사례가 흥미로웠습니다.

유쾌한판다12분 전

데이터로에 대해 주변 사람들과 이야기 나눠볼 만합니다. 좋은 기사 감사합니다.

오후의독자12분 전

매일 여기서 뉴스 보고 있어요.

부산의판다12분 전

OCR 관련 배경 설명이 이해하기 쉬웠습니다. 다른 시각의 분석도 읽어보고 싶습니다.

부산의독자12분 전

엔비디아 관련 배경 설명이 이해하기 쉬웠습니다. 전문가 의견도 더 듣고 싶습니다.

꼼꼼한기록자12분 전

북마크해두겠습니다. 합성의 전문가 코멘트가 설득력 있었습니다. 다른 시각의 분석도 읽어보고 싶습니다.

햇살의에스프레소30분 전

데이터로의 전문가 코멘트가 설득력 있었습니다. 해외 동향도 함께 다뤄주시면 좋겠습니다.

성수의에스프레소30분 전

Nemotron-OCR 관련 데이터가 인상적이었습니다.

성수의토끼30분 전

OCR이 일상에 어떤 영향을 줄지 생각해보게 됩니다. 좋은 기사 감사합니다.

가을의아메리카노30분 전

좋은 정리입니다. 엔비디아에 대해 더 알고 싶어졌습니다.

아침의돌고래30분 전

몰랐던 사실을 알게 됐습니다. 합성에 대해 주변 사람들과 이야기 나눠볼 만합니다. 좋은 기사 감사합니다.

인천의별30분 전

읽기 좋은 기사입니다. 데이터로의 향후 전망이 궁금합니다.

다정한라떼1시간 전

Nemotron-OCR이 일상에 어떤 영향을 줄지 생각해보게 됩니다.

바닷가의드리머1시간 전

OCR이 앞으로 어떻게 전개될지 주목해야겠습니다. 잘 정리된 기사네요.

차분한강아지1시간 전

북마크해두겠습니다. 엔비디아이 일상에 어떤 영향을 줄지 생각해보게 됩니다. 전문가 의견도 더 듣고 싶습니다.

부지런한분석가1시간 전

합성의 전문가 코멘트가 설득력 있었습니다. 잘 정리된 기사네요.

차분한판다1시간 전

데이터로에 대해 더 알고 싶어졌습니다.

오후의기록자2시간 전

아침에 읽기 딱 좋은 분량이에요.

별빛의아메리카노2시간 전

OCR 관련 해외 동향도 궁금합니다.

성수의피아노2시간 전

요즘 이 매체 기사가 제일 읽기 좋아요.

봄날의연구자2시간 전

합성에 대해 처음 접하는 정보가 있었습니다. 전문가 의견도 더 듣고 싶습니다.

인천의드리머2시간 전

이런 시각도 있었군요. 데이터로이 앞으로 어떻게 전개될지 주목해야겠습니다.

구름위바람2시간 전

Nemotron-OCR 관련 배경 설명이 이해하기 쉬웠습니다.

부지런한녹차3시간 전

깔끔한 기사입니다. OCR에 대해 주변 사람들과 이야기 나눠볼 만합니다.

오후의리더3시간 전

흥미로운 주제입니다. 엔비디아의 향후 전망이 궁금합니다. 전문가 의견도 더 듣고 싶습니다.

차분한돌고래3시간 전

합성 관련 해외 동향도 궁금합니다. 다른 시각의 분석도 읽어보고 싶습니다.

신중한여우3시간 전

데이터로 관련 데이터가 인상적이었습니다.

맑은날여행자3시간 전

북마크해두겠습니다. Nemotron-OCR 관련 해외 동향도 궁금합니다.

유쾌한크리에이터3시간 전

좋은 정리입니다. OCR에 대해 더 알고 싶어졌습니다. 전문가 의견도 더 듣고 싶습니다.

똑똑한피아노5시간 전

유익한 기사네요. 엔비디아에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다. 계속 지켜봐야겠습니다.

조용한워커5시간 전

합성 주제로 시리즈 기사가 나오면 좋겠습니다. 해외 동향도 함께 다뤄주시면 좋겠습니다.

용감한바이올린5시간 전

데이터로 관련 해외 동향도 궁금합니다. 잘 정리된 기사네요.

꼼꼼한여행자5시간 전

Nemotron-OCR에 대해 주변 사람들과 이야기 나눠볼 만합니다.

차분한분석가5시간 전

OCR에 대해 더 알고 싶어졌습니다.

한밤의커피8시간 전

다른 기사도 기대하겠습니다.

따뜻한구름8시간 전

합성에 대해 더 알고 싶어졌습니다.

솔직한다람쥐8시간 전

참고가 됩니다. 데이터로 기사에서 언급된 사례가 흥미로웠습니다.

부지런한리더8시간 전

Nemotron-OCR 기사에서 언급된 사례가 흥미로웠습니다.

호기심많은드리머8시간 전

OCR이 앞으로 어떻게 전개될지 주목해야겠습니다. 좋은 기사 감사합니다.

아침의다람쥐8시간 전

잘 읽었습니다. 엔비디아이 앞으로 어떻게 전개될지 주목해야겠습니다.

솔직한강아지

구독 중인데 만족합니다.

여름의분석가

이런 시각도 있었군요. 데이터로 관련 배경 설명이 이해하기 쉬웠습니다. 잘 정리된 기사네요.

대전의별

깔끔한 기사입니다. Nemotron-OCR 주제로 시리즈 기사가 나오면 좋겠습니다.

가을의탐험가

객관적인 시각이 돋보이는 기사입니다.

냉철한에스프레소

엔비디아 관련 해외 동향도 궁금합니다.

이 시리즈의 다른 기사

IEA 경고: 데이터센터 전력 소비, 2030년까지 두 배…AI가 에너지 위기 촉발

2026. 4. 17.

젠슨 황 "앤트로픽 투자 못 한 건 내 실수"…구글·아마존 칩 위협론은 일축

2026. 4. 16.

캡콤 'PRAGMATA', 출시 당일 지포스 나우 스트리밍 지원

2026. 4. 16.

테슬라 AI5 칩 설계 완료…AI4 대비 8배 성능, 2027년 양산

2026. 4. 15.

NVIDIA "AI 인프라 비용, 이제 토큰당 단가로만 따져야"

2026. 4. 15.

AI·테크 더보기

AMD MI450, Anthropic 계약 임박…엔비디아 독주에 균열 생기나

ArayoNews

엔비디아, 합성 데이터로 만든 다국어 OCR 모델 공개

엔비디아(NVIDIA), 다국어 OCR 모델 'Nemotron OCR v2' 공개

왜 이게 중요한가: OCR의 데이터 병목을 합성으로 돌파

이전 버전과 무엇이 달라졌나

이 흐름은 언제부터: OCR과 합성 데이터의 교차점

[전문가 분석] 향후 전망과 시사점

댓글 (56)

이 시리즈의 다른 기사

AI·테크 더보기

AMD MI450, Anthropic 계약 임박…엔비디아 독주에 균열 생기나

IEA 경고: 데이터센터 전력 소비, 2030년까지 두 배…AI가 에너지 위기 촉발

TSMC, 1nm 벽을 넘는다… 2030년 '앙스트롬 시대' 개막

Anthropic·OpenAI, '상시 작동' AI 코딩 에이전트 패권 경쟁

NASA, 투모로우닷아이오 강수 레이더 데이터 품질 평가 완료

애플 맥북 네오 4월 물량 완판...신규 주문 5월로 밀려

최신 뉴스

공포에 사고 탐욕에 팔았다…개미, 코스피 '오천피' 수호한 일등공신

이란 전쟁發 에너지 위기, EU 스태그플레이션 경계선에 서다

美 ICE 대행 국장 토드 라이언스, 5월 말 사임 예정

트럼프 '해상봉쇄 유지'…이란, 호르무즈 완전 개방 선언

호르무즈 봉쇄가 바꾼 에너지 지도, 재생에너지 전환 가속

호르무즈 재개방 선언에도 파나마 운하 적체 해소 '요원'

호르무즈 해협 재개방에 금값 급등·유가 폭락

이란 '호르무즈 해협 완전 개방' 선언…국제유가 11% 급락