엔비디아, 합성 데이터로 만든 다국어 OCR 모델 공개
1,200만 장 합성 이미지로 학습한 Nemotron OCR v2, 비영어권 인식 오류율 최대 94% 감소

- •엔비디아가 1,200만 장 합성 이미지로 훈련한 다국어 OCR 모델 Nemotron OCR v2를 공개했다.
- •비영어권 언어 NED 오류율이 0.56~0.92에서 0.035~0.069로 최대 94% 개선됐다.
- •단일 A100 GPU에서 초당 34.7페이지 처리 속도를 달성했으며, 데이터셋과 모델 모두 오픈소스로 공개됐다.
엔비디아(NVIDIA), 다국어 OCR 모델 'Nemotron OCR v2' 공개
엔비디아(NVIDIA)가 합성 데이터(Synthetic Data) 기반의 다국어 광학 문자 인식(OCR, Optical Character Recognition) 모델 'Nemotron OCR v2'를 공개했다. 이 모델은 6개 언어에 걸쳐 1,200만 장의 합성 학습 이미지를 활용해 훈련됐으며, 단일 A100 GPU에서 초당 34.7페이지를 처리하는 속도를 달성했다. 비영어권 언어에서의 정규화 편집 거리(NED, Normalized Edit Distance) 점수는 기존 0.560.92에서 0.0350.069로 대폭 개선됐다. 데이터셋은 nvidia/OCR-Synthetic-Multilingual-v1, 모델은 nvidia/nemotron-ocr-v2로 허깅페이스(Hugging Face)에 공개됐다.

왜 이게 중요한가: OCR의 데이터 병목을 합성으로 돌파
OCR 모델 개발의 핵심 장벽은 언제나 '데이터'였다. 고품질 학습을 위해서는 이미지-텍스트 쌍에 단어·줄·문단 단위의 정밀 경계 상자(Bounding Box)와 읽기 순서 정보까지 수동으로 주석(Annotation)을 달아야 한다. 수백만 장 규모에서 이를 수작업으로 처리하는 것은 비용과 시간 모두 현실적이지 않다.
기존 벤치마크 데이터셋인 ICDAR나 Total-Text는 레이블 품질은 높지만 규모가 수만 장 수준에 머물고, 영어·중국어에 편중돼 있다. 웹에서 수집한 PDF는 양은 많지만 텍스트 레이어가 불완전하거나 스캔 이미지에 저품질 OCR 결과물이 혼재해 신뢰도가 낮다.
합성 데이터는 이 두 가지 한계를 동시에 해결한다. 텍스트를 이미지에 프로그래밍 방식으로 렌더링하면 경계 상자·전사(Transcription)·읽기 순서 모두 '정확히 알고 있는' 상태로 생성되기 때문이다. 관건은 현실감(Realism)이다. 폰트, 색상, 배경, 레이아웃, 증강(Augmentation)을 충분히 다양화해야 실제 문서에 대한 일반화 능력이 확보된다.
이전 버전과 무엇이 달라졌나
| 항목 | Nemotron OCR v1 | Nemotron OCR v2 | 변화 |
|---|---|---|---|
| 지원 언어 | 영어 중심 | 6개 언어(영어·일어·한국어·러시아어·중국어 등) | 다국어로 확장 |
| 지원 문자 수 | 855자 | 14,244자 | CJK·키릴 문자 포함 |
| 학습 데이터 | 제한적 | 1,200만 장 합성 이미지 | 대규모 합성 데이터 |
| 비영어 NED 점수 | 0.56~0.92 | 0.035~0.069 | 최대 94% 개선 |
| 처리 속도 | 미공개 | 34.7페이지/초 (A100 1장) | 공유 백본 구조 도입 |
| 아키텍처 | 독립 모듈 | 탐지·인식·관계 모델 공유 백본 | 중복 연산 제거 |
v1에서 v2로의 전환에서 핵심은 '아키텍처 개선'이 아니라 '데이터 문제 해결'이었다. 엔비디아 연구팀은 v1의 문자 집합을 14,244자로 확장하는 실험을 먼저 진행했지만, 학습 데이터 없이 문자 집합만 늘리는 것은 효과가 미미했다고 밝혔다. 모델이 해당 문자들의 시각적 특성을 학습한 적이 없었기 때문이다.

이 흐름은 언제부터: OCR과 합성 데이터의 교차점
문서 인식(Document AI) 분야에서 합성 데이터의 활용은 2010년대 중반부터 본격화됐다. 딥마인드(DeepMind)의 SynthText(2016)와 같이 자연 장면에 텍스트를 합성하는 연구가 문자 탐지 분야에서 먼저 성과를 보였고, 이후 문서 이해 모델 훈련으로 확장됐다.
2022년 NAVER의 SynthDoG는 다국어 문서 이미지 합성 파이프라인을 공개해 주목받았다. 그러나 당시까지도 합성 데이터만으로 실제 문서 수준의 정확도를 달성하기는 어려웠다. 엔비디아의 이번 발표는 렌더링 엔진의 다양성과 무작위화 수준이 충분히 높아졌을 때 합성 데이터만으로도 실용적인 다국어 OCR이 가능함을 보여준 사례다.
대규모 언어 모델(LLM, Large Language Model)의 확산이 이 흐름을 가속했다. 문서에서 텍스트를 추출해 LLM에 입력하는 파이프라인이 일반화되면서, OCR 품질이 하류(Downstream) 작업 전체의 성패를 좌우하는 구조가 됐다. 특히 비영어권 기업용 문서 처리 수요가 급증하면서 다국어 OCR의 중요성은 더욱 커졌다.
[전문가 분석] 향후 전망과 시사점
이번 공개에서 주목해야 할 점은 모델뿐 아니라 파이프라인 자체가 공개됐다는 것이다. 연구팀은 합성 데이터 파이프라인이 폰트와 소스 텍스트만 있으면 어떤 언어로도 확장 가능하도록 설계됐다고 밝혔다. 이는 특정 언어 데이터셋이 부족한 중소 언어권 연구자에게 실질적인 진입 장벽 해소로 작용할 가능성이 높다.
속도 면에서도 시사점이 크다. A100 단일 GPU에서 34.7페이지/초는 기업 환경의 대량 문서 처리(Batch Processing)에 실용적인 수준이다. 탐지(Detection)·인식(Recognition)·관계(Relational) 모델이 백본(Backbone)을 공유하는 구조는 중복 연산을 제거해 이 속도를 가능하게 했다.
다만 합성 데이터 기반 모델의 한계도 존재한다. 손글씨, 이미지 왜곡이 심한 역사 문서, 특수 도메인 전문 용어 등 합성 데이터로 충분히 커버하기 어려운 분포(Distribution)에서의 성능은 추가 검증이 필요하다. 또한 NED 점수가 개선됐어도 실제 비즈니스 문서 파이프라인에서의 성능은 문서 유형별 세부 평가가 따라야 한다.
향후 이 모델은 엔터프라이즈 문서 처리, RAG(Retrieval-Augmented Generation) 파이프라인의 전처리 단계, 다국어 디지털 아카이브 구축 등에 폭넓게 활용될 가능성이 높다. 오픈소스로 공개된 데이터셋과 모델이 커뮤니티 기반의 추가 언어 확장으로 이어질지 주목된다.

댓글 (56)
엔비디아에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다. 해외 동향도 함께 다뤄주시면 좋겠습니다.
북마크해두겠습니다. 합성에 대해 처음 접하는 정보가 있었습니다.
데이터로 주제로 시리즈 기사가 나오면 좋겠습니다.
이런 시각도 있었군요. Nemotron-OCR 관련 데이터가 인상적이었습니다. 전문가 의견도 더 듣고 싶습니다.
읽기 좋은 기사입니다. OCR 관련 배경 설명이 이해하기 쉬웠습니다.
댓글 보는 재미도 있네요.
북마크해두겠습니다. 합성 관련 배경 설명이 이해하기 쉬웠습니다. 전문가 의견도 더 듣고 싶습니다.
깔끔한 기사입니다. 데이터로에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다.
깔끔한 기사입니다. Nemotron-OCR의 향후 전망이 궁금합니다. 잘 정리된 기사네요.
OCR 기사에서 언급된 사례가 흥미로웠습니다.
엔비디아이 일상에 어떤 영향을 줄지 생각해보게 됩니다. 다른 시각의 분석도 읽어보고 싶습니다.
잘 읽었습니다. 합성 기사에서 언급된 사례가 흥미로웠습니다.
데이터로에 대해 주변 사람들과 이야기 나눠볼 만합니다. 좋은 기사 감사합니다.
매일 여기서 뉴스 보고 있어요.
OCR 관련 배경 설명이 이해하기 쉬웠습니다. 다른 시각의 분석도 읽어보고 싶습니다.
엔비디아 관련 배경 설명이 이해하기 쉬웠습니다. 전문가 의견도 더 듣고 싶습니다.
북마크해두겠습니다. 합성의 전문가 코멘트가 설득력 있었습니다. 다른 시각의 분석도 읽어보고 싶습니다.
데이터로의 전문가 코멘트가 설득력 있었습니다. 해외 동향도 함께 다뤄주시면 좋겠습니다.
Nemotron-OCR 관련 데이터가 인상적이었습니다.
OCR이 일상에 어떤 영향을 줄지 생각해보게 됩니다. 좋은 기사 감사합니다.
좋은 정리입니다. 엔비디아에 대해 더 알고 싶어졌습니다.
몰랐던 사실을 알게 됐습니다. 합성에 대해 주변 사람들과 이야기 나눠볼 만합니다. 좋은 기사 감사합니다.
읽기 좋은 기사입니다. 데이터로의 향후 전망이 궁금합니다.
Nemotron-OCR이 일상에 어떤 영향을 줄지 생각해보게 됩니다.
OCR이 앞으로 어떻게 전개될지 주목해야겠습니다. 잘 정리된 기사네요.
북마크해두겠습니다. 엔비디아이 일상에 어떤 영향을 줄지 생각해보게 됩니다. 전문가 의견도 더 듣고 싶습니다.
합성의 전문가 코멘트가 설득력 있었습니다. 잘 정리된 기사네요.
데이터로에 대해 더 알고 싶어졌습니다.
아침에 읽기 딱 좋은 분량이에요.
OCR 관련 해외 동향도 궁금합니다.
요즘 이 매체 기사가 제일 읽기 좋아요.
합성에 대해 처음 접하는 정보가 있었습니다. 전문가 의견도 더 듣고 싶습니다.
이런 시각도 있었군요. 데이터로이 앞으로 어떻게 전개될지 주목해야겠습니다.
Nemotron-OCR 관련 배경 설명이 이해하기 쉬웠습니다.
깔끔한 기사입니다. OCR에 대해 주변 사람들과 이야기 나눠볼 만합니다.
흥미로운 주제입니다. 엔비디아의 향후 전망이 궁금합니다. 전문가 의견도 더 듣고 싶습니다.
합성 관련 해외 동향도 궁금합니다. 다른 시각의 분석도 읽어보고 싶습니다.
데이터로 관련 데이터가 인상적이었습니다.
북마크해두겠습니다. Nemotron-OCR 관련 해외 동향도 궁금합니다.
좋은 정리입니다. OCR에 대해 더 알고 싶어졌습니다. 전문가 의견도 더 듣고 싶습니다.
유익한 기사네요. 엔비디아에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다. 계속 지켜봐야겠습니다.
합성 주제로 시리즈 기사가 나오면 좋겠습니다. 해외 동향도 함께 다뤄주시면 좋겠습니다.
데이터로 관련 해외 동향도 궁금합니다. 잘 정리된 기사네요.
Nemotron-OCR에 대해 주변 사람들과 이야기 나눠볼 만합니다.
OCR에 대해 더 알고 싶어졌습니다.
다른 기사도 기대하겠습니다.
합성에 대해 더 알고 싶어졌습니다.
참고가 됩니다. 데이터로 기사에서 언급된 사례가 흥미로웠습니다.
Nemotron-OCR 기사에서 언급된 사례가 흥미로웠습니다.
OCR이 앞으로 어떻게 전개될지 주목해야겠습니다. 좋은 기사 감사합니다.
잘 읽었습니다. 엔비디아이 앞으로 어떻게 전개될지 주목해야겠습니다.
구독 중인데 만족합니다.
이런 시각도 있었군요. 데이터로 관련 배경 설명이 이해하기 쉬웠습니다. 잘 정리된 기사네요.
깔끔한 기사입니다. Nemotron-OCR 주제로 시리즈 기사가 나오면 좋겠습니다.
객관적인 시각이 돋보이는 기사입니다.
엔비디아 관련 해외 동향도 궁금합니다.
이 시리즈의 다른 기사
AI·테크 더보기
최신 뉴스

공포에 사고 탐욕에 팔았다…개미, 코스피 '오천피' 수호한 일등공신
동학개미가 외국인 매도 물량을 흡수하며 코스피 5000선 방어에 핵심 역할

이란 전쟁發 에너지 위기, EU 스태그플레이션 경계선에 서다
IMF가 이란 전쟁發 에너지 위기로 EU 경기침체 가능성을 경고했다.

美 ICE 대행 국장 토드 라이언스, 5월 말 사임 예정
미 ICE 대행 국장 토드 라이언스, DHS 발표로 5월 말 사임 공식화

트럼프 '해상봉쇄 유지'…이란, 호르무즈 완전 개방 선언
트럼프, 이란 해상봉쇄 유지 재확인…이스라엘 레바논 추가 폭격 없을 것 언급

호르무즈 봉쇄가 바꾼 에너지 지도, 재생에너지 전환 가속
호르무즈 해협 봉쇄로 하루 1,300만 배럴 원유 공급이 차질을 빚으며 유가가 급등했다.

호르무즈 재개방 선언에도 파나마 운하 적체 해소 '요원'
이란이 호르무즈 해협 완전 개방을 선언했지만 미 해군 봉쇄는 유지됐다.

호르무즈 해협 재개방에 금값 급등·유가 폭락
이란의 호르무즈 해협 재개방 선언에 금값이 3월 이후 최고치로 상승했다.

이란 '호르무즈 해협 완전 개방' 선언…국제유가 11% 급락
이란이 이스라엘-레바논 휴전 기간 호르무즈 해협을 상업 선박에 완전 개방한다고 선언했다.





