AI・テック

NVIDIAが合成データで構築した多言語OCRモデルを公開

1,200万枚の合成画像で訓練したNemotron OCR v2、非英語言語の認識誤り率を最大94%削減

한서진·2026년 4월 17일 금 07:17·5分で読めます·

Building a Fast Multilingual OCR Model with Synthetic Data

要約

•NVIDIAが6言語にわたる1,200万枚の合成画像で訓練した多言語OCRモデルNemotron OCR v2を公開した。
•非英語言語のNED誤り率が0.56〜0.92から0.035〜0.069へと最大94%改善された。
•単一A100 GPUで毎秒34.7ページを処理し、データセットとモデルはともにオープンソースで公開されている。

NVIDIAが多言語OCRモデル「Nemotron OCR v2」を公開

NVIDIAが合成データ（Synthetic Data）を活用した多言語光学文字認識（OCR）モデル「Nemotron OCR v2」を公開した。6言語にわたる1,200万枚の合成学習画像で訓練されたこのモデルは、単一のA100 GPUで毎秒34.7ページを処理する速度を実現した。非英語言語における正規化編集距離（NED）スコアは従来の0.56〜0.92から0.035〜0.069へと大幅に改善された。データセットはnvidia/OCR-Synthetic-Multilingual-v1、モデルはnvidia/nemotron-ocr-v2としてHugging Faceで公開されている。

なぜ重要か：合成データがOCRのデータボトルネックを突破

OCRモデル開発における中心的な障壁は常に「データ」だった。高品質な訓練には、単語・行・段落レベルの精密なバウンディングボックスと読み順情報を含む画像テキストペアの手動アノテーションが必要だ。数百万枚規模でこれを手作業で行うことは、経済的にも実務的にも現実的ではない。

ICDARやTotal-Textなどの既存ベンチマークデータセットはラベル品質は高いが規模が数万枚に留まり、英語と中国語に偏っている。WebスクレイピングしたPDFは量は多いが、テキストレイヤーが不完全だったり低品質なOCR結果物が混在していたりと信頼性に欠ける。

合成データはこの二つの限界を同時に解決する。テキストを画像にプログラム的にレンダリングすることで、バウンディングボックス・転写・読み順の関係がすべて「正確に既知」の状態で生成できる。課題は現実感（Realism）だ。フォント、色、背景、レイアウト、拡張（Augmentation）を十分に多様化することで、実際の文書への汎化能力が確保される。

何が変わったか：v1 vs. v2

項目	Nemotron OCR v1	Nemotron OCR v2	変化
対応言語	英語中心	6言語（英・日・韓・露・中等）	多言語へ拡張
文字セット	855文字	14,244文字	CJK・キリル文字を含む
学習データ	限定的	1,200万枚の合成画像	大規模合成データ
非英語NEDスコア	0.56〜0.92	0.035〜0.069	最大94%改善
処理速度	非公開	34.7ページ/秒（A100×1）	共有バックボーン構造導入
アーキテクチャ	独立モジュール	検出・認識・関係モデルで共有バックボーン	冗長計算を排除

v1からv2への移行は、アーキテクチャ改善ではなく「データ問題の解決」が本質だった。NVIDIAの研究チームはまず文字セットを14,244文字に拡張する実験を行ったが、対応する学習データなしでは改善は限定的だった。モデルは理論上正しい文字を出力できても、それらの視覚的特性を学習したことがなかった。

歴史的な流れ：OCRと合成データの交差点

Document AIにおける合成データの活用は2010年代半ばから本格化した。DeepMindのSynthText（2016）が文字検出タスクでシーンへのテキスト合成を先駆け、後にドキュメント理解モデルの訓練へと拡張された。NAVERのSynthDoG（2022）は多言語文書画像合成パイプラインを公開して注目を集めたが、当時は合成データのみで実際の文書レベルの精度を達成することは依然として困難だった。

NVIDIAの今回の発表は、レンダリングエンジンの多様性と無作為化のレベルが十分に高い場合、合成データのみでも実用的な多言語OCRが実現可能であることを示した事例だ。大規模言語モデル（LLM）の急速な普及がこの流れを加速させ、文書からテキストを抽出してLLMに入力するパイプラインが一般化するにつれ、多言語OCRの重要性はさらに高まっている。

[専門家分析] 今後の展望と示唆

今回の公開で注目すべきは、モデルだけでなくパイプライン自体が公開されたことだ。研究チームは合成データパイプラインがフォントとソーステキストさえあれば任意の言語に拡張可能な設計だと述べており、リソースが少ない言語圏の研究者にとって参入障壁の実質的な低減となる可能性が高い。

速度面でも示唆は大きい。A100単一GPUで毎秒34.7ページは、企業環境での大量文書処理（バッチ処理）に実用的なレベルだ。検出・認識・関係モデルがバックボーンを共有する構造は冗長計算を排除し、この速度を可能にしている。

ただし合成データベースモデルの限界も存在する。手書き文字、著しく劣化した歴史的文書、専門ドメイン用語など、合成データで十分にカバーしにくい分布での性能は追加検証が必要だ。Nemotron OCR v2は企業文書処理、RAG（検索拡張生成）パイプラインの前処理、多言語デジタルアーカイブ構築などに幅広く活用される可能性が高い。オープンソース公開がコミュニティ主導の追加言語拡張につながるかが今後の注目点となる。

#nvidia-series #Nemotron-OCR #OCR #합성데이터 #다국어AI #문서AI #LLM

대전의탐험가방금 전

이런 시각도 있었군요. Nemotron-OCR 주제로 시리즈 기사가 나오면 좋겠습니다.

아침의연구자방금 전

다른 기사도 기대하겠습니다.

부산의부엉이5분 전

기사 잘 읽었습니다.

열정적인러너5분 전

유익한 기사네요. OCR에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다.

용감한구름12분 전

Nemotron-OCR 주제로 시리즈 기사가 나오면 좋겠습니다. 잘 정리된 기사네요.

다정한드리머12분 전

매일 여기서 뉴스 보고 있어요.

강남의아메리카노30분 전

북마크해두겠습니다. Nemotron-OCR 관련 데이터가 인상적이었습니다. 생각이 바뀌었습니다.

부산의여행자1시간 전

OCR에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다. 나중에 다시 읽어볼 만합니다.

성수의비평가1시간 전

Nemotron-OCR 기사에서 언급된 사례가 흥미로웠습니다.

제주의별2시간 전

흥미로운 주제입니다. OCR이 앞으로 어떻게 전개될지 주목해야겠습니다. 나중에 다시 읽어볼 만합니다.

꼼꼼한다람쥐2시간 전

Nemotron-OCR 주제로 시리즈 기사가 나오면 좋겠습니다. 좋은 기사 감사합니다.

한밤의다람쥐3시간 전

몰랐던 사실을 알게 됐습니다. OCR 기사에서 언급된 사례가 흥미로웠습니다. 후속 기사 부탁드립니다.

겨울의녹차5시간 전

잘 읽었습니다. Nemotron-OCR에 대해 처음 접하는 정보가 있었습니다.

한밤의부엉이5시간 전

잘 읽었습니다. OCR에 대해 처음 접하는 정보가 있었습니다. 다른 시각의 분석도 읽어보고 싶습니다.

제주의첼로8시간 전

Nemotron-OCR이 앞으로 어떻게 전개될지 주목해야겠습니다.

햇살의부엉이8시간 전

잘 읽었습니다. OCR의 향후 전망이 궁금합니다.

가을의기록자

흥미로운 주제입니다. Nemotron-OCR 관련 용어 설명이 친절해서 좋았습니다.

このシリーズの他の記事

IEA 경고: 데이터센터 전력 소비, 2030년까지 두 배…AI가 에너지 위기 촉발

2026/4/17

젠슨 황 "앤트로픽 투자 못 한 건 내 실수"…구글·아마존 칩 위협론은 일축

2026/4/16

カプコン『PRAGMATA』、発売日当日にGeForce NOWでストリーミング開始

2026/4/16

테슬라 AI5 칩 설계 완료…AI4 대비 8배 성능, 2027년 양산

2026/4/15

NVIDIA「AIインフラのコストはトークン単価だけで評価すべき」

2026/4/15

AI・テックの記事をもっと見る

AMD MI450, Anthropic 계약 임박…엔비디아 독주에 균열 생기나

ArayoNews

NVIDIAが合成データで構築した多言語OCRモデルを公開

NVIDIAが多言語OCRモデル「Nemotron OCR v2」を公開

なぜ重要か：合成データがOCRのデータボトルネックを突破

何が変わったか：v1 vs. v2

歴史的な流れ：OCRと合成データの交差点

[専門家分析] 今後の展望と示唆

댓글 (17)

このシリーズの他の記事

AI・テックの記事をもっと見る

AMD MI450, Anthropic 계약 임박…엔비디아 독주에 균열 생기나

아마존, AWS AI 연매출 150억 달러 첫 공개… 2,000억 달러 투자 정당화 나섰다

TSMC, 3개 대륙 3나노 팹 동시 확장…AI 수요가 반도체 지형을 바꾼다

IEA 경고: 데이터센터 전력 소비, 2030년까지 두 배…AI가 에너지 위기 촉발

TSMC, 1nm 벽을 넘는다… 2030년 '앙스트롬 시대' 개막

Anthropic·OpenAI, '상시 작동' AI 코딩 에이전트 패권 경쟁

最新ニュース

恐怖で買い、強欲で売る——個人投資家がKOSPI5000を死守した立役者に

중국 스마트폰 시장 침체 속 애플 아이폰 출하 20% 급증

이란 전쟁發 에너지 위기, EU 스태그플레이션 경계선에 서다

米ICE長官代行トッド・ライオンズ氏、5月末に辞任へ　国土安全保障省が発表

トランプ氏「海上封鎖は継続」、イランはホルムズ海峡の完全開放を宣言

호르무즈 봉쇄가 바꾼 에너지 지도, 재생에너지 전환 가속

호르무즈 재개방 선언에도 파나마 운하 적체 해소 '요원'

호르무즈 해협 재개방에 금값 급등·유가 폭락

NVIDIAが多言語OCRモデル「Nemotron OCR v2」を公開

なぜ重要か：合成データがOCRのデータボトルネックを突破

何が変わったか：v1 vs. v2

歴史的な流れ：OCRと合成データの交差点

[専門家分析] 今後の展望と示唆

댓글 (17)

このシリーズの他の記事

AI・テックの記事をもっと見る

AMD MI450, Anthropic 계약 임박…엔비디아 독주에 균열 생기나

아마존, AWS AI 연매출 150억 달러 첫 공개… 2,000억 달러 투자 정당화 나섰다

TSMC, 3개 대륙 3나노 팹 동시 확장…AI 수요가 반도체 지형을 바꾼다

IEA 경고: 데이터센터 전력 소비, 2030년까지 두 배…AI가 에너지 위기 촉발

TSMC, 1nm 벽을 넘는다… 2030년 '앙스트롬 시대' 개막

Anthropic·OpenAI, '상시 작동' AI 코딩 에이전트 패권 경쟁

最新ニュース

恐怖で買い、強欲で売る——個人投資家がKOSPI5000を死守した立役者に

중국 스마트폰 시장 침체 속 애플 아이폰 출하 20% 급증

이란 전쟁發 에너지 위기, EU 스태그플레이션 경계선에 서다

米ICE長官代行トッド・ライオンズ氏、5月末に辞任へ 国土安全保障省が発表

トランプ氏「海上封鎖は継続」、イランはホルムズ海峡の完全開放を宣言

호르무즈 봉쇄가 바꾼 에너지 지도, 재생에너지 전환 가속

호르무즈 재개방 선언에도 파나마 운하 적체 해소 '요원'

호르무즈 해협 재개방에 금값 급등·유가 폭락

米ICE長官代行トッド・ライオンズ氏、5月末に辞任へ　国土安全保障省が発表