IA y Tecnología

NVIDIA lanza modelo OCR multilingüe construido con datos sintéticos

Nemotron OCR v2, entrenado con 12 millones de imágenes sintéticas, reduce la tasa de error en idiomas no ingleses hasta un 94%

한서진·2026년 4월 17일 금 07:17·5 min de lectura·

Building a Fast Multilingual OCR Model with Synthetic Data

Resumen

•NVIDIA lanzó Nemotron OCR v2, entrenado con 12 millones de imágenes sintéticas en seis idiomas.
•Las tasas de error NED en idiomas no ingleses bajaron de 0,56–0,92 a 0,035–0,069, una mejora de hasta el 94%.
•El modelo procesa 34,7 páginas por segundo en una sola GPU A100; tanto el conjunto de datos como el modelo son de código abierto.

NVIDIA presenta 'Nemotron OCR v2', modelo OCR multilingüe

NVIDIA ha lanzado Nemotron OCR v2, un modelo de reconocimiento óptico de caracteres (OCR) multilingüe basado en datos sintéticos. Entrenado con 12 millones de imágenes sintéticas en seis idiomas, el modelo alcanza 34,7 páginas por segundo en una sola GPU A100. Las puntuaciones de Distancia de Edición Normalizada (NED) para idiomas no ingleses mejoraron de 0,56–0,92 a 0,035–0,069. El conjunto de datos está disponible en nvidia/OCR-Synthetic-Multilingual-v1 y el modelo en nvidia/nemotron-ocr-v2 en Hugging Face.

Por qué importa: los datos sintéticos rompen el cuello de botella del OCR

La principal barrera en el desarrollo de modelos OCR siempre ha sido los datos. El entrenamiento de alta calidad requiere pares imagen-texto anotados con cajas delimitadoras precisas a nivel de palabra, línea y párrafo, junto con información del orden de lectura. Hacerlo manualmente a escala de millones de imágenes no es económicamente ni prácticamente viable.

Los conjuntos de datos de referencia existentes como ICDAR y Total-Text ofrecen etiquetas limpias pero tienen escala limitada, sesgados hacia el inglés y el chino. Los PDFs extraídos de la web proporcionan volumen, pero sus capas de texto suelen ser incompletas o contaminadas con resultados OCR de baja calidad.

Los datos sintéticos resuelven ambas limitaciones simultáneamente. Al renderizar texto en imágenes de forma programática, cada caja delimitadora, transcripción y relación de orden de lectura se conoce con exactitud. El desafío clave es el realismo: se requiere suficiente diversidad en fuentes, colores, fondos, diseños y aumentaciones para que el modelo generalice a documentos del mundo real.

Qué cambió: v1 vs. v2

Elemento	Nemotron OCR v1	Nemotron OCR v2	Cambio
Soporte de idiomas	Centrado en inglés	6 idiomas (EN, JA, KO, RU, ZH, etc.)	Expandido a multilingüe
Conjunto de caracteres	855 caracteres	14.244 caracteres	CJK + cirílico incluidos
Datos de entrenamiento	Limitados	12M imágenes sintéticas	Datos sintéticos a gran escala
NED no inglés	0,56–0,92	0,035–0,069	Mejora de hasta el 94%
Rendimiento	No disponible	34,7 pág/seg (1× A100)	Arquitectura de backbone compartido
Arquitectura	Módulos independientes	Backbone compartido para detección, reconocimiento y relacional	Cómputo redundante eliminado

El paso de v1 a v2 consistió fundamentalmente en resolver un problema de datos, no de arquitectura. El equipo de NVIDIA intentó primero ampliar el conjunto de caracteres a 14.244 sin datos de entrenamiento correspondientes: las mejoras fueron marginales. El modelo podía teóricamente producir los caracteres correctos, pero nunca había aprendido cómo se veían.

Hilo histórico: OCR y datos sintéticos

El uso de datos sintéticos en Document AI ganó impulso a mediados de la década de 2010. SynthText de DeepMind (2016) fue pionero en la síntesis de texto en escenas para tareas de detección. SynthDoG de NAVER (2022) introdujo un pipeline de síntesis de imágenes de documentos multilingüe que atrajo gran atención, aunque lograr precisión a nivel real solo con datos sintéticos seguía siendo difícil.

El lanzamiento de NVIDIA demuestra que cuando la diversidad y la aleatorización del motor de renderizado son suficientemente altas, el entrenamiento solo con datos sintéticos puede producir OCR multilingüe viable en la práctica. La explosión de los Modelos de Lenguaje de Gran Escala (LLM) ha acelerado esta tendencia.

[Análisis de expertos] Implicaciones y perspectivas

Destaca que NVIDIA publicó no solo el modelo sino el pipeline en sí. El equipo afirma que el pipeline de datos sintéticos está diseñado para extenderse a cualquier idioma para el que existan fuentes y texto fuente, lo que reduce significativamente las barreras para investigadores que trabajan con idiomas de menor dotación de recursos.

En cuanto a velocidad, 34,7 páginas por segundo en una sola A100 es viable para el procesamiento masivo de documentos empresariales. La arquitectura de backbone compartido —donde los modelos de detección, reconocimiento y relacional reutilizan características— permite este rendimiento eliminando el cómputo redundante.

Persisten limitaciones: la escritura a mano, documentos históricos muy degradados y terminología de dominio especializado representan distribuciones difíciles de cubrir adecuadamente con datos sintéticos. La adopción de Nemotron OCR v2 en procesamiento de documentos empresariales, pipelines de preprocesamiento RAG y construcción de archivos digitales multilingües parece prometedora.

#nvidia-series #Nemotron-OCR #OCR #합성데이터 #다국어AI #문서AI #LLM

인천의연구자방금 전

NVIDIA의 전문가 코멘트가 설득력 있었습니다. 전문가 의견도 더 듣고 싶습니다.

여름의커피방금 전

lanza이 일상에 어떤 영향을 줄지 생각해보게 됩니다. 나중에 다시 읽어볼 만합니다.

꼼꼼한워커방금 전

유익한 기사네요. modelo에 대해 처음 접하는 정보가 있었습니다.

새벽의녹차5분 전

Nemotron-OCR의 향후 전망이 궁금합니다.

서울의독자5분 전

OCR 관련 데이터가 인상적이었습니다. 전문가 의견도 더 듣고 싶습니다.

아침의크리에이터12분 전

NVIDIA 관련 해외 동향도 궁금합니다. 계속 지켜봐야겠습니다.

용감한판다12분 전

lanza 관련 데이터가 인상적이었습니다.

신중한토끼12분 전

modelo에 대해 주변 사람들과 이야기 나눠볼 만합니다. 계속 지켜봐야겠습니다.

바닷가의피아노30분 전

Nemotron-OCR 관련 배경 설명이 이해하기 쉬웠습니다.

제주의관찰자30분 전

유익한 기사네요. OCR 관련 해외 동향도 궁금합니다. 생각이 바뀌었습니다.

겨울의고양이1시간 전

읽기 좋은 기사입니다. NVIDIA 관련 통계가 의외였습니다. 나중에 다시 읽어볼 만합니다.

다정한리더1시간 전

정리가 깔끔하네요.

홍대의라떼1시간 전

잘 읽었습니다. modelo의 전문가 코멘트가 설득력 있었습니다. 계속 지켜봐야겠습니다.

여름의탐험가2시간 전

읽기 좋은 기사입니다. Nemotron-OCR에 대해 처음 접하는 정보가 있었습니다.

조용한관찰자2시간 전

OCR이 앞으로 어떻게 전개될지 주목해야겠습니다.

카페의기타3시간 전

북마크해두겠습니다. NVIDIA 관련 용어 설명이 친절해서 좋았습니다. 다른 시각의 분석도 읽어보고 싶습니다.

저녁의분석가3시간 전

잘 보고 있습니다.

인천의커피3시간 전

modelo 관련 해외 동향도 궁금합니다. 나중에 다시 읽어볼 만합니다.

인천의독자5시간 전

깔끔한 기사입니다. Nemotron-OCR 관련 해외 동향도 궁금합니다. 해외 동향도 함께 다뤄주시면 좋겠습니다.

느긋한사색가5시간 전

깔끔한 기사입니다. OCR의 향후 전망이 궁금합니다. 잘 정리된 기사네요.

산속의별8시간 전

NVIDIA이 앞으로 어떻게 전개될지 주목해야겠습니다.

부지런한해8시간 전

읽기 좋은 기사입니다. lanza 주제로 시리즈 기사가 나오면 좋겠습니다. 해외 동향도 함께 다뤄주시면 좋겠습니다.

비오는날시민8시간 전

modelo 관련 통계가 의외였습니다.

공원의리더

Nemotron-OCR 관련 통계가 의외였습니다. 다른 시각의 분석도 읽어보고 싶습니다.

현명한커피

유익한 기사네요. OCR이 앞으로 어떻게 전개될지 주목해야겠습니다.

Más de esta serie

IEA 경고: 데이터센터 전력 소비, 2030년까지 두 배…AI가 에너지 위기 촉발

17/4/2026

Jensen Huang: "No invertir en Anthropic fue mi error"...rechaza la teoría de amenaza de chips de Google y Amazon

16/4/2026

'PRAGMATA' de Capcom llega a GeForce NOW el día de su lanzamiento

16/4/2026

테슬라 AI5 칩 설계 완료…AI4 대비 8배 성능, 2027년 양산

15/4/2026

NVIDIA: El costo por token es la única métrica que importa en infraestructura de IA

15/4/2026

Más en IA y Tecnología

AMD MI450, Anthropic 계약 임박…엔비디아 독주에 균열 생기나

Últimas noticias

Economía

Comprar con miedo, vender con codicia: los inversores minoristas defienden el KOSPI 5000

Las Hormigas Donghak absorben las ventas extranjeras y defienden el nivel KOSPI 5000

2시간 전

Economía

중국 스마트폰 시장 침체 속 애플 아이폰 출하 20% 급증

애플 아이폰의 중국 1분기 출하량이 전년 대비 20% 급증해 주요 업체 중 최고 성장률을 기록했다.

3시간 전

Economía

이란 전쟁發 에너지 위기, EU 스태그플레이션 경계선에 서다

IMF가 이란 전쟁發 에너지 위기로 EU 경기침체 가능성을 경고했다.

3시간 전

Global

El director en funciones del ICE, Todd Lyons, renunciará a finales de mayo, confirma el DHS

El DHS confirma que el director en funciones del ICE, Todd Lyons, renunciará a finales de mayo

3시간 전

Global

Trump mantiene el bloqueo naval mientras Irán anuncia la apertura total del estrecho de Ormuz

Trump reafirma el bloqueo naval contra Irán y dice que Israel no atacará Líbano

3시간 전

Global

호르무즈 봉쇄가 바꾼 에너지 지도, 재생에너지 전환 가속

호르무즈 해협 봉쇄로 하루 1,300만 배럴 원유 공급이 차질을 빚으며 유가가 급등했다.

3시간 전

Economía

호르무즈 재개방 선언에도 파나마 운하 적체 해소 '요원'

이란이 호르무즈 해협 완전 개방을 선언했지만 미 해군 봉쇄는 유지됐다.

4시간 전

Economía

호르무즈 해협 재개방에 금값 급등·유가 폭락

이란의 호르무즈 해협 재개방 선언에 금값이 3월 이후 최고치로 상승했다.

4시간 전

ArayoNews

NVIDIA lanza modelo OCR multilingüe construido con datos sintéticos

NVIDIA presenta 'Nemotron OCR v2', modelo OCR multilingüe

Por qué importa: los datos sintéticos rompen el cuello de botella del OCR

Qué cambió: v1 vs. v2

Hilo histórico: OCR y datos sintéticos

[Análisis de expertos] Implicaciones y perspectivas

댓글 (25)

Más de esta serie

Más en IA y Tecnología

AMD MI450, Anthropic 계약 임박…엔비디아 독주에 균열 생기나

아마존, AWS AI 연매출 150억 달러 첫 공개… 2,000억 달러 투자 정당화 나섰다

TSMC, 3개 대륙 3나노 팹 동시 확장…AI 수요가 반도체 지형을 바꾼다

IEA 경고: 데이터센터 전력 소비, 2030년까지 두 배…AI가 에너지 위기 촉발

TSMC, 1nm 벽을 넘는다… 2030년 '앙스트롬 시대' 개막

Anthropic·OpenAI, '상시 작동' AI 코딩 에이전트 패권 경쟁

Últimas noticias

Comprar con miedo, vender con codicia: los inversores minoristas defienden el KOSPI 5000

중국 스마트폰 시장 침체 속 애플 아이폰 출하 20% 급증

이란 전쟁發 에너지 위기, EU 스태그플레이션 경계선에 서다

El director en funciones del ICE, Todd Lyons, renunciará a finales de mayo, confirma el DHS

Trump mantiene el bloqueo naval mientras Irán anuncia la apertura total del estrecho de Ormuz

호르무즈 봉쇄가 바꾼 에너지 지도, 재생에너지 전환 가속

호르무즈 재개방 선언에도 파나마 운하 적체 해소 '요원'

호르무즈 해협 재개방에 금값 급등·유가 폭락