NVIDIA lanza modelo OCR multilingüe construido con datos sintéticos
Nemotron OCR v2, entrenado con 12 millones de imágenes sintéticas, reduce la tasa de error en idiomas no ingleses hasta un 94%

- •NVIDIA lanzó Nemotron OCR v2, entrenado con 12 millones de imágenes sintéticas en seis idiomas.
- •Las tasas de error NED en idiomas no ingleses bajaron de 0,56–0,92 a 0,035–0,069, una mejora de hasta el 94%.
- •El modelo procesa 34,7 páginas por segundo en una sola GPU A100; tanto el conjunto de datos como el modelo son de código abierto.
NVIDIA presenta 'Nemotron OCR v2', modelo OCR multilingüe
NVIDIA ha lanzado Nemotron OCR v2, un modelo de reconocimiento óptico de caracteres (OCR) multilingüe basado en datos sintéticos. Entrenado con 12 millones de imágenes sintéticas en seis idiomas, el modelo alcanza 34,7 páginas por segundo en una sola GPU A100. Las puntuaciones de Distancia de Edición Normalizada (NED) para idiomas no ingleses mejoraron de 0,56–0,92 a 0,035–0,069. El conjunto de datos está disponible en nvidia/OCR-Synthetic-Multilingual-v1 y el modelo en nvidia/nemotron-ocr-v2 en Hugging Face.
Por qué importa: los datos sintéticos rompen el cuello de botella del OCR
La principal barrera en el desarrollo de modelos OCR siempre ha sido los datos. El entrenamiento de alta calidad requiere pares imagen-texto anotados con cajas delimitadoras precisas a nivel de palabra, línea y párrafo, junto con información del orden de lectura. Hacerlo manualmente a escala de millones de imágenes no es económicamente ni prácticamente viable.
Los conjuntos de datos de referencia existentes como ICDAR y Total-Text ofrecen etiquetas limpias pero tienen escala limitada, sesgados hacia el inglés y el chino. Los PDFs extraídos de la web proporcionan volumen, pero sus capas de texto suelen ser incompletas o contaminadas con resultados OCR de baja calidad.
Los datos sintéticos resuelven ambas limitaciones simultáneamente. Al renderizar texto en imágenes de forma programática, cada caja delimitadora, transcripción y relación de orden de lectura se conoce con exactitud. El desafío clave es el realismo: se requiere suficiente diversidad en fuentes, colores, fondos, diseños y aumentaciones para que el modelo generalice a documentos del mundo real.
Qué cambió: v1 vs. v2
| Elemento | Nemotron OCR v1 | Nemotron OCR v2 | Cambio |
|---|---|---|---|
| Soporte de idiomas | Centrado en inglés | 6 idiomas (EN, JA, KO, RU, ZH, etc.) | Expandido a multilingüe |
| Conjunto de caracteres | 855 caracteres | 14.244 caracteres | CJK + cirílico incluidos |
| Datos de entrenamiento | Limitados | 12M imágenes sintéticas | Datos sintéticos a gran escala |
| NED no inglés | 0,56–0,92 | 0,035–0,069 | Mejora de hasta el 94% |
| Rendimiento | No disponible | 34,7 pág/seg (1× A100) | Arquitectura de backbone compartido |
| Arquitectura | Módulos independientes | Backbone compartido para detección, reconocimiento y relacional | Cómputo redundante eliminado |
El paso de v1 a v2 consistió fundamentalmente en resolver un problema de datos, no de arquitectura. El equipo de NVIDIA intentó primero ampliar el conjunto de caracteres a 14.244 sin datos de entrenamiento correspondientes: las mejoras fueron marginales. El modelo podía teóricamente producir los caracteres correctos, pero nunca había aprendido cómo se veían.
Hilo histórico: OCR y datos sintéticos
El uso de datos sintéticos en Document AI ganó impulso a mediados de la década de 2010. SynthText de DeepMind (2016) fue pionero en la síntesis de texto en escenas para tareas de detección. SynthDoG de NAVER (2022) introdujo un pipeline de síntesis de imágenes de documentos multilingüe que atrajo gran atención, aunque lograr precisión a nivel real solo con datos sintéticos seguía siendo difícil.
El lanzamiento de NVIDIA demuestra que cuando la diversidad y la aleatorización del motor de renderizado son suficientemente altas, el entrenamiento solo con datos sintéticos puede producir OCR multilingüe viable en la práctica. La explosión de los Modelos de Lenguaje de Gran Escala (LLM) ha acelerado esta tendencia.
[Análisis de expertos] Implicaciones y perspectivas
Destaca que NVIDIA publicó no solo el modelo sino el pipeline en sí. El equipo afirma que el pipeline de datos sintéticos está diseñado para extenderse a cualquier idioma para el que existan fuentes y texto fuente, lo que reduce significativamente las barreras para investigadores que trabajan con idiomas de menor dotación de recursos.
En cuanto a velocidad, 34,7 páginas por segundo en una sola A100 es viable para el procesamiento masivo de documentos empresariales. La arquitectura de backbone compartido —donde los modelos de detección, reconocimiento y relacional reutilizan características— permite este rendimiento eliminando el cómputo redundante.
Persisten limitaciones: la escritura a mano, documentos históricos muy degradados y terminología de dominio especializado representan distribuciones difíciles de cubrir adecuadamente con datos sintéticos. La adopción de Nemotron OCR v2 en procesamiento de documentos empresariales, pipelines de preprocesamiento RAG y construcción de archivos digitales multilingües parece prometedora.
댓글 (25)
NVIDIA의 전문가 코멘트가 설득력 있었습니다. 전문가 의견도 더 듣고 싶습니다.
lanza이 일상에 어떤 영향을 줄지 생각해보게 됩니다. 나중에 다시 읽어볼 만합니다.
유익한 기사네요. modelo에 대해 처음 접하는 정보가 있었습니다.
Nemotron-OCR의 향후 전망이 궁금합니다.
OCR 관련 데이터가 인상적이었습니다. 전문가 의견도 더 듣고 싶습니다.
NVIDIA 관련 해외 동향도 궁금합니다. 계속 지켜봐야겠습니다.
lanza 관련 데이터가 인상적이었습니다.
modelo에 대해 주변 사람들과 이야기 나눠볼 만합니다. 계속 지켜봐야겠습니다.
Nemotron-OCR 관련 배경 설명이 이해하기 쉬웠습니다.
유익한 기사네요. OCR 관련 해외 동향도 궁금합니다. 생각이 바뀌었습니다.
읽기 좋은 기사입니다. NVIDIA 관련 통계가 의외였습니다. 나중에 다시 읽어볼 만합니다.
정리가 깔끔하네요.
잘 읽었습니다. modelo의 전문가 코멘트가 설득력 있었습니다. 계속 지켜봐야겠습니다.
읽기 좋은 기사입니다. Nemotron-OCR에 대해 처음 접하는 정보가 있었습니다.
OCR이 앞으로 어떻게 전개될지 주목해야겠습니다.
북마크해두겠습니다. NVIDIA 관련 용어 설명이 친절해서 좋았습니다. 다른 시각의 분석도 읽어보고 싶습니다.
잘 보고 있습니다.
modelo 관련 해외 동향도 궁금합니다. 나중에 다시 읽어볼 만합니다.
깔끔한 기사입니다. Nemotron-OCR 관련 해외 동향도 궁금합니다. 해외 동향도 함께 다뤄주시면 좋겠습니다.
깔끔한 기사입니다. OCR의 향후 전망이 궁금합니다. 잘 정리된 기사네요.
NVIDIA이 앞으로 어떻게 전개될지 주목해야겠습니다.
읽기 좋은 기사입니다. lanza 주제로 시리즈 기사가 나오면 좋겠습니다. 해외 동향도 함께 다뤄주시면 좋겠습니다.
modelo 관련 통계가 의외였습니다.
Nemotron-OCR 관련 통계가 의외였습니다. 다른 시각의 분석도 읽어보고 싶습니다.
유익한 기사네요. OCR이 앞으로 어떻게 전개될지 주목해야겠습니다.
Más de esta serie
Más en IA y Tecnología
Últimas noticias

Comprar con miedo, vender con codicia: los inversores minoristas defienden el KOSPI 5000
Las Hormigas Donghak absorben las ventas extranjeras y defienden el nivel KOSPI 5000

중국 스마트폰 시장 침체 속 애플 아이폰 출하 20% 급증
애플 아이폰의 중국 1분기 출하량이 전년 대비 20% 급증해 주요 업체 중 최고 성장률을 기록했다.

이란 전쟁發 에너지 위기, EU 스태그플레이션 경계선에 서다
IMF가 이란 전쟁發 에너지 위기로 EU 경기침체 가능성을 경고했다.

El director en funciones del ICE, Todd Lyons, renunciará a finales de mayo, confirma el DHS
El DHS confirma que el director en funciones del ICE, Todd Lyons, renunciará a finales de mayo

Trump mantiene el bloqueo naval mientras Irán anuncia la apertura total del estrecho de Ormuz
Trump reafirma el bloqueo naval contra Irán y dice que Israel no atacará Líbano

호르무즈 봉쇄가 바꾼 에너지 지도, 재생에너지 전환 가속
호르무즈 해협 봉쇄로 하루 1,300만 배럴 원유 공급이 차질을 빚으며 유가가 급등했다.

호르무즈 재개방 선언에도 파나마 운하 적체 해소 '요원'
이란이 호르무즈 해협 완전 개방을 선언했지만 미 해군 봉쇄는 유지됐다.

호르무즈 해협 재개방에 금값 급등·유가 폭락
이란의 호르무즈 해협 재개방 선언에 금값이 3월 이후 최고치로 상승했다.





