IA y Tecnología

NVIDIA lanza modelo OCR multilingüe construido con datos sintéticos

Nemotron OCR v2, entrenado con 12 millones de imágenes sintéticas, reduce la tasa de error en idiomas no ingleses hasta un 94%

한서진··5 min de lectura·
Building a Fast Multilingual OCR Model with Synthetic Data
Resumen
  • NVIDIA lanzó Nemotron OCR v2, entrenado con 12 millones de imágenes sintéticas en seis idiomas.
  • Las tasas de error NED en idiomas no ingleses bajaron de 0,56–0,92 a 0,035–0,069, una mejora de hasta el 94%.
  • El modelo procesa 34,7 páginas por segundo en una sola GPU A100; tanto el conjunto de datos como el modelo son de código abierto.

NVIDIA presenta 'Nemotron OCR v2', modelo OCR multilingüe

NVIDIA ha lanzado Nemotron OCR v2, un modelo de reconocimiento óptico de caracteres (OCR) multilingüe basado en datos sintéticos. Entrenado con 12 millones de imágenes sintéticas en seis idiomas, el modelo alcanza 34,7 páginas por segundo en una sola GPU A100. Las puntuaciones de Distancia de Edición Normalizada (NED) para idiomas no ingleses mejoraron de 0,56–0,92 a 0,035–0,069. El conjunto de datos está disponible en nvidia/OCR-Synthetic-Multilingual-v1 y el modelo en nvidia/nemotron-ocr-v2 en Hugging Face.

Por qué importa: los datos sintéticos rompen el cuello de botella del OCR

La principal barrera en el desarrollo de modelos OCR siempre ha sido los datos. El entrenamiento de alta calidad requiere pares imagen-texto anotados con cajas delimitadoras precisas a nivel de palabra, línea y párrafo, junto con información del orden de lectura. Hacerlo manualmente a escala de millones de imágenes no es económicamente ni prácticamente viable.

Los conjuntos de datos de referencia existentes como ICDAR y Total-Text ofrecen etiquetas limpias pero tienen escala limitada, sesgados hacia el inglés y el chino. Los PDFs extraídos de la web proporcionan volumen, pero sus capas de texto suelen ser incompletas o contaminadas con resultados OCR de baja calidad.

Los datos sintéticos resuelven ambas limitaciones simultáneamente. Al renderizar texto en imágenes de forma programática, cada caja delimitadora, transcripción y relación de orden de lectura se conoce con exactitud. El desafío clave es el realismo: se requiere suficiente diversidad en fuentes, colores, fondos, diseños y aumentaciones para que el modelo generalice a documentos del mundo real.

Qué cambió: v1 vs. v2

ElementoNemotron OCR v1Nemotron OCR v2Cambio
Soporte de idiomasCentrado en inglés6 idiomas (EN, JA, KO, RU, ZH, etc.)Expandido a multilingüe
Conjunto de caracteres855 caracteres14.244 caracteresCJK + cirílico incluidos
Datos de entrenamientoLimitados12M imágenes sintéticasDatos sintéticos a gran escala
NED no inglés0,56–0,920,035–0,069Mejora de hasta el 94%
RendimientoNo disponible34,7 pág/seg (1× A100)Arquitectura de backbone compartido
ArquitecturaMódulos independientesBackbone compartido para detección, reconocimiento y relacionalCómputo redundante eliminado

El paso de v1 a v2 consistió fundamentalmente en resolver un problema de datos, no de arquitectura. El equipo de NVIDIA intentó primero ampliar el conjunto de caracteres a 14.244 sin datos de entrenamiento correspondientes: las mejoras fueron marginales. El modelo podía teóricamente producir los caracteres correctos, pero nunca había aprendido cómo se veían.

Hilo histórico: OCR y datos sintéticos

El uso de datos sintéticos en Document AI ganó impulso a mediados de la década de 2010. SynthText de DeepMind (2016) fue pionero en la síntesis de texto en escenas para tareas de detección. SynthDoG de NAVER (2022) introdujo un pipeline de síntesis de imágenes de documentos multilingüe que atrajo gran atención, aunque lograr precisión a nivel real solo con datos sintéticos seguía siendo difícil.

El lanzamiento de NVIDIA demuestra que cuando la diversidad y la aleatorización del motor de renderizado son suficientemente altas, el entrenamiento solo con datos sintéticos puede producir OCR multilingüe viable en la práctica. La explosión de los Modelos de Lenguaje de Gran Escala (LLM) ha acelerado esta tendencia.

[Análisis de expertos] Implicaciones y perspectivas

Destaca que NVIDIA publicó no solo el modelo sino el pipeline en sí. El equipo afirma que el pipeline de datos sintéticos está diseñado para extenderse a cualquier idioma para el que existan fuentes y texto fuente, lo que reduce significativamente las barreras para investigadores que trabajan con idiomas de menor dotación de recursos.

En cuanto a velocidad, 34,7 páginas por segundo en una sola A100 es viable para el procesamiento masivo de documentos empresariales. La arquitectura de backbone compartido —donde los modelos de detección, reconocimiento y relacional reutilizan características— permite este rendimiento eliminando el cómputo redundante.

Persisten limitaciones: la escritura a mano, documentos históricos muy degradados y terminología de dominio especializado representan distribuciones difíciles de cubrir adecuadamente con datos sintéticos. La adopción de Nemotron OCR v2 en procesamiento de documentos empresariales, pipelines de preprocesamiento RAG y construcción de archivos digitales multilingües parece prometedora.

Compartir

댓글 (25)

인천의연구자방금 전

NVIDIA의 전문가 코멘트가 설득력 있었습니다. 전문가 의견도 더 듣고 싶습니다.

여름의커피방금 전

lanza이 일상에 어떤 영향을 줄지 생각해보게 됩니다. 나중에 다시 읽어볼 만합니다.

꼼꼼한워커방금 전

유익한 기사네요. modelo에 대해 처음 접하는 정보가 있었습니다.

새벽의녹차5분 전

Nemotron-OCR의 향후 전망이 궁금합니다.

서울의독자5분 전

OCR 관련 데이터가 인상적이었습니다. 전문가 의견도 더 듣고 싶습니다.

아침의크리에이터12분 전

NVIDIA 관련 해외 동향도 궁금합니다. 계속 지켜봐야겠습니다.

용감한판다12분 전

lanza 관련 데이터가 인상적이었습니다.

신중한토끼12분 전

modelo에 대해 주변 사람들과 이야기 나눠볼 만합니다. 계속 지켜봐야겠습니다.

바닷가의피아노30분 전

Nemotron-OCR 관련 배경 설명이 이해하기 쉬웠습니다.

제주의관찰자30분 전

유익한 기사네요. OCR 관련 해외 동향도 궁금합니다. 생각이 바뀌었습니다.

겨울의고양이1시간 전

읽기 좋은 기사입니다. NVIDIA 관련 통계가 의외였습니다. 나중에 다시 읽어볼 만합니다.

다정한리더1시간 전

정리가 깔끔하네요.

홍대의라떼1시간 전

잘 읽었습니다. modelo의 전문가 코멘트가 설득력 있었습니다. 계속 지켜봐야겠습니다.

여름의탐험가2시간 전

읽기 좋은 기사입니다. Nemotron-OCR에 대해 처음 접하는 정보가 있었습니다.

조용한관찰자2시간 전

OCR이 앞으로 어떻게 전개될지 주목해야겠습니다.

카페의기타3시간 전

북마크해두겠습니다. NVIDIA 관련 용어 설명이 친절해서 좋았습니다. 다른 시각의 분석도 읽어보고 싶습니다.

저녁의분석가3시간 전

잘 보고 있습니다.

인천의커피3시간 전

modelo 관련 해외 동향도 궁금합니다. 나중에 다시 읽어볼 만합니다.

인천의독자5시간 전

깔끔한 기사입니다. Nemotron-OCR 관련 해외 동향도 궁금합니다. 해외 동향도 함께 다뤄주시면 좋겠습니다.

느긋한사색가5시간 전

깔끔한 기사입니다. OCR의 향후 전망이 궁금합니다. 잘 정리된 기사네요.

산속의별8시간 전

NVIDIA이 앞으로 어떻게 전개될지 주목해야겠습니다.

부지런한해8시간 전

읽기 좋은 기사입니다. lanza 주제로 시리즈 기사가 나오면 좋겠습니다. 해외 동향도 함께 다뤄주시면 좋겠습니다.

비오는날시민8시간 전

modelo 관련 통계가 의외였습니다.

공원의리더

Nemotron-OCR 관련 통계가 의외였습니다. 다른 시각의 분석도 읽어보고 싶습니다.

현명한커피

유익한 기사네요. OCR이 앞으로 어떻게 전개될지 주목해야겠습니다.

Más de esta serie

Más en IA y Tecnología

Últimas noticias