IA y Tecnología

Un equipo de código abierto entrena modelos de lenguaje de ARNm en 25 especies por 165 dólares

OpenMed publica un pipeline de IA proteica de extremo a extremo; CodonRoBERTa supera a ModernBERT en optimización de codones

장민지·2026년 3월 30일 월 23:23·6 min de lectura·

Training mRNA Language Models Across 25 Species for $165

Resumen

•OpenMed entrenó modelos de lenguaje de ARNm en 25 especies por 165 dólares y 55 horas de GPU.
•CodonRoBERTa-large-v2 alcanzó una perplejidad de 4,10 y una correlación CAI de 0,40, superando a ModernBERT.
•Un pipeline completo de código abierto que conecta predicción de estructura, diseño de secuencia y optimización de codones ya está disponible públicamente.

Del concepto proteico al ADN listo para síntesis en un solo pipeline

OpenMed, una iniciativa de inteligencia artificial médica de código abierto, ha logrado entrenar modelos de lenguaje de ARN mensajero (ARNm) para 25 especies biológicas por tan solo 165 dólares utilizando 55 horas de GPU. El equipo construyó cuatro modelos de producción y entregó un sistema condicionado por especie que ningún otro proyecto de código abierto ofrece actualmente, según una publicación detallada en el blog de Hugging Face.

El logro central del proyecto es que CodonRoBERTa-large-v2 registró una perplejidad de 4,10 y una correlación de Spearman CAI (Índice de Adaptación de Codones) de 0,40 en experimentos de modelado de lenguaje a nivel de codón, superando significativamente a ModernBERT en todas las métricas principales.

Por qué importa la optimización de codones

El código genético es degenerado: la misma proteína puede ser codificada por un número astronómico de secuencias de ADN, pero algunos arreglos de codones se expresan hasta 100 veces más eficientemente que otros. La aplicación real más visible de este principio es la vacuna COVID-19 de Pfizer-BioNTech, cuya secuencia de ARNm fue optimizada por codones para una expresión eficiente en células humanas.

La optimización de codones es un paso esencial en el ARNm terapéutico, vacunas y producción de proteínas recombinantes. Sin embargo, la mayoría de las herramientas existentes dependen de software comercial cerrado o admiten solo una especie. OpenMed se propuso llenar este vacío con una alternativa de código abierto.

Exploración de arquitectura: ¿Qué funciona mejor para los codones?

Los modelos de la familia BERT (ESM-2, ProtTrans) ya dominan la IA proteica. Pero las secuencias de codones tienen propiedades estadísticas distintas al lenguaje natural o las secuencias de aminoácidos: son tripletes extraídos de un alfabeto de 64 tokens, con fuertes dependencias posicionales y sesgos de uso específicos por especie.

El equipo de OpenMed realizó experimentos comparativos en múltiples arquitecturas transformer. CodonRoBERTa-large-v2 emergió como el claro ganador, superando a ModernBERT en todas las métricas clave.

Modelo	Perplejidad	Correlación Spearman CAI	Notas
CodonRoBERTa-large-v2	4,10	0,40	Mejor rendimiento
ModernBERT	Mayor (peor)	Menor (peor)	Línea base de comparación

Menor perplejidad y mayor correlación CAI indican una mejor predicción de la eficiencia de expresión celular real.

Arquitectura del pipeline en tres etapas

Etapa 1 — Predicción de estructura ESMFold de Meta predice la estructura 3D de la proteína objetivo.

Etapa 2 — Diseño de secuencia ProteinMPNN del Baker Lab realiza el diseño inverso: determinar qué secuencias de aminoácidos se plegarán en esa estructura.

Etapa 3 — Optimización de ARNm El modelo CodonRoBERTa propio de OpenMed optimiza los codones de ADN para maximizar la eficiencia de expresión en el organismo objetivo.

Escalado a 25 especies y modelado condicionado por especie

La diferenciación de OpenMed es escalar a 25 especies y construir un sistema condicionado por especie — un único modelo que aprende distintos sesgos de uso de codones para cada organismo. El equipo informa que ningún otro proyecto de código abierto ofrece este nivel de soporte multiespecies.

El costo total de entrenamiento fue de 55 horas de GPU a aproximadamente 165 dólares, una cifra lo suficientemente baja para que laboratorios académicos y startups de todo el mundo consideren entrenar sus propios modelos.

[Análisis de expertos] El problema de la última milla en la IA biofarmacéutica

La optimización de codones ha sido llamada durante mucho tiempo el "último kilómetro" del diseño de proteínas. Tres factores hacen notable el enfoque de OpenMed: la democratización del costo de entrenamiento, el soporte para 25 especies que abre puertas más allá de los terapéuticos humanos hacia la agricultura y la medicina veterinaria, y un pipeline completo de código abierto que crea la base para la ciencia reproducible.

Sin embargo, aún no se han publicado datos de validación en laboratorio húmedo. La brecha entre las métricas computacionales y la eficiencia de expresión real persiste, y las aplicaciones de grado clínico probablemente requerirán validación adicional. Este pipeline tiene una alta probabilidad de ser adoptado como infraestructura base por startups de biología sintética y laboratorios de investigación universitarios.

#mRNA #코돈최적화 #합성생물학 #LLM #오픈소스AI #바이오AI #단백질설계