Un equipo de código abierto entrena modelos de lenguaje de ARNm en 25 especies por 165 dólares
OpenMed publica un pipeline de IA proteica de extremo a extremo; CodonRoBERTa supera a ModernBERT en optimización de codones

- •OpenMed entrenó modelos de lenguaje de ARNm en 25 especies por 165 dólares y 55 horas de GPU.
- •CodonRoBERTa-large-v2 alcanzó una perplejidad de 4,10 y una correlación CAI de 0,40, superando a ModernBERT.
- •Un pipeline completo de código abierto que conecta predicción de estructura, diseño de secuencia y optimización de codones ya está disponible públicamente.
Del concepto proteico al ADN listo para síntesis en un solo pipeline
OpenMed, una iniciativa de inteligencia artificial médica de código abierto, ha logrado entrenar modelos de lenguaje de ARN mensajero (ARNm) para 25 especies biológicas por tan solo 165 dólares utilizando 55 horas de GPU. El equipo construyó cuatro modelos de producción y entregó un sistema condicionado por especie que ningún otro proyecto de código abierto ofrece actualmente, según una publicación detallada en el blog de Hugging Face.
El logro central del proyecto es que CodonRoBERTa-large-v2 registró una perplejidad de 4,10 y una correlación de Spearman CAI (Índice de Adaptación de Codones) de 0,40 en experimentos de modelado de lenguaje a nivel de codón, superando significativamente a ModernBERT en todas las métricas principales.
Por qué importa la optimización de codones
El código genético es degenerado: la misma proteína puede ser codificada por un número astronómico de secuencias de ADN, pero algunos arreglos de codones se expresan hasta 100 veces más eficientemente que otros. La aplicación real más visible de este principio es la vacuna COVID-19 de Pfizer-BioNTech, cuya secuencia de ARNm fue optimizada por codones para una expresión eficiente en células humanas.
La optimización de codones es un paso esencial en el ARNm terapéutico, vacunas y producción de proteínas recombinantes. Sin embargo, la mayoría de las herramientas existentes dependen de software comercial cerrado o admiten solo una especie. OpenMed se propuso llenar este vacío con una alternativa de código abierto.
Exploración de arquitectura: ¿Qué funciona mejor para los codones?
Los modelos de la familia BERT (ESM-2, ProtTrans) ya dominan la IA proteica. Pero las secuencias de codones tienen propiedades estadísticas distintas al lenguaje natural o las secuencias de aminoácidos: son tripletes extraídos de un alfabeto de 64 tokens, con fuertes dependencias posicionales y sesgos de uso específicos por especie.
El equipo de OpenMed realizó experimentos comparativos en múltiples arquitecturas transformer. CodonRoBERTa-large-v2 emergió como el claro ganador, superando a ModernBERT en todas las métricas clave.
| Modelo | Perplejidad | Correlación Spearman CAI | Notas |
|---|---|---|---|
| CodonRoBERTa-large-v2 | 4,10 | 0,40 | Mejor rendimiento |
| ModernBERT | Mayor (peor) | Menor (peor) | Línea base de comparación |
Menor perplejidad y mayor correlación CAI indican una mejor predicción de la eficiencia de expresión celular real.
Arquitectura del pipeline en tres etapas
Etapa 1 — Predicción de estructura ESMFold de Meta predice la estructura 3D de la proteína objetivo.
Etapa 2 — Diseño de secuencia ProteinMPNN del Baker Lab realiza el diseño inverso: determinar qué secuencias de aminoácidos se plegarán en esa estructura.
Etapa 3 — Optimización de ARNm El modelo CodonRoBERTa propio de OpenMed optimiza los codones de ADN para maximizar la eficiencia de expresión en el organismo objetivo.
Escalado a 25 especies y modelado condicionado por especie
La diferenciación de OpenMed es escalar a 25 especies y construir un sistema condicionado por especie — un único modelo que aprende distintos sesgos de uso de codones para cada organismo. El equipo informa que ningún otro proyecto de código abierto ofrece este nivel de soporte multiespecies.
El costo total de entrenamiento fue de 55 horas de GPU a aproximadamente 165 dólares, una cifra lo suficientemente baja para que laboratorios académicos y startups de todo el mundo consideren entrenar sus propios modelos.
[Análisis de expertos] El problema de la última milla en la IA biofarmacéutica
La optimización de codones ha sido llamada durante mucho tiempo el "último kilómetro" del diseño de proteínas. Tres factores hacen notable el enfoque de OpenMed: la democratización del costo de entrenamiento, el soporte para 25 especies que abre puertas más allá de los terapéuticos humanos hacia la agricultura y la medicina veterinaria, y un pipeline completo de código abierto que crea la base para la ciencia reproducible.
Sin embargo, aún no se han publicado datos de validación en laboratorio húmedo. La brecha entre las métricas computacionales y la eficiencia de expresión real persiste, y las aplicaciones de grado clínico probablemente requerirán validación adicional. Este pipeline tiene una alta probabilidad de ser adoptado como infraestructura base por startups de biología sintética y laboratorios de investigación universitarios.
댓글 (25)
읽기 좋은 기사입니다. Un 관련 해외 동향도 궁금합니다.
객관적인 시각이 돋보이는 기사입니다.
깔끔한 기사입니다. de 관련 배경 설명이 이해하기 쉬웠습니다. 전문가 의견도 더 듣고 싶습니다.
참고가 됩니다. mRNA의 향후 전망이 궁금합니다.
유익한 기사네요.
출퇴근길에 항상 읽고 있습니다.
흥미로운 주제입니다. equipo에 대해 주변 사람들과 이야기 나눠볼 만합니다. 계속 지켜봐야겠습니다.
de의 향후 전망이 궁금합니다. 잘 정리된 기사네요.
mRNA 관련 통계가 의외였습니다. 계속 지켜봐야겠습니다.
참고가 됩니다. 코돈최적화의 향후 전망이 궁금합니다. 나중에 다시 읽어볼 만합니다.
Un에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다.
equipo에 대해 처음 접하는 정보가 있었습니다.
몰랐던 사실을 알게 됐습니다. de에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다.
mRNA 관련 해외 동향도 궁금합니다.
코돈최적화 관련 해외 동향도 궁금합니다. 계속 지켜봐야겠습니다.
이런 시각도 있었군요. Un이 일상에 어떤 영향을 줄지 생각해보게 됩니다. 다른 시각의 분석도 읽어보고 싶습니다.
흥미로운 주제입니다. equipo이 일상에 어떤 영향을 줄지 생각해보게 됩니다. 주변에도 공유해야겠어요.
de 관련 통계가 의외였습니다. 해외 동향도 함께 다뤄주시면 좋겠습니다.
깔끔한 기사입니다. mRNA 관련 해외 동향도 궁금합니다.
코돈최적화 기사에서 언급된 사례가 흥미로웠습니다.
몰랐던 사실을 알게 됐습니다. Un의 향후 전망이 궁금합니다.
equipo의 전문가 코멘트가 설득력 있었습니다.
de에 대해 처음 접하는 정보가 있었습니다. 다른 시각의 분석도 읽어보고 싶습니다.
언론이 이래야죠.
이런 시각도 있었군요. 코돈최적화 주제로 시리즈 기사가 나오면 좋겠습니다. 다른 시각의 분석도 읽어보고 싶습니다.
Más en IA y Tecnología
Últimas noticias

ICIJ investiga las estrategias de precios y patentes de Merck con Keytruda
El ICIJ revela las estrategias de precios y patentes de Merck con Keytruda en la investigación Cancer Calculus.

Entra en vigor la tregua de 10 días entre Israel y Líbano; la ONU espera que abra negociaciones
Un alto el fuego de 10 días entre Israel y Líbano entró en vigor el 17 de abril a medianoche.

JWST, 성간 혜성 3I/ATLAS에서 메테인 최초 검출…외계 행성계 단서 포착
JWST가 성간 혜성 3I/ATLAS에서 메테인을 최초 직접 검출, 외계 행성계 내부 조성 단서 확보.

IMF, 7년 만에 베네수엘라와 관계 재개…49억 달러 동결 해제 기대
IMF가 2019년 이후 중단됐던 베네수엘라와의 공식 관계를 7년 만에 재개했다.

Los caricaturistas de EE.UU. retratan la semana política en Washington
Los caricaturistas políticos de todo EE.UU. documentan la era mediante sátira semanal.

IMF, 7년 만에 베네수엘라와 관계 재개…49억 달러 동결 해제 가능성
IMF가 7년 만에 베네수엘라와 공식 협력을 재개하기로 결정했다.

Cuando la jungla devoró el hormigón: la paradoja del Conservatorio Barbican de Londres
El fotógrafo Altrath capta en una nueva serie la paradoja espacial del Conservatorio Barbican de Londres.

경상흑자 역대 최대인데 원화는 왜 약해지나
한국은행, 경상흑자에도 원화 약세 이어지는 구조적 원인 공식 분석.





