IA y Tecnología

Un equipo de código abierto entrena modelos de lenguaje de ARNm en 25 especies por 165 dólares

OpenMed publica un pipeline de IA proteica de extremo a extremo; CodonRoBERTa supera a ModernBERT en optimización de codones

장민지··6 min de lectura·
Training mRNA Language Models Across 25 Species for $165
Resumen
  • OpenMed entrenó modelos de lenguaje de ARNm en 25 especies por 165 dólares y 55 horas de GPU.
  • CodonRoBERTa-large-v2 alcanzó una perplejidad de 4,10 y una correlación CAI de 0,40, superando a ModernBERT.
  • Un pipeline completo de código abierto que conecta predicción de estructura, diseño de secuencia y optimización de codones ya está disponible públicamente.

Del concepto proteico al ADN listo para síntesis en un solo pipeline

OpenMed, una iniciativa de inteligencia artificial médica de código abierto, ha logrado entrenar modelos de lenguaje de ARN mensajero (ARNm) para 25 especies biológicas por tan solo 165 dólares utilizando 55 horas de GPU. El equipo construyó cuatro modelos de producción y entregó un sistema condicionado por especie que ningún otro proyecto de código abierto ofrece actualmente, según una publicación detallada en el blog de Hugging Face.

El logro central del proyecto es que CodonRoBERTa-large-v2 registró una perplejidad de 4,10 y una correlación de Spearman CAI (Índice de Adaptación de Codones) de 0,40 en experimentos de modelado de lenguaje a nivel de codón, superando significativamente a ModernBERT en todas las métricas principales.

Por qué importa la optimización de codones

El código genético es degenerado: la misma proteína puede ser codificada por un número astronómico de secuencias de ADN, pero algunos arreglos de codones se expresan hasta 100 veces más eficientemente que otros. La aplicación real más visible de este principio es la vacuna COVID-19 de Pfizer-BioNTech, cuya secuencia de ARNm fue optimizada por codones para una expresión eficiente en células humanas.

La optimización de codones es un paso esencial en el ARNm terapéutico, vacunas y producción de proteínas recombinantes. Sin embargo, la mayoría de las herramientas existentes dependen de software comercial cerrado o admiten solo una especie. OpenMed se propuso llenar este vacío con una alternativa de código abierto.

Exploración de arquitectura: ¿Qué funciona mejor para los codones?

Los modelos de la familia BERT (ESM-2, ProtTrans) ya dominan la IA proteica. Pero las secuencias de codones tienen propiedades estadísticas distintas al lenguaje natural o las secuencias de aminoácidos: son tripletes extraídos de un alfabeto de 64 tokens, con fuertes dependencias posicionales y sesgos de uso específicos por especie.

El equipo de OpenMed realizó experimentos comparativos en múltiples arquitecturas transformer. CodonRoBERTa-large-v2 emergió como el claro ganador, superando a ModernBERT en todas las métricas clave.

ModeloPerplejidadCorrelación Spearman CAINotas
CodonRoBERTa-large-v24,100,40Mejor rendimiento
ModernBERTMayor (peor)Menor (peor)Línea base de comparación

Menor perplejidad y mayor correlación CAI indican una mejor predicción de la eficiencia de expresión celular real.

Arquitectura del pipeline en tres etapas

Etapa 1 — Predicción de estructura ESMFold de Meta predice la estructura 3D de la proteína objetivo.

Etapa 2 — Diseño de secuencia ProteinMPNN del Baker Lab realiza el diseño inverso: determinar qué secuencias de aminoácidos se plegarán en esa estructura.

Etapa 3 — Optimización de ARNm El modelo CodonRoBERTa propio de OpenMed optimiza los codones de ADN para maximizar la eficiencia de expresión en el organismo objetivo.

Escalado a 25 especies y modelado condicionado por especie

La diferenciación de OpenMed es escalar a 25 especies y construir un sistema condicionado por especie — un único modelo que aprende distintos sesgos de uso de codones para cada organismo. El equipo informa que ningún otro proyecto de código abierto ofrece este nivel de soporte multiespecies.

El costo total de entrenamiento fue de 55 horas de GPU a aproximadamente 165 dólares, una cifra lo suficientemente baja para que laboratorios académicos y startups de todo el mundo consideren entrenar sus propios modelos.

[Análisis de expertos] El problema de la última milla en la IA biofarmacéutica

La optimización de codones ha sido llamada durante mucho tiempo el "último kilómetro" del diseño de proteínas. Tres factores hacen notable el enfoque de OpenMed: la democratización del costo de entrenamiento, el soporte para 25 especies que abre puertas más allá de los terapéuticos humanos hacia la agricultura y la medicina veterinaria, y un pipeline completo de código abierto que crea la base para la ciencia reproducible.

Sin embargo, aún no se han publicado datos de validación en laboratorio húmedo. La brecha entre las métricas computacionales y la eficiencia de expresión real persiste, y las aplicaciones de grado clínico probablemente requerirán validación adicional. Este pipeline tiene una alta probabilidad de ser adoptado como infraestructura base por startups de biología sintética y laboratorios de investigación universitarios.

Compartir

댓글 (25)

밝은독자방금 전

읽기 좋은 기사입니다. Un 관련 해외 동향도 궁금합니다.

판교의독자방금 전

객관적인 시각이 돋보이는 기사입니다.

호기심많은탐험가방금 전

깔끔한 기사입니다. de 관련 배경 설명이 이해하기 쉬웠습니다. 전문가 의견도 더 듣고 싶습니다.

진지한피아노5분 전

참고가 됩니다. mRNA의 향후 전망이 궁금합니다.

바닷가의첼로5분 전

유익한 기사네요.

제주의크리에이터12분 전

출퇴근길에 항상 읽고 있습니다.

새벽의첼로12분 전

흥미로운 주제입니다. equipo에 대해 주변 사람들과 이야기 나눠볼 만합니다. 계속 지켜봐야겠습니다.

아침의분석가12분 전

de의 향후 전망이 궁금합니다. 잘 정리된 기사네요.

재빠른아메리카노30분 전

mRNA 관련 통계가 의외였습니다. 계속 지켜봐야겠습니다.

재빠른기록자30분 전

참고가 됩니다. 코돈최적화의 향후 전망이 궁금합니다. 나중에 다시 읽어볼 만합니다.

재빠른판다1시간 전

Un에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다.

구름위첼로1시간 전

equipo에 대해 처음 접하는 정보가 있었습니다.

해운대의피아노1시간 전

몰랐던 사실을 알게 됐습니다. de에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다.

카페의러너2시간 전

mRNA 관련 해외 동향도 궁금합니다.

해운대의기록자2시간 전

코돈최적화 관련 해외 동향도 궁금합니다. 계속 지켜봐야겠습니다.

솔직한별3시간 전

이런 시각도 있었군요. Un이 일상에 어떤 영향을 줄지 생각해보게 됩니다. 다른 시각의 분석도 읽어보고 싶습니다.

다정한탐험가3시간 전

흥미로운 주제입니다. equipo이 일상에 어떤 영향을 줄지 생각해보게 됩니다. 주변에도 공유해야겠어요.

별빛의독자3시간 전

de 관련 통계가 의외였습니다. 해외 동향도 함께 다뤄주시면 좋겠습니다.

솔직한피아노5시간 전

깔끔한 기사입니다. mRNA 관련 해외 동향도 궁금합니다.

바닷가의여우5시간 전

코돈최적화 기사에서 언급된 사례가 흥미로웠습니다.

부지런한크리에이터8시간 전

몰랐던 사실을 알게 됐습니다. Un의 향후 전망이 궁금합니다.

겨울의바람8시간 전

equipo의 전문가 코멘트가 설득력 있었습니다.

인천의드럼8시간 전

de에 대해 처음 접하는 정보가 있었습니다. 다른 시각의 분석도 읽어보고 싶습니다.

구름위시민

언론이 이래야죠.

느긋한비평가

이런 시각도 있었군요. 코돈최적화 주제로 시리즈 기사가 나오면 좋겠습니다. 다른 시각의 분석도 읽어보고 싶습니다.

Más en IA y Tecnología

Últimas noticias