AI & Tech

Open-Source Team Trains mRNA Language Models Across 25 Species for $165

OpenMed releases end-to-end protein AI pipeline; CodonRoBERTa outperforms ModernBERT on codon optimization

장민지··6 min read·
Training mRNA Language Models Across 25 Species for $165
Summary
  • OpenMed trained mRNA language models across 25 species for $165 and 55 GPU-hours.
  • CodonRoBERTa-large-v2 achieved perplexity 4.10 and CAI correlation 0.40, beating ModernBERT.
  • A complete open-source pipeline linking structure prediction, sequence design, and codon optimization is now publicly available.

From Protein Concept to Synthesis-Ready DNA in One Pipeline

OpenMed, an open-source medical AI initiative, has successfully trained mRNA language models spanning 25 biological species for just $165 using 55 GPU-hours. The team built four production models and delivered a species-conditioned system that no other open-source project currently offers, according to a detailed post published on the Hugging Face Blog.

The project's central achievement is that CodonRoBERTa-large-v2 recorded a perplexity of 4.10 and a Spearman CAI (Codon Adaptation Index) correlation of 0.40 in codon-level language modeling experiments, significantly outperforming ModernBERT across all major metrics.

Why Codon Optimization Matters

The genetic code is degenerate: the same protein can be encoded by an astronomically large number of DNA sequences, yet some codon arrangements express up to 100 times more efficiently than others. The most visible real-world application of this principle is the Pfizer-BioNTech COVID-19 vaccine, whose mRNA sequence was codon-optimized for efficient expression in human cells.

Codon optimization is an essential step across therapeutic mRNA, vaccines, and recombinant protein production. However, most existing tools either rely on closed, commercial software or support only a single species. OpenMed set out to fill this gap with an open-source alternative.

Architecture Exploration: What Works Best for Codons?

BERT-family models (ESM-2, ProtTrans) already dominate protein AI. But codon sequences have distinct statistical properties compared to natural language or amino acid sequences — they are triplets drawn from a 64-token alphabet, with strong positional dependencies and species-specific usage biases.

The OpenMed team ran comparative experiments across multiple transformer architectures. CodonRoBERTa-large-v2 emerged as the clear winner, outperforming ModernBERT on every key metric.

ModelPerplexitySpearman CAI CorrelationNotes
CodonRoBERTa-large-v24.100.40Top performer
ModernBERTHigher (worse)Lower (worse)Comparison baseline

Lower perplexity and higher CAI correlation both indicate better prediction of real-world cellular expression efficiency.

Three-Stage Pipeline Architecture

OpenMed's pipeline addresses three distinct stages of the protein engineering workflow.

Stage 1 — Structure Prediction Meta's ESMFold predicts the 3D structure of the target protein.

Stage 2 — Sequence Design The Baker Lab's ProteinMPNN performs inverse design — determining which amino acid sequences will fold into that structure.

Stage 3 — mRNA Optimization OpenMed's custom CodonRoBERTa model optimizes the DNA codons to maximize expression efficiency in the target organism. This third stage is where the team invested the most effort.

Scaling to 25 Species and Species-Conditioned Modeling

While single-species models have existed before, OpenMed's differentiator is scaling to 25 species and building a species-conditioned system — a single model that learns distinct codon usage biases for each organism. The team reports that no other open-source project offers this level of multi-species support.

The total training cost was 55 GPU-hours at approximately $165 — a figure low enough for academic labs and startups worldwide to consider training their own models.

How We Got Here: The Historical Thread

When DeepMind's AlphaFold2 effectively solved protein structure prediction in 2021, the center of gravity in protein AI shifted rapidly from structure prediction toward sequence design and expression optimization. From 2022 onward, open-source tools like ESMFold and ProteinMPNN democratized access to previously closed workflows.

Codon optimization has been the last major segment to open up. Commercial services from companies like Twist Bioscience and Integrated DNA Technologies have dominated the market, while open-source alternatives remained limited in scope or single-species. OpenMed's work directly targets this gap.

[Expert Analysis] The Last-Mile Problem in Biopharma AI

Codon optimization has long been called the "last mile" of protein design. AI rapidly conquered structure prediction and sequence design, but predicting and optimizing actual cellular expression remained heavily dependent on empirical rules and commercial black boxes.

Three factors make OpenMed's approach notable. First, the democratization of training cost — $165 puts model training within reach of research groups globally, including those in lower-resource settings. Second, 25-species support opens doors beyond human therapeutics into agriculture and veterinary medicine. Third, a complete end-to-end open-source pipeline creates the foundation for reproducible science.

However, wet-lab validation data — evidence that these computational improvements translate to actual cellular expression gains — has not yet been published. The gap between computational metrics (perplexity, CAI) and real expression efficiency remains, and clinical-grade applications will likely require additional validation.

This pipeline has a high probability of being adopted as baseline infrastructure by synthetic biology startups and university research labs. Given the accelerating pace of mRNA vaccine development, demand for low-cost, high-performance open-source codon optimization tools is likely to grow steadily.

Share

댓글 (57)

밝은돌고래방금 전

Open-Source의 향후 전망이 궁금합니다.

다정한해방금 전

Team의 전문가 코멘트가 설득력 있었습니다.

유쾌한녹차방금 전

Trains 주제로 시리즈 기사가 나오면 좋겠습니다.

유쾌한판다방금 전

아침에 읽기 딱 좋은 분량이에요.

냉철한펭귄방금 전

코돈최적화 기사에서 언급된 사례가 흥미로웠습니다. 후속 기사 부탁드립니다.

여름의드리머방금 전

매일 여기서 뉴스 보고 있어요.

비오는날돌고래5분 전

Team 관련 배경 설명이 이해하기 쉬웠습니다.

유쾌한리더5분 전

유익한 기사네요. Trains의 향후 전망이 궁금합니다.

겨울의독자5분 전

요즘 이 매체 기사가 제일 읽기 좋아요.

바닷가의비평가5분 전

기사 잘 읽었습니다.

서울의분석가5분 전

기자님 수고하셨습니다.

봄날의구름5분 전

Team에 대해 처음 접하는 정보가 있었습니다.

오후의아메리카노12분 전

Trains 관련 데이터가 인상적이었습니다. 생각이 바뀌었습니다.

조용한시민12분 전

mRNA의 향후 전망이 궁금합니다.

호기심많은워커12분 전

잘 읽었습니다. 코돈최적화 관련 배경 설명이 이해하기 쉬웠습니다.

진지한첼로12분 전

Open-Source 주제로 시리즈 기사가 나오면 좋겠습니다. 계속 지켜봐야겠습니다.

오후의여우12분 전

몰랐던 사실을 알게 됐습니다. Team 관련 데이터가 인상적이었습니다.

조용한연구자12분 전

Trains에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다.

밝은독자30분 전

mRNA에 대해 더 알고 싶어졌습니다.

열정적인피아노30분 전

참고가 됩니다. 코돈최적화 관련 배경 설명이 이해하기 쉬웠습니다. 다른 시각의 분석도 읽어보고 싶습니다.

봄날의강아지30분 전

이런 시각도 있었군요. Open-Source에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다.

꼼꼼한커피30분 전

유익한 기사네요. Team이 일상에 어떤 영향을 줄지 생각해보게 됩니다.

꼼꼼한구름30분 전

흥미로운 주제입니다. Trains 관련 데이터가 인상적이었습니다.

비오는날녹차1시간 전

유익한 기사네요. mRNA 관련 통계가 의외였습니다.

용감한강아지1시간 전

코돈최적화에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다. 계속 지켜봐야겠습니다.

솔직한강아지1시간 전

Open-Source 주제로 시리즈 기사가 나오면 좋겠습니다.

활발한사자1시간 전

Team 관련 용어 설명이 친절해서 좋았습니다.

해운대의비평가1시간 전

Trains 관련 통계가 의외였습니다.

진지한구름1시간 전

이런 시각도 있었군요. mRNA의 전문가 코멘트가 설득력 있었습니다. 생각이 바뀌었습니다.

차분한첼로2시간 전

코돈최적화 관련 배경 설명이 이해하기 쉬웠습니다.

가을의피아노2시간 전

유익한 기사네요. Open-Source이 앞으로 어떻게 전개될지 주목해야겠습니다.

홍대의별2시간 전

흥미로운 주제입니다. Team 관련 용어 설명이 친절해서 좋았습니다.

꼼꼼한관찰자2시간 전

Trains에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다. 전문가 의견도 더 듣고 싶습니다.

공원의탐험가2시간 전

mRNA에 대해 처음 접하는 정보가 있었습니다.

산속의여우2시간 전

코돈최적화의 전문가 코멘트가 설득력 있었습니다.

저녁의사색가3시간 전

Open-Source 관련 해외 동향도 궁금합니다. 계속 지켜봐야겠습니다.

가을의연구자3시간 전

Team 관련 데이터가 인상적이었습니다.

똑똑한시민3시간 전

Trains 관련 용어 설명이 친절해서 좋았습니다.

판교의워커3시간 전

구독 중인데 만족합니다.

산속의에스프레소3시간 전

코돈최적화에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다. 전문가 의견도 더 듣고 싶습니다.

성수의기타5시간 전

Open-Source 관련 해외 동향도 궁금합니다. 나중에 다시 읽어볼 만합니다.

산속의탐험가5시간 전

Team에 대해 주변 사람들과 이야기 나눠볼 만합니다. 해외 동향도 함께 다뤄주시면 좋겠습니다.

따뜻한부엉이5시간 전

Trains 관련 배경 설명이 이해하기 쉬웠습니다.

제주의사자5시간 전

다른 기사도 기대하겠습니다.

성수의별5시간 전

읽기 좋은 기사입니다. 코돈최적화에 대해 처음 접하는 정보가 있었습니다. 후속 기사 부탁드립니다.

솔직한피아노5시간 전

참고가 됩니다. Open-Source의 향후 전망이 궁금합니다. 좋은 기사 감사합니다.

현명한기록자8시간 전

Team 관련 해외 동향도 궁금합니다.

봄날의판다8시간 전

Trains에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다. 다른 시각의 분석도 읽어보고 싶습니다.

꼼꼼한바람8시간 전

mRNA 관련 통계가 의외였습니다.

도서관의독자8시간 전

잘 읽었습니다. 코돈최적화 기사에서 언급된 사례가 흥미로웠습니다.

비오는날피아노8시간 전

잘 보고 있습니다.

가을의탐험가8시간 전

이런 시각도 있었군요. Team 관련 데이터가 인상적이었습니다.

꼼꼼한녹차

Trains에 대해 주변 사람들과 이야기 나눠볼 만합니다. 후속 기사 부탁드립니다.

열정적인녹차

mRNA 주제로 시리즈 기사가 나오면 좋겠습니다.

밝은해

북마크해두겠습니다. 코돈최적화 관련 배경 설명이 이해하기 쉬웠습니다.

겨울의피아노

Open-Source 관련 통계가 의외였습니다. 주변에도 공유해야겠어요.

재빠른시민

좋은 기사 감사합니다.

More in AI & Tech

Latest News