オープンソースチーム、25種のmRNA言語モデルをわずか165ドルで訓練
OpenMedがエンドツーエンドのタンパク質AIパイプラインを公開——CodonRoBERTaがModernBERTを圧倒

- •OpenMedが165ドル・55 GPU時間で25種のmRNA言語モデル訓練に成功した。
- •CodonRoBERTa-large-v2がパープレキシティ4.10・CAI相関係数0.40でModernBERTを圧倒した。
- •構造予測・配列設計・コドン最適化を繋ぐ完全なオープンソースパイプラインが公開された。
タンパク質のコンセプトから合成可能なDNAまで、一つのパイプラインで
オープンソース医療AIプロジェクトのOpenMedが、わずか165ドル(約2万4000円)、55 GPU時間で25生物種にわたるmRNA(メッセンジャーRNA)言語モデル(Language Model)の訓練に成功した。4つの本番モデルを構築し、他のどのオープンソースプロジェクトも実現していない「種条件付き(species-conditioned)」システムを完成させたと、Hugging Faceブログで公開した。
このプロジェクトの中核的な成果は、コドンレベル言語モデリング(codon-level language modeling)実験において、CodonRoBERTa-large-v2がパープレキシティ(Perplexity)4.10、スピアマンCAI相関係数(Spearman CAI Correlation)0.40を記録し、ModernBERTを全主要指標で上回ったことだ。
なぜコドン最適化が重要なのか
遺伝暗号は「縮重(degenerate)」している。すなわち、同一のタンパク質をコードするDNA配列は天文学的な数に上るが、一部のコドン配列は他のものより発現効率が100倍以上高い。この原理が実際に活用された最も有名な例が、ファイザー・ビオンテック(Pfizer-BioNTech)のCOVID-19ワクチンだ。このワクチンのmRNA配列は、ヒト細胞での効率的な発現のためにコドン最適化されている。
治療用mRNA、ワクチン、組換えタンパク質生産全般において、コドン最適化は不可欠な工程だ。しかし既存のツールの多くは閉鎖的な商用ソフトウェアに依存するか、単一種のみ対応するという限界があった。OpenMedはこの空白をオープンソースで埋めることを目標とした。
アーキテクチャ探索:コドンに最適なモデルは何か
タンパク質AI分野ではBERT系モデル(ESM-2、ProtTrans)がすでに支配的な位置を占めている。しかしコドン配列は自然言語やアミノ酸配列とは統計的特性が異なる。コドンは64トークンのアルファベットから抽出されたトリプレット構造を持ち、強い位置依存性と種固有の使用バイアスを示す。
OpenMedチームはこれらの特性を考慮し、複数のトランスフォーマー(Transformer)アーキテクチャを比較実験した。結果、CodonRoBERTa-large-v2が最も優れた性能を示し、比較対象のModernBERTを全主要指標で上回った。
| モデル | パープレキシティ | スピアマンCAI相関係数 | 備考 |
|---|---|---|---|
| CodonRoBERTa-large-v2 | 4.10 | 0.40 | 最高性能 |
| ModernBERT | より高い(劣位) | より低い(劣位) | 比較対象 |
パープレキシティが低いほど、CAI相関係数が高いほど、実際の細胞内発現をより正確に予測できることを意味する。
3段階パイプライン構造
第1段階 — 構造予測(Structure Prediction) MetaのESMFoldを活用して、タンパク質の3次元構造を予測する。
第2段階 — 配列設計(Sequence Design) Baker研究室のProteinMPNNを使用し、その構造に折り畳まれるアミノ酸配列を逆設計する。
第3段階 — mRNA最適化(mRNA Optimization) OpenMedが独自開発したCodonRoBERTaモデルを通じて、目標生物種で最大限効率よく発現されるようDNAコドンを最適化する。
25種への拡張と種条件付きシステム
単一モデルを単一種に訓練することは従来も存在した。OpenMedの差別化点は、これを25種に拡張し、一つのモデルが種に応じて異なるコドン使用バイアスを学習する種条件付きシステムを構築したことにある。現在、いかなるオープンソースプロジェクトもこのレベルのマルチスピーシーズ(multi-species)対応を提供していないとチームは述べている。
総訓練コストは55 GPU時間、約165ドルにとどまった。これはグローバルな学術研究所はもちろん、発展途上国の研究チームでも自前のモデル訓練を現実的に検討できる水準だ。
この流れはいつから始まったのか
2021年にDeepMindのAlphaFold2がタンパク質構造予測問題を事実上解決したことで、タンパク質AI分野の重心は「構造予測」から「配列設計」と「発現最適化」へと急速に移行した。2022年以降、ESMFold、ProteinMPNNといったオープンソースツールが登場し、アカデミアやスタートアップもアクセス可能なエコシステムが形成された。
コドン最適化領域は、その中でも最もオープンソース化が遅れている分野だ。Twist BioscienceやIntegrated DNA Technologiesといった商業的サービスが市場を独占してきた中、OpenMedの今回の取り組みはこの空白を直接狙う。
【専門家分析】バイオファーマAIの「ラストマイル」問題
コドン最適化はタンパク質設計の「ラストマイル(last mile)」問題と長らく呼ばれてきた。構造予測と配列設計はAIが急速に制覇したが、実際の細胞内でどれだけ効率よく発現されるかを予測・最適化するステップは、依然として経験則と商用ブラックボックスに依存していた。
OpenMedのアプローチが注目される理由は三つある。第一に、訓練コストの民主化だ。165ドルという訓練コストは、リソースの乏しい環境の研究チームにとっても現実的な水準だ。第二に、25種対応はヒト治療薬にとどまらず、農業・動物医薬分野への拡張可能性を開く。第三に、完全なエンドツーエンドのオープンソースパイプラインの存在は、再現可能な科学(reproducible science)の基盤となる。
ただし、このモデルが実際の生物学的発現実験(wet-lab validation)を通過したという証拠はまだ公開されていない。計算的指標(パープレキシティ、CAI)と実際の細胞内発現効率の間のギャップは依然として存在しており、臨床応用には追加の検証が必要となる可能性が高い。
このパイプラインが合成生物学スタートアップや大学研究所で基本インフラとして採用される可能性は高い。mRNAワクチン開発が加速している現状において、低コスト高性能のオープンソースコドン最適化ツールへの需要は継続的に増加していくと予想される。
댓글 (13)
mRNA이 일상에 어떤 영향을 줄지 생각해보게 됩니다.
코돈최적화 기사에서 언급된 사례가 흥미로웠습니다.
mRNA에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다. 전문가 의견도 더 듣고 싶습니다.
좋은 정리입니다. 코돈최적화 관련 데이터가 인상적이었습니다.
mRNA 주제로 시리즈 기사가 나오면 좋겠습니다.
좋은 정리입니다. 코돈최적화에 대해 더 알고 싶어졌습니다.
정리가 깔끔하네요.
코돈최적화에 대해 주변 사람들과 이야기 나눠볼 만합니다.
좋은 정리입니다. mRNA에 대해 더 알고 싶어졌습니다. 잘 정리된 기사네요.
깔끔한 기사입니다. 코돈최적화 관련 통계가 의외였습니다. 해외 동향도 함께 다뤄주시면 좋겠습니다.
mRNA이 앞으로 어떻게 전개될지 주목해야겠습니다. 전문가 의견도 더 듣고 싶습니다.
좋은 정보 감사합니다.
흥미로운 주제입니다. mRNA 기사에서 언급된 사례가 흥미로웠습니다.
AI・テックの記事をもっと見る
最新ニュース

ICIJ、メルクのキイトルーダ価格戦略と特許乱用疑惑を報道
ICIJがメルクのキイトルーダ価格戦略と特許乱用疑惑を大規模調査報道で明らかにした。

イスラエル・レバノン10日間停戦が発効、国連「交渉の糸口に」
イスラエルとレバノンの10日間停戦が4月17日深夜0時に発効した。

JWST, 성간 혜성 3I/ATLAS에서 메테인 최초 검출…외계 행성계 단서 포착
JWST가 성간 혜성 3I/ATLAS에서 메테인을 최초 직접 검출, 외계 행성계 내부 조성 단서 확보.

IMF, 7년 만에 베네수엘라와 관계 재개…49억 달러 동결 해제 기대
IMF가 2019년 이후 중단됐던 베네수엘라와의 공식 관계를 7년 만에 재개했다.

米国の政治漫画家たちが描く今週のワシントン
米国各地の政治漫画家が毎週の風刺で時代を記録している。

IMF, 7년 만에 베네수엘라와 관계 재개…49억 달러 동결 해제 가능성
IMF가 7년 만에 베네수엘라와 공식 협력을 재개하기로 결정했다.

ジャングルがコンクリートを飲み込んだ日——ロンドン・バービカン温室の逆説
写真家アルトラートがロンドン・バービカン温室の空間的逆説を連作でとらえた。

경상흑자 역대 최대인데 원화는 왜 약해지나
한국은행, 경상흑자에도 원화 약세 이어지는 구조적 원인 공식 분석.





