AI・テック

オープンソースチーム、25種のmRNA言語モデルをわずか165ドルで訓練

OpenMedがエンドツーエンドのタンパク質AIパイプラインを公開——CodonRoBERTaがModernBERTを圧倒

장민지··6分で読めます·
Training mRNA Language Models Across 25 Species for $165
要約
  • OpenMedが165ドル・55 GPU時間で25種のmRNA言語モデル訓練に成功した。
  • CodonRoBERTa-large-v2がパープレキシティ4.10・CAI相関係数0.40でModernBERTを圧倒した。
  • 構造予測・配列設計・コドン最適化を繋ぐ完全なオープンソースパイプラインが公開された。

タンパク質のコンセプトから合成可能なDNAまで、一つのパイプラインで

オープンソース医療AIプロジェクトのOpenMedが、わずか165ドル(約2万4000円)、55 GPU時間で25生物種にわたるmRNA(メッセンジャーRNA)言語モデル(Language Model)の訓練に成功した。4つの本番モデルを構築し、他のどのオープンソースプロジェクトも実現していない「種条件付き(species-conditioned)」システムを完成させたと、Hugging Faceブログで公開した。

このプロジェクトの中核的な成果は、コドンレベル言語モデリング(codon-level language modeling)実験において、CodonRoBERTa-large-v2がパープレキシティ(Perplexity)4.10、スピアマンCAI相関係数(Spearman CAI Correlation)0.40を記録し、ModernBERTを全主要指標で上回ったことだ。

なぜコドン最適化が重要なのか

遺伝暗号は「縮重(degenerate)」している。すなわち、同一のタンパク質をコードするDNA配列は天文学的な数に上るが、一部のコドン配列は他のものより発現効率が100倍以上高い。この原理が実際に活用された最も有名な例が、ファイザー・ビオンテック(Pfizer-BioNTech)のCOVID-19ワクチンだ。このワクチンのmRNA配列は、ヒト細胞での効率的な発現のためにコドン最適化されている。

治療用mRNA、ワクチン、組換えタンパク質生産全般において、コドン最適化は不可欠な工程だ。しかし既存のツールの多くは閉鎖的な商用ソフトウェアに依存するか、単一種のみ対応するという限界があった。OpenMedはこの空白をオープンソースで埋めることを目標とした。

アーキテクチャ探索:コドンに最適なモデルは何か

タンパク質AI分野ではBERT系モデル(ESM-2、ProtTrans)がすでに支配的な位置を占めている。しかしコドン配列は自然言語やアミノ酸配列とは統計的特性が異なる。コドンは64トークンのアルファベットから抽出されたトリプレット構造を持ち、強い位置依存性と種固有の使用バイアスを示す。

OpenMedチームはこれらの特性を考慮し、複数のトランスフォーマー(Transformer)アーキテクチャを比較実験した。結果、CodonRoBERTa-large-v2が最も優れた性能を示し、比較対象のModernBERTを全主要指標で上回った。

モデルパープレキシティスピアマンCAI相関係数備考
CodonRoBERTa-large-v24.100.40最高性能
ModernBERTより高い(劣位)より低い(劣位)比較対象

パープレキシティが低いほど、CAI相関係数が高いほど、実際の細胞内発現をより正確に予測できることを意味する。

3段階パイプライン構造

第1段階 — 構造予測(Structure Prediction) MetaのESMFoldを活用して、タンパク質の3次元構造を予測する。

第2段階 — 配列設計(Sequence Design) Baker研究室のProteinMPNNを使用し、その構造に折り畳まれるアミノ酸配列を逆設計する。

第3段階 — mRNA最適化(mRNA Optimization) OpenMedが独自開発したCodonRoBERTaモデルを通じて、目標生物種で最大限効率よく発現されるようDNAコドンを最適化する。

25種への拡張と種条件付きシステム

単一モデルを単一種に訓練することは従来も存在した。OpenMedの差別化点は、これを25種に拡張し、一つのモデルが種に応じて異なるコドン使用バイアスを学習する種条件付きシステムを構築したことにある。現在、いかなるオープンソースプロジェクトもこのレベルのマルチスピーシーズ(multi-species)対応を提供していないとチームは述べている。

総訓練コストは55 GPU時間、約165ドルにとどまった。これはグローバルな学術研究所はもちろん、発展途上国の研究チームでも自前のモデル訓練を現実的に検討できる水準だ。

この流れはいつから始まったのか

2021年にDeepMindのAlphaFold2がタンパク質構造予測問題を事実上解決したことで、タンパク質AI分野の重心は「構造予測」から「配列設計」と「発現最適化」へと急速に移行した。2022年以降、ESMFold、ProteinMPNNといったオープンソースツールが登場し、アカデミアやスタートアップもアクセス可能なエコシステムが形成された。

コドン最適化領域は、その中でも最もオープンソース化が遅れている分野だ。Twist BioscienceやIntegrated DNA Technologiesといった商業的サービスが市場を独占してきた中、OpenMedの今回の取り組みはこの空白を直接狙う。

【専門家分析】バイオファーマAIの「ラストマイル」問題

コドン最適化はタンパク質設計の「ラストマイル(last mile)」問題と長らく呼ばれてきた。構造予測と配列設計はAIが急速に制覇したが、実際の細胞内でどれだけ効率よく発現されるかを予測・最適化するステップは、依然として経験則と商用ブラックボックスに依存していた。

OpenMedのアプローチが注目される理由は三つある。第一に、訓練コストの民主化だ。165ドルという訓練コストは、リソースの乏しい環境の研究チームにとっても現実的な水準だ。第二に、25種対応はヒト治療薬にとどまらず、農業・動物医薬分野への拡張可能性を開く。第三に、完全なエンドツーエンドのオープンソースパイプラインの存在は、再現可能な科学(reproducible science)の基盤となる。

ただし、このモデルが実際の生物学的発現実験(wet-lab validation)を通過したという証拠はまだ公開されていない。計算的指標(パープレキシティ、CAI)と実際の細胞内発現効率の間のギャップは依然として存在しており、臨床応用には追加の検証が必要となる可能性が高い。

このパイプラインが合成生物学スタートアップや大学研究所で基本インフラとして採用される可能性は高い。mRNAワクチン開発が加速している現状において、低コスト高性能のオープンソースコドン最適化ツールへの需要は継続的に増加していくと予想される。

共有

댓글 (13)

현명한달방금 전

mRNA이 일상에 어떤 영향을 줄지 생각해보게 됩니다.

현명한크리에이터방금 전

코돈최적화 기사에서 언급된 사례가 흥미로웠습니다.

차분한여행자5분 전

mRNA에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다. 전문가 의견도 더 듣고 싶습니다.

대전의아메리카노12분 전

좋은 정리입니다. 코돈최적화 관련 데이터가 인상적이었습니다.

다정한드리머30분 전

mRNA 주제로 시리즈 기사가 나오면 좋겠습니다.

공원의기록자30분 전

좋은 정리입니다. 코돈최적화에 대해 더 알고 싶어졌습니다.

재빠른워커1시간 전

정리가 깔끔하네요.

저녁의구름2시간 전

코돈최적화에 대해 주변 사람들과 이야기 나눠볼 만합니다.

별빛의리더3시간 전

좋은 정리입니다. mRNA에 대해 더 알고 싶어졌습니다. 잘 정리된 기사네요.

제주의녹차3시간 전

깔끔한 기사입니다. 코돈최적화 관련 통계가 의외였습니다. 해외 동향도 함께 다뤄주시면 좋겠습니다.

비오는날사색가5시간 전

mRNA이 앞으로 어떻게 전개될지 주목해야겠습니다. 전문가 의견도 더 듣고 싶습니다.

차분한러너8시간 전

좋은 정보 감사합니다.

느긋한여행자

흥미로운 주제입니다. mRNA 기사에서 언급된 사례가 흥미로웠습니다.

AI・テックの記事をもっと見る

最新ニュース