AI·테크

165달러로 25종 mRNA 언어 모델 훈련한 오픈소스 팀

OpenMed, 코돈 최적화 AI 파이프라인 공개… CodonRoBERTa가 ModernBERT 압도

장민지··6분 읽기·
Training mRNA Language Models Across 25 Species for $165
요약
  • OpenMed가 165달러, 55 GPU-시간으로 25종 mRNA 언어 모델 훈련에 성공했다.
  • CodonRoBERTa-large-v2가 혼란도 4.10, CAI 상관계수 0.40으로 ModernBERT를 압도했다.
  • 구조 예측·서열 설계·코돈 최적화를 하나로 잇는 완전한 오픈소스 파이프라인이 공개됐다.

단백질 개념에서 합성 가능한 DNA까지, 하나의 파이프라인으로

오픈소스 의료 AI 프로젝트 OpenMed가 단 165달러(약 23만 원)의 비용으로 25개 생물 종에 걸친 메신저 RNA(mRNA) 언어 모델(Language Model)을 훈련하는 데 성공했다. 55 GPU-시간을 투입해 4개의 프로덕션 모델을 구축했으며, 다른 어떤 오픈소스 프로젝트도 구현하지 못한 '종 조건부(species-conditioned)' 시스템을 완성했다고 Hugging Face 블로그를 통해 공개했다.

이 프로젝트의 핵심 성과는 코돈 수준 언어 모델링(codon-level language modeling) 실험에서 CodonRoBERTa-large-v2가 혼란도(Perplexity) 4.10, 스피어만 CAI 상관계수(Spearman CAI Correlation) 0.40을 기록하며 ModernBERT를 압도했다는 점이다.

165달러로 25종 mRNA 언어 모델 훈련한 오픈소스 팀
165달러로 25종 mRNA 언어 모델 훈련한 오픈소스 팀

왜 코돈 최적화인가

유전 암호(genetic code)는 '퇴화(degenerate)'한다. 즉, 동일한 단백질을 인코딩하는 DNA 서열은 천문학적으로 많지만, 일부 코돈 배열은 다른 배열보다 발현 효율이 100배 이상 높다. 이 원리가 실제로 적용된 가장 유명한 사례가 화이자-바이오엔테크(Pfizer-BioNTech)의 코로나19(COVID-19) 백신이다. 이 백신의 mRNA 서열은 인간 세포에서 최적의 발현을 위해 코돈 최적화 과정을 거쳤다.

치료용 mRNA, 백신, 재조합 단백질 생산 전반에서 코돈 최적화는 필수 공정이다. 그러나 기존의 코돈 최적화 도구는 대부분 폐쇄형 상용 소프트웨어에 의존하거나, 단일 종(species)만을 지원하는 한계가 있었다. OpenMed는 이 공백을 오픈소스로 채우겠다는 목표를 세웠다.

아키텍처 탐색: 무엇이 코돈에 가장 잘 맞는가

단백질 AI 분야에서 BERT 계열 모델(ESM-2, ProtTrans)은 이미 지배적인 위치를 차지하고 있다. 그러나 코돈 서열은 자연어나 아미노산 서열과 통계적 특성이 다르다. 코돈은 64개 토큰 알파벳에서 추출된 트리플렛(triplet) 구조를 가지며, 강한 위치 의존성과 종별 사용 편향을 보인다.

OpenMed 팀은 이 특성을 고려해 여러 트랜스포머(Transformer) 아키텍처를 비교 실험했다. 결과적으로 CodonRoBERTa-large-v2가 가장 우수한 성능을 보였으며, 비교 대상이었던 ModernBERT를 모든 주요 지표에서 앞섰다.

모델혼란도(Perplexity)스피어만 CAI 상관계수비고
CodonRoBERTa-large-v24.100.40최우수 성능
ModernBERT더 높음(열위)더 낮음(열위)비교 대상

혼란도가 낮을수록, CAI 상관계수가 높을수록 실제 세포 내 발현을 더 잘 예측한다는 의미다.

165달러로 25종 mRNA 언어 모델 훈련한 오픈소스 팀
165달러로 25종 mRNA 언어 모델 훈련한 오픈소스 팀

3단계 파이프라인 구조

OpenMed의 파이프라인은 단백질 공학 워크플로우의 세 단계를 각각 담당한다.

1단계 — 구조 예측(Structure Prediction) 메타(Meta)의 ESMFold를 활용해 단백질의 3차원 구조를 예측한다. 입력된 단백질 개념이 실제로 어떤 형태를 취하는지 결정하는 단계다.

2단계 — 서열 설계(Sequence Design) 베이커 연구소(Baker Lab)의 ProteinMPNN을 사용해 해당 구조로 접히는 아미노산 서열을 역으로 설계한다.

3단계 — mRNA 최적화(mRNA Optimization) OpenMed가 자체 개발한 CodonRoBERTa 모델을 통해 목표 생물 종에서 최대한 효율적으로 발현될 수 있도록 DNA 코돈을 최적화한다. 이 세 번째 단계가 팀이 가장 많은 노력을 투입한 핵심 영역이다.

25종 확장과 종 조건부 시스템

단일 모델을 단일 종에 훈련하는 것은 기존에도 존재했다. OpenMed의 차별점은 이를 25개 종으로 확장하고, 하나의 모델이 종에 따라 다른 코돈 편향을 학습하는 종 조건부 시스템을 구축했다는 데 있다. 현재 어떤 오픈소스 프로젝트도 이 수준의 다종(multi-species) 지원을 제공하지 않는다고 팀은 밝혔다.

전체 훈련 비용은 55 GPU-시간, 약 165달러에 불과했다. 이는 동급 상용 서비스 대비 극도로 낮은 비용으로, 학술 연구기관이나 스타트업도 자체 모델 훈련을 현실적으로 검토할 수 있는 수준이다.

165달러로 25종 mRNA 언어 모델 훈련한 오픈소스 팀
165달러로 25종 mRNA 언어 모델 훈련한 오픈소스 팀

이 흐름은 언제부터 시작됐나

2021년 DeepMind의 AlphaFold2가 단백질 구조 예측 문제를 사실상 해결하면서, 단백질 AI 분야의 무게중심이 '구조 예측'에서 '서열 설계'와 '발현 최적화'로 빠르게 이동했다. 2022년 이후 ESMFold, ProteinMPNN 같은 오픈소스 도구들이 등장하며 아카데미아와 스타트업도 접근할 수 있는 생태계가 형성됐다.

코돈 최적화 영역은 그 중에서도 가장 늦게 오픈소스화되고 있는 분야다. Twist Bioscience, Integrated DNA Technologies 같은 상업적 서비스들이 시장을 장악해 왔으며, 오픈소스 대안은 기능이 제한적이거나 단일 종 지원에 그쳤다. OpenMed의 이번 작업은 이 공백을 직접 겨냥한다.

[전문가 분석] 바이오파마 AI의 마지막 퍼즐 조각

단백질 설계에서 코돈 최적화는 그간 '마지막 1마일(last mile)' 문제로 불려 왔다. 구조 예측과 서열 설계는 AI가 빠르게 장악했지만, 실제 세포에서 얼마나 잘 발현되는지를 예측하고 최적화하는 단계는 여전히 경험적 규칙과 상용 블랙박스에 의존해 왔다.

OpenMed의 접근 방식이 주목받는 이유는 세 가지다. 첫째, 훈련 비용의 민주화다. 165달러 수준의 훈련 비용은 글로벌 학술 연구소는 물론 개발도상국의 연구팀도 접근 가능한 수준이다. 둘째, 25개 종 지원은 인체뿐 아니라 농업·동물 의약 분야로의 확장 가능성을 열어 준다. 셋째, 완전한 엔드투엔드(end-to-end) 오픈소스 파이프라인의 존재는 재현 가능한 과학(reproducible science)의 기반이 된다.

다만 이 모델이 실제 생물학적 발현 실험(wet-lab validation)을 통과했다는 증거는 아직 공개되지 않았다. 계산적 지표(perplexity, CAI)와 실제 세포 내 발현 효율 사이의 간극은 여전히 존재하며, 임상 적용을 위해서는 추가 검증이 필요할 가능성이 높다.

향후 이 파이프라인이 합성 생물학(synthetic biology) 스타트업과 대학 연구소에서 기본 인프라로 채택될 가능성이 높다. 특히 mRNA 백신 개발이 가속화되고 있는 현 시점에서, 저비용 고성능의 오픈소스 코돈 최적화 도구의 수요는 지속적으로 증가할 것으로 전망된다.

165달러로 25종 mRNA 언어 모델 훈련한 오픈소스 팀
165달러로 25종 mRNA 언어 모델 훈련한 오픈소스 팀

공유

댓글 (16)

바닷가의다람쥐방금 전

165달러로에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다.

솔직한크리에이터방금 전

25종 주제로 시리즈 기사가 나오면 좋겠습니다.

비오는날드럼5분 전

mRNA 관련 통계가 의외였습니다. 생각이 바뀌었습니다.

대전의분석가5분 전

코돈최적화이 일상에 어떤 영향을 줄지 생각해보게 됩니다. 좋은 기사 감사합니다.

햇살의러너12분 전

165달러로이 일상에 어떤 영향을 줄지 생각해보게 됩니다.

활발한사자30분 전

25종에 대해 더 알고 싶어졌습니다. 좋은 기사 감사합니다.

카페의워커30분 전

mRNA이 일상에 어떤 영향을 줄지 생각해보게 됩니다.

느긋한에스프레소1시간 전

코돈최적화의 전문가 코멘트가 설득력 있었습니다. 전문가 의견도 더 듣고 싶습니다.

도서관의커피2시간 전

구독 중인데 만족합니다.

도서관의드럼2시간 전

유익한 기사네요. 25종 관련 통계가 의외였습니다.

꼼꼼한리더3시간 전

mRNA 관련 용어 설명이 친절해서 좋았습니다.

제주의비평가3시간 전

기사 잘 읽었습니다.

도서관의토끼5시간 전

좋은 기사 감사합니다.

가을의달8시간 전

깔끔한 기사입니다. 25종이 앞으로 어떻게 전개될지 주목해야겠습니다.

별빛의별8시간 전

요즘 이 매체 기사가 제일 읽기 좋아요.

유쾌한바이올린

코돈최적화의 전문가 코멘트가 설득력 있었습니다.

AI·테크 더보기

최신 뉴스