AI通讀基因全譜:十億參數(shù)單細(xì)胞模型scLong的突破與應(yīng)用
【導(dǎo)讀】scLong不再局限于少數(shù)高表達(dá)基因,而是將單個(gè)細(xì)胞中近2.8萬(wàn)個(gè)基因全部納入建模,并結(jié)合Gene Ontology(GO)的生物學(xué)知識(shí),以更完整地理解基因上下文信息。
在單細(xì)胞轉(zhuǎn)錄組學(xué)領(lǐng)域,研究者致力于從細(xì)胞的基因表達(dá)數(shù)據(jù)中解讀細(xì)胞狀態(tài)、調(diào)控關(guān)系,甚至預(yù)測(cè)基因敲除或藥物干預(yù)后細(xì)胞的變化。
近年來(lái),基礎(chǔ)模型逐漸進(jìn)入該領(lǐng)域,展現(xiàn)出強(qiáng)大的遷移能力;但現(xiàn)有方法常為節(jié)省計(jì)算資源,僅關(guān)注少量高表達(dá)基因,忽略大量低表達(dá)或零表達(dá)基因,同時(shí)缺乏對(duì)外部基因功能知識(shí)的系統(tǒng)整合。這不僅會(huì)丟失關(guān)鍵調(diào)控信號(hào),也易使模型對(duì)復(fù)雜生物過程產(chǎn)生片面認(rèn)知。

近日,MBZUAI、加州大學(xué)圣地亞哥分校(UC San Diego)等機(jī)構(gòu)的聯(lián)合團(tuán)隊(duì)在《Nature Communications》發(fā)表了scLong研究成果。

論文鏈接:https://www.nature.com/articles/s41467-026-69102-y
這是一款擁有10億參數(shù)的單細(xì)胞基礎(chǔ)模型,基于約4800萬(wàn)個(gè)細(xì)胞預(yù)訓(xùn)練而成,可在整個(gè)人類轉(zhuǎn)錄組范圍內(nèi)對(duì)約27874個(gè)基因進(jìn)行建模,并將GO提供的結(jié)構(gòu)化生物學(xué)知識(shí)融入模型。
研究表明,scLong在遺傳擾動(dòng)預(yù)測(cè)、化學(xué)擾動(dòng)預(yù)測(cè)、癌癥藥物反應(yīng)預(yù)測(cè)、基因調(diào)控網(wǎng)絡(luò)推斷等多項(xiàng)任務(wù)中,均優(yōu)于現(xiàn)有單細(xì)胞基礎(chǔ)模型及多種任務(wù)專用模型。
研究背景
為何單細(xì)胞領(lǐng)域需要“更長(zhǎng)”的模型?
因?yàn)榧?xì)胞并非由少數(shù)“明星基因”決定。許多現(xiàn)有模型僅對(duì)約1500至2000個(gè)高表達(dá)基因進(jìn)行自注意力計(jì)算,雖節(jié)省算力,但代價(jià)是大量低表達(dá)基因被排除在外。
這些低表達(dá)基因雖“表達(dá)量低”,卻常扮演調(diào)控開關(guān)、信號(hào)微調(diào)器的角色,甚至在稀有細(xì)胞類型、應(yīng)激反應(yīng)及疾病進(jìn)展中發(fā)揮關(guān)鍵作用。
簡(jiǎn)言之,過去的模型更像是在閱讀“摘要”,而非“全文”。
另一個(gè)問題是,僅依靠表達(dá)矩陣,模型難以真正理解“基因的功能”。
而Gene Ontology提供了基因在生物過程、分子功能、細(xì)胞組分方面的結(jié)構(gòu)化知識(shí)。過去的模型多從數(shù)據(jù)中“自主學(xué)習(xí)”,未明確利用這些成熟的生物學(xué)先驗(yàn),導(dǎo)致在理解功能關(guān)聯(lián)、調(diào)控關(guān)系及跨條件泛化時(shí)存在局限。
因此,scLong的目標(biāo)很明確:既要全面覆蓋基因,又要深入理解基因功能。
將細(xì)胞視為完整的“句子”
用自然語(yǔ)言打比方,scLong的核心思路形象易懂:把細(xì)胞的整條基因表達(dá)譜當(dāng)作一句冗長(zhǎng)復(fù)雜的“句子”。
在這個(gè)“句子”中,每個(gè)“詞”是“基因ID+表達(dá)值”的組合。模型先通過表達(dá)編碼器將數(shù)值型表達(dá)量映射為向量;再通過基因編碼器為每個(gè)基因生成具有生物學(xué)含義的表示;兩者相加后,得到“詞”的初始表示。
隨后,上下文編碼器讓這些基因“相互感知”,從而學(xué)習(xí)基因在當(dāng)前細(xì)胞中的上下文關(guān)系。
scLong的一大亮點(diǎn)是未簡(jiǎn)單舍棄低表達(dá)基因。它采用雙編碼器設(shè)計(jì):對(duì)高表達(dá)基因使用較大的Performer編碼器,對(duì)低表達(dá)基因使用較小的Performer編碼器,最后通過full-length Performer整合所有基因。這在保留全基因組上下文信息的同時(shí),平衡了計(jì)算量與建模能力。
更重要的是,scLong融入了GO知識(shí)圖譜。研究團(tuán)隊(duì)先根據(jù)基因共享的GO注釋構(gòu)建基因圖:
若兩個(gè)基因在生物過程、分子功能或細(xì)胞定位上足夠相似,就會(huì)被連接;
再用圖卷積網(wǎng)絡(luò)(GCN)學(xué)習(xí)基因表示。
這樣,模型不僅知道“基因在細(xì)胞中的表達(dá)量”,還了解“基因的功能及相關(guān)基因”,相當(dāng)于為每個(gè)“詞”添加了背景知識(shí)。
預(yù)訓(xùn)練方面,scLong采用類似BERT的思路:隨機(jī)遮蓋部分表達(dá)值,讓模型重建。
研究團(tuán)隊(duì)使用來(lái)自1618個(gè)單細(xì)胞數(shù)據(jù)集、覆蓋50多種組織的約4800萬(wàn)個(gè)人類細(xì)胞進(jìn)行預(yù)訓(xùn)練,涵蓋27874個(gè)基因,包括蛋白編碼基因和非編碼基因。對(duì)單細(xì)胞領(lǐng)域而言,這相當(dāng)于讓模型先“通讀海量語(yǔ)料”,再執(zhí)行下游任務(wù)。
值得注意的是,scLong將零表達(dá)也視為有效信息。零表達(dá)可能代表“表達(dá)量過低未檢測(cè)到”,也可能是“基因在該細(xì)胞中確實(shí)關(guān)閉”。前者對(duì)應(yīng)微弱但真實(shí)的生物信號(hào),后者則揭示細(xì)胞身份或調(diào)控狀態(tài)。這種“重視缺席信息”的思路對(duì)單細(xì)胞數(shù)據(jù)至關(guān)重要。
從基因擾動(dòng)到藥物反應(yīng)的多任務(wù)突破
遺傳擾動(dòng)預(yù)測(cè):泛化能力更強(qiáng)

在遺傳擾動(dòng)任務(wù)中,模型需根據(jù)細(xì)胞擾動(dòng)前的表達(dá)及擾動(dòng)條件,預(yù)測(cè)擾動(dòng)后的表達(dá)變化。
研究使用Norman數(shù)據(jù)集評(píng)測(cè),重點(diǎn)關(guān)注模型對(duì)未見過的擾動(dòng)組合的泛化能力。結(jié)果顯示,scLong在多數(shù)場(chǎng)景下優(yōu)于Geneformer、scGPT、scFoundation、UCE及任務(wù)專用模型GEARS、ALM和簡(jiǎn)單基線No-Change。尤其在Seen 0/1和Seen 0/2等復(fù)雜場(chǎng)景中,優(yōu)勢(shì)更明顯:Seen 0/1場(chǎng)景下,scLong的Pearson相關(guān)系數(shù)達(dá)0.625,高于GEARS的0.561;Seen 0/2場(chǎng)景下,MSE為0.170,優(yōu)于多數(shù)基線。
此外,scLong對(duì)雙基因擾動(dòng)中的協(xié)同和抑制兩類遺傳互作的識(shí)別也優(yōu)于GEARS,表明它不僅能預(yù)測(cè)“變化程度”,還能理解“基因間的相互作用”。
化學(xué)擾動(dòng)預(yù)測(cè):新藥效果預(yù)判更準(zhǔn)
在化學(xué)擾動(dòng)任務(wù)中,模型輸入藥物分子圖、劑量和細(xì)胞系信息,輸出擾動(dòng)后的基因表達(dá)。研究在L1000子集上評(píng)估scLong,結(jié)果顯示:無(wú)論RMSE、Spearman/Pearson相關(guān)系數(shù),還是Top-100精度指標(biāo),scLong均顯著優(yōu)于Geneformer、scGPT、scFoundation、UCE和任務(wù)專用模型DeepCE。
這意味著面對(duì)新化合物,scLong更擅長(zhǎng)預(yù)判其對(duì)細(xì)胞狀態(tài)的影響。
癌癥藥物反應(yīng)預(yù)測(cè):?jiǎn)嗡幣c聯(lián)合用藥均適用
在癌癥藥物反應(yīng)預(yù)測(cè)任務(wù)中,模型需根據(jù)藥物結(jié)構(gòu)和癌細(xì)胞表達(dá)譜預(yù)測(cè)療效。研究在DeepCDR數(shù)據(jù)集上顯示,scLong的Pearson相關(guān)系數(shù)達(dá)0.878,高于Geneformer的0.852、scFoundation的0.867、DeepCDR的0.837及線性模型的0.746。

更重要的是,研究團(tuán)隊(duì)將任務(wù)升級(jí)到藥物組合預(yù)測(cè):同一癌細(xì)胞系對(duì)兩種藥物聯(lián)用的反應(yīng)。在分布外測(cè)試集上,scLong的AUROC達(dá)0.652,超過多種基礎(chǔ)模型和任務(wù)模型,說明它能在復(fù)雜的聯(lián)合治療場(chǎng)景中提供有效線索。
基因調(diào)控網(wǎng)絡(luò)與批次整合:知識(shí)組織能力突出
在基因調(diào)控網(wǎng)絡(luò)(GRN)推斷任務(wù)中,scLong通過基因表示的相似性重建調(diào)控關(guān)系。結(jié)果顯示,其AUPR達(dá)1.35,顯著優(yōu)于Geneformer、scGPT、scFoundation、UCE、DeepSEM、GENIE3及直接使用GO圖的基線。
這表明scLong學(xué)到的不是“死記硬背”的GO網(wǎng)絡(luò),而是結(jié)合細(xì)胞數(shù)據(jù)后更貼近真實(shí)生物系統(tǒng)的關(guān)系圖。

在零樣本批次整合任務(wù)中,scLong在pancreas數(shù)據(jù)集上的batch ASW達(dá)0.96,超過Raw、HVG、scVI及其他基礎(chǔ)模型。值得注意的是,scLong未在該數(shù)據(jù)集上預(yù)訓(xùn)練或微調(diào),卻超過了專門訓(xùn)練的scVI,顯示出強(qiáng)大的遷移性。
消融實(shí)驗(yàn)也證實(shí):去掉低表達(dá)基因建模或GO圖后,性能會(huì)下降,說明scLong的提升源于“全面覆蓋基因”和“引入生物知識(shí)”。
核心亮點(diǎn)總結(jié)
從“少數(shù)基因”到“全基因組”:將約2.8萬(wàn)個(gè)基因納入上下文建模,而非僅關(guān)注高表達(dá)基因。
生物知識(shí)深度嵌入:GO不再是單純的注釋表,而是參與基因表示學(xué)習(xí)的核心結(jié)構(gòu)。
大規(guī)模預(yù)訓(xùn)練增強(qiáng)遷移能力:基于4800萬(wàn)細(xì)胞的預(yù)訓(xùn)練,使模型在多下游任務(wù)中穩(wěn)健發(fā)揮。
不僅“更大”,更“懂生物”:研究的關(guān)鍵啟示不是參數(shù)量,而是證明低表達(dá)/零表達(dá)基因和結(jié)構(gòu)化先驗(yàn)知識(shí)對(duì)單細(xì)胞基礎(chǔ)模型至關(guān)重要。
實(shí)際應(yīng)用前景
從應(yīng)用角度看,scLong的潛力清晰可見。
首先,在基因擾動(dòng)與功能研究中,它能幫助研究者快速預(yù)測(cè)敲除、過表達(dá)、組合擾動(dòng)的轉(zhuǎn)錄組變化,減少濕實(shí)驗(yàn)試錯(cuò)成本。
其次,在藥物發(fā)現(xiàn)和精準(zhǔn)醫(yī)學(xué)中,它可預(yù)測(cè)化學(xué)擾動(dòng)和癌癥藥物反應(yīng),為候選藥物篩選、聯(lián)合用藥設(shè)計(jì)和個(gè)體化治療提供計(jì)算支持。
再次,在系統(tǒng)生物學(xué)層面,它能輔助重建基因調(diào)控網(wǎng)絡(luò)、理解細(xì)胞狀態(tài)轉(zhuǎn)換,并在多批次數(shù)據(jù)整合中提供穩(wěn)定的細(xì)胞表示。論文作者指出,該模型有望推動(dòng)精準(zhǔn)醫(yī)療、藥物研發(fā)和細(xì)胞生物學(xué)研究。
長(zhǎng)遠(yuǎn)來(lái)看,scLong代表了一個(gè)重要方向:?jiǎn)渭?xì)胞基礎(chǔ)模型不應(yīng)只是將Transformer應(yīng)用于生物數(shù)據(jù),而應(yīng)同時(shí)擁抱“全局上下文”和“領(lǐng)域知識(shí)”。
當(dāng)模型既能“通讀基因全譜”,又能理解基因的生物學(xué)定位時(shí),才更可能成為生命科學(xué)的通用智能工具。
參考資料:https://www.nature.com/articles/s41467-026-69102-y
本文來(lái)自微信公眾號(hào)“新智元”,編輯:LRST,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com



