欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

<li id="bb3wb"></li>

<dfn id="k4mwy"><tfoot id="k4mwy"></tfoot></dfn>

AI通讀基因全譜：十億參數(shù)單細(xì)胞模型scLong的突破與應(yīng)用

03-19 06:51

scLong：10億參數(shù)單細(xì)胞基礎(chǔ)模型，整合全基因組與GO知識(shí)，多任務(wù)性能全面提升。

【導(dǎo)讀】scLong不再局限于少數(shù)高表達(dá)基因，而是將單個(gè)細(xì)胞中近2.8萬(wàn)個(gè)基因全部納入建模，并結(jié)合Gene Ontology（GO）的生物學(xué)知識(shí)，以更完整地理解基因上下文信息。

在單細(xì)胞轉(zhuǎn)錄組學(xué)領(lǐng)域，研究者致力于從細(xì)胞的基因表達(dá)數(shù)據(jù)中解讀細(xì)胞狀態(tài)、調(diào)控關(guān)系，甚至預(yù)測(cè)基因敲除或藥物干預(yù)后細(xì)胞的變化。

近年來(lái)，基礎(chǔ)模型逐漸進(jìn)入該領(lǐng)域，展現(xiàn)出強(qiáng)大的遷移能力；但現(xiàn)有方法常為節(jié)省計(jì)算資源，僅關(guān)注少量高表達(dá)基因，忽略大量低表達(dá)或零表達(dá)基因，同時(shí)缺乏對(duì)外部基因功能知識(shí)的系統(tǒng)整合。這不僅會(huì)丟失關(guān)鍵調(diào)控信號(hào)，也易使模型對(duì)復(fù)雜生物過程產(chǎn)生片面認(rèn)知。

近日，MBZUAI、加州大學(xué)圣地亞哥分校（UC San Diego）等機(jī)構(gòu)的聯(lián)合團(tuán)隊(duì)在《Nature Communications》發(fā)表了scLong研究成果。

論文鏈接：https://www.nature.com/articles/s41467-026-69102-y

這是一款擁有10億參數(shù)的單細(xì)胞基礎(chǔ)模型，基于約4800萬(wàn)個(gè)細(xì)胞預(yù)訓(xùn)練而成，可在整個(gè)人類轉(zhuǎn)錄組范圍內(nèi)對(duì)約27874個(gè)基因進(jìn)行建模，并將GO提供的結(jié)構(gòu)化生物學(xué)知識(shí)融入模型。

研究表明，scLong在遺傳擾動(dòng)預(yù)測(cè)、化學(xué)擾動(dòng)預(yù)測(cè)、癌癥藥物反應(yīng)預(yù)測(cè)、基因調(diào)控網(wǎng)絡(luò)推斷等多項(xiàng)任務(wù)中，均優(yōu)于現(xiàn)有單細(xì)胞基礎(chǔ)模型及多種任務(wù)專用模型。

研究背景

為何單細(xì)胞領(lǐng)域需要“更長(zhǎng)”的模型？

因?yàn)榧?xì)胞并非由少數(shù)“明星基因”決定。許多現(xiàn)有模型僅對(duì)約1500至2000個(gè)高表達(dá)基因進(jìn)行自注意力計(jì)算，雖節(jié)省算力，但代價(jià)是大量低表達(dá)基因被排除在外。

這些低表達(dá)基因雖“表達(dá)量低”，卻常扮演調(diào)控開關(guān)、信號(hào)微調(diào)器的角色，甚至在稀有細(xì)胞類型、應(yīng)激反應(yīng)及疾病進(jìn)展中發(fā)揮關(guān)鍵作用。

簡(jiǎn)言之，過去的模型更像是在閱讀“摘要”，而非“全文”。

另一個(gè)問題是，僅依靠表達(dá)矩陣，模型難以真正理解“基因的功能”。

而Gene Ontology提供了基因在生物過程、分子功能、細(xì)胞組分方面的結(jié)構(gòu)化知識(shí)。過去的模型多從數(shù)據(jù)中“自主學(xué)習(xí)”，未明確利用這些成熟的生物學(xué)先驗(yàn)，導(dǎo)致在理解功能關(guān)聯(lián)、調(diào)控關(guān)系及跨條件泛化時(shí)存在局限。

因此，scLong的目標(biāo)很明確：既要全面覆蓋基因，又要深入理解基因功能。

將細(xì)胞視為完整的“句子”

用自然語(yǔ)言打比方，scLong的核心思路形象易懂：把細(xì)胞的整條基因表達(dá)譜當(dāng)作一句冗長(zhǎng)復(fù)雜的“句子”。

在這個(gè)“句子”中，每個(gè)“詞”是“基因ID+表達(dá)值”的組合。模型先通過表達(dá)編碼器將數(shù)值型表達(dá)量映射為向量；再通過基因編碼器為每個(gè)基因生成具有生物學(xué)含義的表示；兩者相加后，得到“詞”的初始表示。

隨后，上下文編碼器讓這些基因“相互感知”，從而學(xué)習(xí)基因在當(dāng)前細(xì)胞中的上下文關(guān)系。

scLong的一大亮點(diǎn)是未簡(jiǎn)單舍棄低表達(dá)基因。它采用雙編碼器設(shè)計(jì)：對(duì)高表達(dá)基因使用較大的Performer編碼器，對(duì)低表達(dá)基因使用較小的Performer編碼器，最后通過full-length Performer整合所有基因。這在保留全基因組上下文信息的同時(shí)，平衡了計(jì)算量與建模能力。

更重要的是，scLong融入了GO知識(shí)圖譜。研究團(tuán)隊(duì)先根據(jù)基因共享的GO注釋構(gòu)建基因圖：

若兩個(gè)基因在生物過程、分子功能或細(xì)胞定位上足夠相似，就會(huì)被連接；

再用圖卷積網(wǎng)絡(luò)（GCN）學(xué)習(xí)基因表示。

這樣，模型不僅知道“基因在細(xì)胞中的表達(dá)量”，還了解“基因的功能及相關(guān)基因”，相當(dāng)于為每個(gè)“詞”添加了背景知識(shí)。

預(yù)訓(xùn)練方面，scLong采用類似BERT的思路：隨機(jī)遮蓋部分表達(dá)值，讓模型重建。

研究團(tuán)隊(duì)使用來(lái)自1618個(gè)單細(xì)胞數(shù)據(jù)集、覆蓋50多種組織的約4800萬(wàn)個(gè)人類細(xì)胞進(jìn)行預(yù)訓(xùn)練，涵蓋27874個(gè)基因，包括蛋白編碼基因和非編碼基因。對(duì)單細(xì)胞領(lǐng)域而言，這相當(dāng)于讓模型先“通讀海量語(yǔ)料”，再執(zhí)行下游任務(wù)。

值得注意的是，scLong將零表達(dá)也視為有效信息。零表達(dá)可能代表“表達(dá)量過低未檢測(cè)到”，也可能是“基因在該細(xì)胞中確實(shí)關(guān)閉”。前者對(duì)應(yīng)微弱但真實(shí)的生物信號(hào)，后者則揭示細(xì)胞身份或調(diào)控狀態(tài)。這種“重視缺席信息”的思路對(duì)單細(xì)胞數(shù)據(jù)至關(guān)重要。

從基因擾動(dòng)到藥物反應(yīng)的多任務(wù)突破

遺傳擾動(dòng)預(yù)測(cè)：泛化能力更強(qiáng)

在遺傳擾動(dòng)任務(wù)中，模型需根據(jù)細(xì)胞擾動(dòng)前的表達(dá)及擾動(dòng)條件，預(yù)測(cè)擾動(dòng)后的表達(dá)變化。

研究使用Norman數(shù)據(jù)集評(píng)測(cè)，重點(diǎn)關(guān)注模型對(duì)未見過的擾動(dòng)組合的泛化能力。結(jié)果顯示，scLong在多數(shù)場(chǎng)景下優(yōu)于Geneformer、scGPT、scFoundation、UCE及任務(wù)專用模型GEARS、ALM和簡(jiǎn)單基線No-Change。尤其在Seen 0/1和Seen 0/2等復(fù)雜場(chǎng)景中，優(yōu)勢(shì)更明顯：Seen 0/1場(chǎng)景下，scLong的Pearson相關(guān)系數(shù)達(dá)0.625，高于GEARS的0.561；Seen 0/2場(chǎng)景下，MSE為0.170，優(yōu)于多數(shù)基線。

此外，scLong對(duì)雙基因擾動(dòng)中的協(xié)同和抑制兩類遺傳互作的識(shí)別也優(yōu)于GEARS，表明它不僅能預(yù)測(cè)“變化程度”，還能理解“基因間的相互作用”。

化學(xué)擾動(dòng)預(yù)測(cè)：新藥效果預(yù)判更準(zhǔn)

在化學(xué)擾動(dòng)任務(wù)中，模型輸入藥物分子圖、劑量和細(xì)胞系信息，輸出擾動(dòng)后的基因表達(dá)。研究在L1000子集上評(píng)估scLong，結(jié)果顯示：無(wú)論RMSE、Spearman/Pearson相關(guān)系數(shù)，還是Top-100精度指標(biāo)，scLong均顯著優(yōu)于Geneformer、scGPT、scFoundation、UCE和任務(wù)專用模型DeepCE。

這意味著面對(duì)新化合物，scLong更擅長(zhǎng)預(yù)判其對(duì)細(xì)胞狀態(tài)的影響。

癌癥藥物反應(yīng)預(yù)測(cè)：?jiǎn)嗡幣c聯(lián)合用藥均適用

在癌癥藥物反應(yīng)預(yù)測(cè)任務(wù)中，模型需根據(jù)藥物結(jié)構(gòu)和癌細(xì)胞表達(dá)譜預(yù)測(cè)療效。研究在DeepCDR數(shù)據(jù)集上顯示，scLong的Pearson相關(guān)系數(shù)達(dá)0.878，高于Geneformer的0.852、scFoundation的0.867、DeepCDR的0.837及線性模型的0.746。

更重要的是，研究團(tuán)隊(duì)將任務(wù)升級(jí)到藥物組合預(yù)測(cè)：同一癌細(xì)胞系對(duì)兩種藥物聯(lián)用的反應(yīng)。在分布外測(cè)試集上，scLong的AUROC達(dá)0.652，超過多種基礎(chǔ)模型和任務(wù)模型，說明它能在復(fù)雜的聯(lián)合治療場(chǎng)景中提供有效線索。

基因調(diào)控網(wǎng)絡(luò)與批次整合：知識(shí)組織能力突出

在基因調(diào)控網(wǎng)絡(luò)（GRN）推斷任務(wù)中，scLong通過基因表示的相似性重建調(diào)控關(guān)系。結(jié)果顯示，其AUPR達(dá)1.35，顯著優(yōu)于Geneformer、scGPT、scFoundation、UCE、DeepSEM、GENIE3及直接使用GO圖的基線。

這表明scLong學(xué)到的不是“死記硬背”的GO網(wǎng)絡(luò)，而是結(jié)合細(xì)胞數(shù)據(jù)后更貼近真實(shí)生物系統(tǒng)的關(guān)系圖。

在零樣本批次整合任務(wù)中，scLong在pancreas數(shù)據(jù)集上的batch ASW達(dá)0.96，超過Raw、HVG、scVI及其他基礎(chǔ)模型。值得注意的是，scLong未在該數(shù)據(jù)集上預(yù)訓(xùn)練或微調(diào)，卻超過了專門訓(xùn)練的scVI，顯示出強(qiáng)大的遷移性。

消融實(shí)驗(yàn)也證實(shí)：去掉低表達(dá)基因建模或GO圖后，性能會(huì)下降，說明scLong的提升源于“全面覆蓋基因”和“引入生物知識(shí)”。

核心亮點(diǎn)總結(jié)

從“少數(shù)基因”到“全基因組”：將約2.8萬(wàn)個(gè)基因納入上下文建模，而非僅關(guān)注高表達(dá)基因。

生物知識(shí)深度嵌入：GO不再是單純的注釋表，而是參與基因表示學(xué)習(xí)的核心結(jié)構(gòu)。

大規(guī)模預(yù)訓(xùn)練增強(qiáng)遷移能力：基于4800萬(wàn)細(xì)胞的預(yù)訓(xùn)練，使模型在多下游任務(wù)中穩(wěn)健發(fā)揮。

不僅“更大”，更“懂生物”：研究的關(guān)鍵啟示不是參數(shù)量，而是證明低表達(dá)/零表達(dá)基因和結(jié)構(gòu)化先驗(yàn)知識(shí)對(duì)單細(xì)胞基礎(chǔ)模型至關(guān)重要。

實(shí)際應(yīng)用前景

從應(yīng)用角度看，scLong的潛力清晰可見。

首先，在基因擾動(dòng)與功能研究中，它能幫助研究者快速預(yù)測(cè)敲除、過表達(dá)、組合擾動(dòng)的轉(zhuǎn)錄組變化，減少濕實(shí)驗(yàn)試錯(cuò)成本。

其次，在藥物發(fā)現(xiàn)和精準(zhǔn)醫(yī)學(xué)中，它可預(yù)測(cè)化學(xué)擾動(dòng)和癌癥藥物反應(yīng)，為候選藥物篩選、聯(lián)合用藥設(shè)計(jì)和個(gè)體化治療提供計(jì)算支持。

再次，在系統(tǒng)生物學(xué)層面，它能輔助重建基因調(diào)控網(wǎng)絡(luò)、理解細(xì)胞狀態(tài)轉(zhuǎn)換，并在多批次數(shù)據(jù)整合中提供穩(wěn)定的細(xì)胞表示。論文作者指出，該模型有望推動(dòng)精準(zhǔn)醫(yī)療、藥物研發(fā)和細(xì)胞生物學(xué)研究。

長(zhǎng)遠(yuǎn)來(lái)看，scLong代表了一個(gè)重要方向：?jiǎn)渭?xì)胞基礎(chǔ)模型不應(yīng)只是將Transformer應(yīng)用于生物數(shù)據(jù)，而應(yīng)同時(shí)擁抱“全局上下文”和“領(lǐng)域知識(shí)”。

當(dāng)模型既能“通讀基因全譜”，又能理解基因的生物學(xué)定位時(shí)，才更可能成為生命科學(xué)的通用智能工具。

參考資料：https://www.nature.com/articles/s41467-026-69102-y

本文來(lái)自微信公眾號(hào)“新智元”，編輯：LRST，36氪經(jīng)授權(quán)發(fā)布。

本文僅代表作者觀點(diǎn)，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

拓竹3D打印未造出真Labubu，卻戳中泡泡瑪特的焦慮點(diǎn)

醫(yī)院門口的烤紅薯攤：藏在煙火氣里的生存與慰藉

胡庭州的憂慮：水井坊年輕化布局有動(dòng)作卻無(wú)爆款

淘天集團(tuán)2027屆實(shí)習(xí)生招聘啟動(dòng)：聚焦AI領(lǐng)域新增三類核心崗位

阿里云漲價(jià)公告提振市場(chǎng) 恒生科技指數(shù)由跌轉(zhuǎn)漲

<dfn id="soiwc"><tr id="soiwc"></tr></dfn>

<menu id="soiwc"><tbody id="soiwc"></tbody></menu>

<small id="soiwc"></small>