首页 > 资讯 > 跨物种细胞图谱:陈

跨物种细胞图谱:陈

The Cross-Species Cell Atlas: Chan Zuckerberg Initiative Releases TranscriptFormer AI Model

美国英语科技、生物

新闻源:GEN - Genetic Engineering and Biotechnology News

2025-04-30 21:00:00阅读时长4分钟1709字

TranscriptFormerAI模型细胞生物学人类健康疾病状态识别细胞疗法免疫系统疾病检测预防细胞类型分类跨物种分析

内容摘要

陈-扎克伯格倡议(CZI)发布了新的生成式AI模型TranscriptFormer,该模型基于覆盖15亿年进化的单细胞转录组学数据训练而成,能够跨物种探究细胞生物学,为治疗应用提供支持。

“嘿,模型,如果我用某个细胞类型的标记基因提示你,你能完成这些基因表达的转录因子吗?” 陈-扎克伯格倡议(CZI)的人工智能负责人Theofanis Karaletsos提出了这个问题。他设想了一个未来,在这个未来中,科学家不再需要通过大量的文献、数据和实验来提出一个非常具体的生物学问题。

相反,Karaletsos看到了一个转折点,即AI模型可以从大数据中提取模式,按需产生有意义的生物学见解,这与查询ChatGPT和浏览数百本图书馆书籍之间的区别。

为了实现这一愿景,Karaletsos和他的CZI同事发布了TranscriptFormer,这是一种生成式多物种模型,用于跨生物体探究细胞生物学。

这篇预印本已发布在bioRxiv上,尚未经过同行评审,作者展示了TranscriptFormer可以被提示预测特定细胞类型的转录因子和基因-基因相互作用,这些预测与独立实验观察结果一致。

TranscriptFormer是在来自12个不同物种的超过1.1亿个细胞的单细胞转录组学数据上训练的,从而涵盖了15亿年的进化。该模型的其他广泛功能包括疾病状态识别、比较生物学、编码多层次生物结构等。

“如果你考虑细胞图谱领域,人们在过去十年里一直在生成数据,但没有人知道如何将这些数据整合成一个单一的参考。”CZI科学负责人Stephen Quake博士在接受《GEN》杂志采访时说,“我们认为TranscriptFormer可以像对所有细胞图谱数据进行基因组组装一样。”

Quake表示,TranscriptFormer将在设计合成生物学和细胞疗法的工程细胞状态方面提供强大的应用,同时还能提供进化见解,以理解物种之间的关系。

TranscriptFormer是CZI虚拟细胞计划的一个进步,这是非营利组织在四月份设定的四个科学重大挑战之一,旨在通过AI和生物学的交叉来改变人类健康。其他挑战包括开发成像技术以绘制复杂的生物系统图谱,创建新的工具以实时测量组织中的炎症,以及利用免疫系统进行疾病的早期检测、预防和治疗。

此外,CZI认为“你需要更多的数据”,同时在选择要生成的数据时要有策略。TranscriptFormer的发布紧随CZI于二月份宣布的十亿细胞项目,该项目与10X Genomics和Ultima Genomics合作,生成前所未有的十亿细胞数据集,以推动生物学中AI模型的快速发展。

CZI并不是唯一涉足虚拟细胞领域的实体。本周早些时候,Arc研究所宣布了扩展Arc虚拟细胞图谱的努力。这家位于帕洛阿尔托的研究机构也以在大数据驱动的AI方面进行大规模投资而闻名。今年二月,Arc与Nvidia合作构建的基因组基础模型Evo 2引起了轰动,成为迄今为止最大的公开可用的生物AI模型。

什么是细胞类型

根据作者的说法,TranscriptFormer展示了扩大进化预训练数据如何增强模型在任务和物种上的泛化能力。

“我们没有赋予模型关于‘什么是细胞类型’或‘什么是物种’的知识。它看到数百万个细胞并学习出现的结构,”Karaletsos告诉《GEN》。

在细胞类型分类中,TranscriptFormer成功地识别了新物种的细胞类型,这些新物种在训练过程中未见过,并且相隔超过6.85亿年的进化距离。在疾病状态预测中,该模型有效地分离了感染SARS-CoV-2的健康和患病细胞,无需特定的COVID-19细胞数据集。TranscriptFormer还能够学习多层次生物结构的出现特性,并根据不同的组织环境对细胞进行聚类。

此外,Karaletsos强调,跨物种分析的能力提供了阐明模型生物如何转化为人类的机会。

“我们知道小鼠教会了我们很多关于毒性和一期临床试验的知识,但在机制上,我们还没有一个模型来预测哪些东西会转移,哪些不会。”Karaletsos告诉《GEN》。“TranscriptFormer是这一轨迹上的坚实第一步。”

至于我们是否已经到达了生物数据的ChatGPT提示器阶段,Karaletsos表示TranscriptFormer还有很长的迭代增长之路。展望未来,团队将专注于扩展模型数据到更多样化的物种和多种模态,如蛋白质组学和基因组学,以进一步增加其泛化范围。

TranscriptFormer在CZI的虚拟细胞平台上公开可访问,代码可在GitHub上获得。此外,研究社区已发布了一个跨物种细胞预测的演示教程笔记本。


(全文结束)

相关知识

人类细胞图谱将成为健康研究的“谷歌地图”
中国科学家系统揭示人类消化道“发育细胞图谱”
《自然》重磅专题:“人类细胞图谱”40余篇论文齐发,重新认识人体!一文看懂三大新进展
促进细胞新陈代谢
单细胞多组学分析揭示哺乳期母体低蛋白饮食对子代的跨代传递
绿色细胞食品批发
合理膳食是健康的基础,细胞通过氧化分解有机物获得能量,脂肪、蛋白质等有机物可以作为细胞呼吸的原料,也可以相互转化。如图是人体肝细胞内的部分生化反应及其联系的示意
多发性硬化症基因组图谱暗示免疫细胞对疾病的敏感性
科学网—细胞的基本生命活动——新陈代谢
细胞培养生物污染有哪些?

网址: 跨物种细胞图谱:陈 https://m.trfsz.com/newsview1349330.html