首页 > 资讯 > 全球首次!GAPS评测集上线:肺癌专病领域AI诊疗能力有了科学评估框架

全球首次!GAPS评测集上线:肺癌专病领域AI诊疗能力有了科学评估框架

随着人工智能技术在医疗领域的广泛应用,如何全面、有效地评估这些AI大模型的实际表现成了行业的一大挑战。12月10日,北京大学人民医院、蚂蚁健康联合推出医疗大语言模型GAPS评测框架,用于评估大模型在专科专病领域的临床表现,并首先在非小细胞肺癌(NSCLC)上开启应用。本次NSCLC-GAPS评测集发布,在全球范围内首次实现对肺癌专病领域AI深度能力的评测,标志着大模型在严肃临床场景的验证取得突破进展。

GAPS首创肺癌专病大模型评测框架,尤其注重安全性

长期以来,肺癌是全球死亡率第一的癌症。然而,由于缺乏针对专科专病深度评估的工具,即使是专业医疗人员,也难以对市场上众多医疗大模型进行客观、细粒度的评价。在此背景下,蚂蚁健康携手北京大学人民医院,基于前沿的人工智能技术与丰富的临床实践经验,共同提出了全球首个基于循证医学的专病专科评测框架GAPS,并在肺癌专病领域首先应用,成功填补这一行业空白,提供了全新的、更加精确的大模型评估标准。

据了解,GAPS从四个关键维度出发,即认知深度(G)、答案完整性(A)、鲁棒性(P)和安全性(S),对大模型在非小细胞肺癌诊疗上的表现进行全方位评估。相比传统评测基准仅关注事实记忆,GAPS覆盖从基础概念理解到标准化诊疗方案,再到复杂诊疗决策的全链条能力,能全面检验模型在真实临床场景中的综合表现。GAPS尤其注重安全性考量,避免模型给出看似合理但实际可能带来风险的建议,如推荐禁忌药物或疗法。

GAPS评测集已开源共享,可扩展至更多疾病领域

GAPS评测集核心包含证据等级、临床推荐强度及推理要点三大要素,系统回答了“依据什么证据”“推荐是否可靠”“推理是否严谨”等关键问题,有效评估医疗大模型在临床决策中的可靠性与循证一致性。

目前,GAPS评测基准已经在GitHub等平台开源,鼓励全球范围内的研究者和技术开发者进行更广泛的应用和探索。通过这种方式,GAPS不仅能够快速复制并应用于其他病种和科室,也为指导AI大模型在临床中更深度应用与融合,提供了有力支持。此外,开源模式有助于促进跨机构合作和技术创新,共同提升医疗服务的质量与效率。

此次蚂蚁健康与北京大学人民医院的合作探索,不仅是对现有医疗AI评测体系的重要补充,也为构建更智能化、精准化的医疗服务体系做出积极贡献。未来,双方将继续深化合作,致力于将GAPS评测集扩展至更多疾病领域,助力全球医疗健康事业的发展进步。

相关知识

全球首次!GAPS评测集上线:肺癌专病领域AI诊疗能力有了科学评估框架
AI 在医疗领域:多维度效果评估与全方位安全性考量的深度剖析
入选 ICML 2025!哈佛医学院等推出全球首个 HIE 领域临床思维图谱模型,神经认知结果预测任务上性能提升 15%
健康医疗数据管理能力成熟度评估(DCMM
医疗AI辅助诊断与风险评估.pptx
北京亦庄企业“AI+医疗”项目助力健康检测和评估
人工智能赋能肺癌早期精准诊疗:基于CT图像的AI技术在肺癌诊治中的应用?如何辅助病理类型分类、指导治疗决策?
人工智能与生命科学:AI在医疗健康十大领域应用前景
循证AI赋能基层医疗,盘点百度在数字健康领域的布局大事件
胡安易:智能人体运动能力评估系统——医疗健康领域的新突破

网址: 全球首次!GAPS评测集上线:肺癌专病领域AI诊疗能力有了科学评估框架 https://m.trfsz.com/newsview1868091.html

所属分类:热点