首页 > 资讯 > 全球首次！GAPS评测集上线：肺癌专病领域AI诊疗能力有了科学评估框架

全球首次！GAPS评测集上线：肺癌专病领域AI诊疗能力有了科学评估框架

泰然健康网
2025-12-10 16:41

随着人工智能技术在医疗领域的广泛应用，如何全面、有效地评估这些AI大模型的实际表现成了行业的一大挑战。12月10日，北京大学人民医院、蚂蚁健康联合推出医疗大语言模型GAPS评测框架，用于评估大模型在专科专病领域的临床表现，并首先在非小细胞肺癌（NSCLC）上开启应用。本次NSCLC-GAPS评测集发布，在全球范围内首次实现对肺癌专病领域AI深度能力的评测，标志着大模型在严肃临床场景的验证取得突破进展。

GAPS首创肺癌专病大模型评测框架，尤其注重安全性

长期以来，肺癌是全球死亡率第一的癌症。然而，由于缺乏针对专科专病深度评估的工具，即使是专业医疗人员，也难以对市场上众多医疗大模型进行客观、细粒度的评价。在此背景下，蚂蚁健康携手北京大学人民医院，基于前沿的人工智能技术与丰富的临床实践经验，共同提出了全球首个基于循证医学的专病专科评测框架GAPS，并在肺癌专病领域首先应用，成功填补这一行业空白，提供了全新的、更加精确的大模型评估标准。

据了解，GAPS从四个关键维度出发，即认知深度（G）、答案完整性（A）、鲁棒性（P）和安全性（S），对大模型在非小细胞肺癌诊疗上的表现进行全方位评估。相比传统评测基准仅关注事实记忆，GAPS覆盖从基础概念理解到标准化诊疗方案，再到复杂诊疗决策的全链条能力，能全面检验模型在真实临床场景中的综合表现。GAPS尤其注重安全性考量，避免模型给出看似合理但实际可能带来风险的建议，如推荐禁忌药物或疗法。

GAPS评测集已开源共享，可扩展至更多疾病领域

GAPS评测集核心包含证据等级、临床推荐强度及推理要点三大要素，系统回答了“依据什么证据”“推荐是否可靠”“推理是否严谨”等关键问题，有效评估医疗大模型在临床决策中的可靠性与循证一致性。

目前，GAPS评测基准已经在GitHub等平台开源，鼓励全球范围内的研究者和技术开发者进行更广泛的应用和探索。通过这种方式，GAPS不仅能够快速复制并应用于其他病种和科室，也为指导AI大模型在临床中更深度应用与融合，提供了有力支持。此外，开源模式有助于促进跨机构合作和技术创新，共同提升医疗服务的质量与效率。

此次蚂蚁健康与北京大学人民医院的合作探索，不仅是对现有医疗AI评测体系的重要补充，也为构建更智能化、精准化的医疗服务体系做出积极贡献。未来，双方将继续深化合作，致力于将GAPS评测集扩展至更多疾病领域，助力全球医疗健康事业的发展进步。

网址: 全球首次！GAPS评测集上线：肺癌专病领域AI诊疗能力有了科学评估框架 https://m.trfsz.com/newsview1868091.html

所属分类：热点