一、证据分级与推荐的演进
要实现科学高效的决策,使用者不必花费大量时间和精力去检索和评价证据质量(Quality of Evidence),只需充分利用研究人员预先确立的证据分级标准和推荐意见,参考各种高质量证据帮助科学决策。因此研究人员在创建和推广证据分级标准和推荐意见时,必须力图避免偏倚和多变,以减少误导和滥用。但证据质量良莠不齐,证据分级(Levels of Evidence)和推荐强度(Strength of Recommendations)标准也大相径庭。20世纪60年代,美国两位社会学家Campbell和Stanley首次提出了研究证据分级的思想,并引入内部真实性和外部真实性的概念。1979年,加拿大定期体检特别工作组(Canadian Task Force on the Periodic Health Examination,CTFPHE)首次对研究证据进行分级并给出推荐意见。此后多个机构和组织分别对证据质量和推荐强度进行了规范,但方法各异,标准不一,甚至彼此矛盾。如对证据级别的描述包括字母(如A,B,C等)、数字(如I,II,III等)和字母与数字混合(如Ia,Ib,IIa等),还有一些分级用符号和文字来描述,增加了分级的复杂性,不利于推广和应用。现从分级特点、影响范围、使用领域等角度出发,遴选最具代表性的11个标准进行介绍与分析。
(一)CTFPHE标准
1979年,CTFPHE标准首次基于试验设计将证据分为三级:设计良好的RCT级别最高,专家意见级别最低。将推荐强度按证据级别分为支持和不支持两方面,每方面又分为充分,尚可和缺乏三类。这一标准不仅提高了决策的科学性,也大大方便了医生的工作,该标准的单行本发行超过4万册。此后二十几年,几乎所有分级标准都在此基础上扩展和延伸而成。但该标准没有回答以下问题:
1. 样本量小,质量低的RCT也属于I级证据吗?
2. 结果互相矛盾的RCT仍然属于I级证据吗?
3. 高质量观察性研究仍属于II级证据吗?
1979年CTFPHE证据分级
Level
定义
I
至少1项设计良好的随机对照试验
II-1
设计良好的队列或病例对照研究,尤其来自多个中心或研究组
II-2
在时间和地点上设置了对照的研究,不管是否有干预措施;或重大结果的非对照研究
(如1940年代青霉素的应用)
III
基于临床研究、描述性研究或专家委员会的报告,或权威专家的意见
1979年CTFPHE推荐强度
Grade
定义
A
定期体检中考虑该疾病的证据充分
B
定期体检中考虑该疾病的证据尚可
C
定期体检中支持考虑该疾病的证据缺乏
D
定期体检中不考虑该疾病的证据尚可
E
定期体检中不考虑该疾病的证据充分
(二)David Sackett与ACCP标准
1986年,CTFPHE成员之一的David Sackett针对1979年标准的以上不足,撰文提出了证据的五分法,首次对I级水平的RCT规定了质量,即大样本(I、II型错误都较低)RCT要好于小样本(I、II型错误都较高)RCT,且将证据等级与推荐强度一一对应,即高质量证据同时也是强推荐证据,反之亦然。该标准简洁明了,更适于指导临床医生,但却忽视了低级别的证据,未区分队列研究与病例对照研究,也未纳入专家意见。后来Gordon Guyatt及Deborah Cook等分别于1992、1995、1998、2001和2006年对其进一步修改和完善,主要用于指导美国胸科医师学会(The American College of Chest Physicians,ACCP)抗血栓药物的使用。
1986年证据分级及推荐强度
Level
定义
Grade
定义
I
有确定结果的大样本RCT(I、II型错误都较低)
A
至少一项I级试验支持
II
结果不确定的小样本RCT(I、II型错误都较高)
B
至少一项II级试验支持
III
非随机的同期对照试验
C
只有III、IV、V级证据支持
IV
非随机的历史对照试验
V
无对照的系列病例报道
以上两套系统产生于20世纪70~80年代,此时正是国际临床流行病学和卫生技术评估产生发展、医学科研方法逐渐成熟、医学继续教育空前繁荣的时代。1972年,英国医生Archie Cochrane的经典著作《疗效与效益:健康服务中的随机反映》更是唤起了人们对医学决策科学性和卫生资源合理配置、高效使用的深刻反思。加拿大研究者首次从试验设计角度对证据进行分级,明确提出研究证据优于专家经验,不仅成为医学工作者决策的重要依据,也成为后来诞生的循证医学的基本理念之一。
(三)AHRQ标准
1992年,美国卫生保健政策研究所(Agency for Health Care Policy and Research,AHCPR,现更名Agency for Healthcare Research and Quality,AHRQ)制定的临床实践指南,将随机对照试验的Meta分析作为最高级别的证据,并向全国推广。
1992年AHCPR证据分级及推荐强度
Level
定义
Grade
定义
I a
随机对照试验的Meta分析
A
I a
I b
至少1项随机对照试验
I b
II a
至少1项设计良好的非随机对照试验
B
II a
II b
至少1项设计良好的准实验性研究
II b
III
设计良好的非试验性研究,如对照研究、相关性研究和病例研究
III
IV
专家委员会报告、权威意见或临床经验
C
IV
(四)NEEBGDP与SIGN标准
1996年,英格兰北部循证指南制定项目(North of England Evidence Based Guidelines Development Project,NEEBGDP)发布了他们制定的证据分级标准和推荐强度(表3-7),将RCT,Meta分析和系统评价共同作为最高级别的证据,这是英国继加拿大和美国之后较系统全面发布自己的分级标准。2001年,苏格兰院际指南网络(The Scottish Intercollegiate Guidelines Network,SIGN)发布了更详细的证据分级和推荐强度。荷兰、新西兰、澳大利亚等国先后在临床指南中也引入或修订了各自的证据分级和推荐标准。
1996年NEEBGDP证据等级
Level
定义
Grade
定义
I
基于设计良好的随机对照试验meta分析,系统评价
A
直接基于I级证据的推荐
II
基于设计良好的队列研究或病例对照研究
B
直接基于II级证据或由I级证据外推而来的推荐
III
基于非对照研究或一致的建议
C
直接基于III级证据的或由II级证据外推而来的推荐
2001年SIGN证据分级及推荐强度
Level
定义
Grade
定义
1++
随机对照试验的高质量Meta分析、系统评价,或偏倚可能性很小的随机对照试验
A
直接适用于目标人群的1++或1+级证据
1+
随机对照试验质量较高的Meta分析、系统评价,或出现偏倚可能性小的随机对照试验
1-
随机对照试验的Meta分析、系统评价,或出现偏倚可能性大的随机对照试验
2++
病例对照或队列研究的高质量系统评价,或出现混杂、偏倚和机遇可能性很小而反映因果关联可能性大的、高质量病例对照或队列研究
B
直接适用于目标人群的2++级证据或1++或1+级证据的外推证据
2+
出现混杂、偏倚和机遇可能性小而反映因果关联可能性较大的、较高质量的病例对照或队列研究
C
直接适用于目标人群的2+级证据或2++级证据的外推证据
2-
出现混杂、偏倚和机遇可能性大而反映因素关联可能性明显不足的病例对照或队列研究
3
非分析性研究,即病例报告、系列病例分析
D
3或4级证据,或2+级证据的外推证据
4
专家意见
(五)牛津大学循证医学中心标准
以上证据分级系统逐渐趋于成熟和完善,但仍局限于治疗方面,不适用于预防、诊断等其他领域。
1998年,由临床流行病学和循证医学专家Bob Phillips,Chris Ball,Dave Sackett等人共同循证制定了新的分级标准,2001年5月正式发表于英国牛津循证医学中心的网络上(表3-9)。该标准首次在证据分级的基础上整合了分类概念,涉及治疗、预防、病因、危害、预后、诊断、经济学分析等7个方面,更具针对性和适应性,已成为循证医学教学和循证临床实践中公认的经典标准,也是循证教科书和循证期刊最广泛使用的标准,但由于其过于复杂和繁琐,初次接触循证医学的医生或医学生难于理解和掌握。
2001牛津证据分级与推荐意见强度
推荐
级别
证据
水平
防治与病因
预后
诊断
经济分析
A
Ⅰa
同质性RCTs的系统评价(SR)
同质性前瞻性队列研究的系统评价或有试验基础可靠的临床指南
同质性好的诊断性试验的系统评价或有可靠试验基础的临床指南
同质性好的经济研究的系统评价
Ⅰb
可信区间窄的RCT
随访率≥80%的前瞻性队列研究
全部患者均同步做金标准和诊断试验检查且作独立的盲法比较
全部可靠的备选结果对适当费用测量的比较分析,包括将临床研究观察到的变异结合到重要变量中的敏感性分析
Ⅰc
“全或无”效应
“全或无效应”的病例系列:如具有某些预后因素的系列患者,或全部避免某种结局;或全部呈现某种特殊结局(如死亡)
绝对特异度高即阳性患者则可确诊;绝对敏感度高即阴性患者则可排除;
对干预措施进行分析后能鉴别:
1.成本低其效果佳的程度
2.成本高其效果差的程度
3.成本相同其效果好坏的程度
B
Ⅱa
同质性队列研究的系统评价
1.同质性回顾性队列研究
2.随机对照实验组未治疗者的同质性系统评价
同质性的但水平低于Ⅰ级的诊断性研究的系统评价
同质性的但水平低于Ⅰ级的经济学研究的系统评价
Ⅱb
单个的队列研究(包括低质量的RCT如追踪率<80%者)
1.回顾性队列研究
2.在RCT中未作治疗的对照组患者之追踪结果
3.验证尚未确认的临床指南
1.均同步作了金标准及诊断试验,也进行了独立盲法比较但研究对象局限且不连贯
2.验证尚未确认的临床指南
若干备选结果对适当费用测量的比较分析,包括将临床可观察到的变异结合到重要变量中的敏感性
分析
Ⅱc
“结局”性研究
“结局”性研究
—
—
B
Ⅲa
同质性病例-对照研究的系统评价
—
—
—
Ⅲb
单个病例-对照研究
—
研究对象未全部作金标准检查,但作了适当指标的独立盲法比较
无准确的成本
测量但对重要临
床变量作了敏感
性分析
C
IV
病例系列报告、低质量队列研究及病例对照研究
病例系列报告、低质量的预后队列研究
未独立利用金标准或未作盲法试验
无敏感性分析
D
V
专家意见(缺乏严格评价或仅依据生理学/基础研究/初始概念)
同左
同左
专家意见(缺乏严格评价或仅依据经济理论)
20世纪90年代循证医学的迅猛发展,Cochrane协作网的全球参与,证据分级的逐渐成熟,标志着一个以证据为基础的新医学时代到来。以上分级标准的共同特点是:针对临床,用于指南,传播广泛,影响权威,推荐意见的强度与证据级别对应。但最大的不足是主要从设计质量评价,不利于终端用户使用且标准各异、内容复杂、应用局限。
(六)GRADE标准
2000年,针对当时证据分级与推荐意见存在的不足,包括WHO在内的19个国家和国际组织共同创立GRADE(Grading of Recommendations Assessment,Development and Evaluation)工作组,由67名包括临床指南专家、循证医学专家、各重要标准的主要制定者及证据研究人员构成,旨在通力协作,循证制定出国际统一的证据质量分级和推荐强度系统,并于2004年正式推出。2008年,GRADE工作组在BMJ上发表了6篇系列文章,首次全面介绍了GRADE方法,并推出了配套软件GRADEpro。2011年,GRADE工作组对在BMJ上发表的6篇系列文章进行了全面更新,扩展至22篇系列文章,在Journal of Clinical Epidemiology上陆续发表,以便为GRADE的目标用户(包括系统评价及卫生技术评估作者、指南委员会成员及为指南委员会提供支持的方法学家们)提供更详尽的指导。目前,该组织已有200余名成员。由于其更加科学合理,过程透明,适用性强,目前包括WHO和Cochrane协作网在内的74个国际组织、协会已经采纳GRADE标准(http://www.gradeworkinggroup.org/society/index.htm),成为证据发展史上的里程碑事件。
GRADE证据等级
质量等级
当前定义(2011年)
早前定义(2008年)
高
我们非常确信真实的效应值接近效应估计值
进一步研究非常不可能改变我们对效应估计值的确信程度
中
对效应估计值我们有中等程度的信心:真实值有可能接近估计值,但仍存在二者大不相同的可能性
进一步研究有可能对我们对效应估计值的确信程度造成重要影响,且可能改变该估计值
低
我们对效应估计值的确信程度有限:真实值可能与估计值大不相同
进一步研究很有可能对我们对效应估计值的确信程度造成重要影响,且很可能改变该估计值
极低
我们对效应估计值几乎没有信心:真实值很可能与估计值大不相同
任何效应估计值都是非常不确定的
2004年GRADE推荐强度
Grade
具体描述
强
明确显示干预措施利大于弊或弊大于利
弱
利弊不确定或无论质量高低的证据均显示利弊相当
(七)其他标准
2001年,美国纽约州立大学下州医学中心推出证据金字塔(图3-1),首次将动物研究和体外研究纳入证据分级系统,拓展了证据的范畴,加之简洁明了,形象直观,传播非常广泛。
2005年,Aragon等借鉴循证医学方法,专门针对兽医外科研究证据进行分级(表3-12),尽管尚不完善,也无推荐意见,但仍不失为将证据分类分级理念引入基础研究的有益探索。
2004年3月,中国循证医学中心首次在专科医师分类研究中引入证据分级的概念。2006年2月至2007年10月,中国循证医学中心及其分中心相继发表9篇有关医疗风险的系列文章,针对管理领域尚无证据概念和分类分级标准体系与意识的现状,借鉴循证医学有效性证据分类分级的成功经验,首次对管理证据进行分级,将政府及相关机构报告列为仅次于系统评价、HTA和Meta分析的证据,并根据研究目的分类,为证据在非临床领域的使用做了积极探索。这些标准拓展延伸了证据的应用范围和领域,有益地补充了GRADE小组的工作。
中国循证医学中心对管理证据的分级与定义
2004年
2006年
Levels
定义
Levels
定义
A
系统评价
A
系统评价,Meta分析,HTA
B
官方指南
B
政府及相关机构报告
C
有确切研究方法的文献
C
有确切研究方法的文献
D
综述
D
综述
E
专家意见
E
专家意见
上述证据分级标准与推荐情况见下表。随着循证医学方法和概念更广泛传播和更深入使用,证据分级和推荐强度的理念也不断拓展和深入。
11个证据分级一览表
时间
国家
制定者
分级
特点
适用于
1979
加拿大
CTFPHE
三级
第一次基于试验设计对研究证据分级
预防体检
1986
加拿大
Sackett
五级
考虑证据质量
临床用药
1992
美国
AHCPR
四级
纳入Meta分析
临床指南
1996
英国
NEEBGDP
三级
纳入系统评价
临床指南
2001
英国
SIGN
八级
同时将系统评价、Meta分析与RCT作为最高证据
临床指南
2001
美国
SUNY Downstate Medical Center
九级
纳入动物实验和体外研究
临床指南
2001
英国
CEBM
五级
引入分类概念
卫生保健
2004
国际
GRADE
四级
考虑研究的设计、质量、结果一致性和证据的直接性
卫生保健
2004
中国
李幼平
五级
非医药领域分级
科学研究
2005
美国
Aragon
四级
针对动物研究分级
基础研究
2006
中国
李幼平
五级
决策与管理领域分级
政府决策
上一篇:1.证据的分类
下一篇:3. 证据检索的思路
用户登陆 Login 站内搜索 Search 热门文章 Hot相关知识
2024 CSCO小细胞肺癌指南重磅更新!化疗“骨髓防弹衣”曲拉西利获I级推荐、1A类证据
上海饮料分ABCD级,推荐性递减,那么C级D级还能喝吗?
绿色健康分级认证
婴标认证零食推荐
【推荐】健康状况证明
清脂效果超级好的8种食物推荐
营养师证等级制度详解:证书分几级?报考是否需要逐级进行?
《AECOPD病人早期肺康复运动训练的最佳证据总结》的学习
电子病历系统分级评价平台数据填报
初级小儿推拿保健师证怎么考的 小儿推拿保健师要考什么证
网址: 2.证据的分级与推荐 https://m.trfsz.com/newsview315582.html