如何阅读医学论文(二) 报告诊断或筛选试验的论文

如何阅读医学论文(二)报告诊断或筛选试验的论文

http://www.100md.com 《英国医学杂志中文版》 1999年第2期

     作者：

    单位：

    关键词：

    英国医学杂志中文版990223How to read a paper

    Papers that report diagnostic or screening tests

    Trisha Greenhalgh

    被告席上的10个人

    如果你对确诊试验的概念较为陌生，下面这个例子可能会对你有帮助。有10个人在等待谋杀罪的审判，其中3人真正犯了谋杀罪，其他7人则清白无辜。陪审团在听完每个人的案情后判其中6人犯有谋杀罪。而实际上在被判罪的人中只有2人是真正的罪犯，其余4人属于误判，有1个罪犯漏网了。
, 百拇医药
    如上信息可以一种被称作2×2列联表的表格表示(表1)。表中横行表示“事情真相”(即是否真正犯罪)，纵列表示陪审团的判决(反映或不反映事情真相)。

    这些典型的数字反映出该陪审团具有如下特征：

该陪审团能正确地辨别出2/3的罪犯；

能正确地识别出3/7的无辜者；

若该陪审团判定某人有罪，则其为真正罪犯的可能是1/3；

若该陪审团判定某人无罪，则其为真正无罪的可能是3/4；

每10个犯罪嫌疑人中该陪审团能判对一半。
, 百拇医药
    这5个特征值分别表明了该陪审团判决的敏感度、特异度、阳性预测值、阴性预测值和审判准确度。下文即考虑将此5个特征值应用于诊断(或筛选)试验，与一个“真实”诊断或称金标准作比较。第6个特征值—— 似然比，则将在本文最后介绍。本文要点

    新的试验应在合适的研究对象群中通过与已确立的金标准进行比较而得到证实

    诊断试验极少有100%的准确性(会发生假阳性和假阴性)

    一项试验若能检测出多数目标病症患者(高敏感度)并能排除多数非患病者(高特异度)，而且阳性试验结果通常能指示病症的存在(高阳性预测值)，则该试验就被证实是有

    效的

    似然比——患者试验结果阳性相比于非患者试验结果阳性的可能有多大——或许是
, 百拇医药
    对一项试验有用程度的最佳测评方法

    证实试验与金标准

    我们的窗户清洁工告诉我说他最近总是感到口渴，并就此已要求一位全科医师为他作糖尿病检查，这种病在他们家族中已有不少患者。该诊所的护士请他取尿标本并浸入一个试剂条。试剂条保持绿色，表明他的尿中不含糖。护士说，这表明他未患糖尿病。证实研究中通过与金标准比较可以统计出诊断试验特征值

    试验特征值

    别名

    涉及问题

    公式(表2)

    敏感度

    真阳性率(真患病)
, 百拇医药
    这项试验在正确挑出患者方面有多好?

    a/(a+c)

    特异度

    真阴性率(健康)

    这项试验在正确排除未患病者方面有多好?

    d/(b+d)

    阳性预测值

    阳性试验的事后概率

    若某人检验为阳性，则患病的概率有多大?

    a/(a+b)

    阴性预测值

, http://www.100md.com     阴性试验的事后概率

    若某人检验为阴性，则未患病的概率有多大?

    d/(c+d)

    准确度

    -

    所有试验得出正确结果的比例有多大?(真阳

    性和真阴性占所有结果的比例)

    (a+d)/(a+b+c+d)

    阳性试验似然比

    -

    在患者中试验阳性比在非患者中试验阳性的
, http://www.100md.com
    可能大多少?

    敏感度/(1-特异度)

    阴性试验似然比

    -

    在非患者中试验阴性比在患者中试验阴性的

    可能大多少?

    (1-敏感度)/特异度

    表1 以2×2列联表显示10人被控谋杀的审判结果

    陪审团的判决

    真正的犯罪状况

    谋杀者

    非谋杀者
, 百拇医药
    有罪

    判决正确(2人)

    判决错误(4人)

    无罪

    判决错误(1人)

    判决正确(3人)

    我对这一结果的必然含义感到疑惑，因为这如同说一个被判有罪的人必然是凶手一样。世界卫生组织将糖尿病定义为空腹血糖大于8mmol/L，或口服100g葡萄糖后2小时血糖大于11mmol/L。如患者有症状，血糖值一次超过上述标准即可诊断；如无症状，则两次超过方可诊断¹。这些严格的标准可称为糖尿病诊断的金标准(虽然语言纯正论者已对此概念提出异议²)。

    试剂条试验比起完善的糖耐量试验来，在实用性上有其独特的优点。但为客观地评价试剂条试验在糖尿病诊断中的作用，我们需要选出一个人群样本(比如100人)并且对每个人做两种试验：尿糖试验(筛选试验)和标准糖耐量试验(金标准)。我们就可以看到每个人的筛选试验结果是否与金标准结果相匹配(表2)。这就是众所周知的证实研究。
, 百拇医药
    Andersson等曾研究过尿糖试验用于诊断糖尿病的有效性³，我在表3中引用了他们的数据(表示为1000个被测样本中的比例)。

    从尿试剂条试验诊断糖尿病的主要特征值的统计(如框图)中，可看出为什么不能同意窗户清洁工表2 以2×2列联表表示诊断或筛选试验的证实研究结果未患有糖尿病的诊断。尿糖阳性试验的敏感度只有22%，这意味着该试验漏掉了将近4/5的糖尿病患者。在有典型病征和家族史的情况下，该窗户清洁工患糖尿病的底线机率(试验前的似然性)相当高，但在一次尿糖阴性诊断之后，此机率降低到原来的4/5左右(阴性似然比0.78；参见下文)。这个人显然需要去做更细致的检查。表2 以2×2列联表表示诊断或筛选试验的证实研究结果

    筛选试验结果

    金标准试验结果

    真患病(a+c)
, 百拇医药
    假患病(b+d)

    试验阳性(a+b)

    真阳性(a)

    假阳性(b)

    试验阴性(c+d)

    假阴性(c)

    真阴性(d)

    表3 以2×2列联表表示在诊断糖尿病时尿糖试验相对于金标准的证实研究结果³

    尿糖试验结果

    糖耐量试验结果

    患糖尿病(n=27)
, http://www.100md.com
    未患糖尿病(n=973)

    含糖(n=13)

    真阳性(n=6)

    假阳性(n=7)

    不含糖(n=987)

    假阴性(n=21)

    真阴性(n=966)

    论文证实了所做试验吗？

    以下10个问题可向某篇声称一项诊断或筛选试验证实有效的论文提出。为准备这些问题，我参阅了一些资料^4-8。

    问题1：这项试验是否真的合我所用？
, http://www.100md.com
    Sackett 等把这点叫做试验的效用⁶。即使这项试验100%有效、精确、可靠，但它对我有帮助吗？它能否发现一个可治之症？如果是，我能以它取代我正用的另一试验吗？我(或我的患者或纳税人)能支付得起所需费用吗？我的患者是否同意？它是否有足够的把握改变我原来的诊断，从而改变治疗计划呢？

    筛选试验的重要特征值的计算

    特征值

    公式

    数据

    (表3)

    值

    敏感度

    a/(a+c)
, 百拇医药
    6/27

    22.2%

    特异度

    d/(b+d)

    966/973

    99.3%

    阳性预测值

    a/(a+b)

    6/13

    46.2%

    阴性预测值

    d/(c+d)

    966/973
, 百拇医药
    97.8%

    准确度

    (a+d)/(a+b+c+d)

    972/1000

    97.2%

    似然比：

    阳性试验

    敏感度/(1-特异度)

    22.2/0.7

    32

    阴性试验

    (1-敏感度)/特异度
, 百拇医药
    77.8/99.3

    0.78

    问题2：此试验是否与真正的金标准做过比较？

    首先你应问一问这项试验是否曾和其他的试验进行过比较。假如使用了一项“金标准”试验，则你应查证一下它是否真的是金标准，或许就用问题1中列出的那些问题。因为很多情况下并未用什么金标准诊断试验。毫不奇怪的是，那些新试验都对成为所谓“金标准”趋之若鹜。如是，这种论文的作者可能需要为判定该新试验而建立和判别出一组标准。应专门核查一下，该论文中所论证的试验是否用来定义金标准。

    问题3：该项证实研究包含的对象群合适吗？

    尽管不可能有研究者天真到只去选择那些健康的男性医学生做他们的证实研究，但也只有27%的已发表研究清楚地定义了试验对象群的年龄、性别、症状或者病情严重程度，以及专门的入选标准等⁷。重要的是这项试验应是对那些病情轻重不同、已接受和未接受治疗以及处于其他不同但又常易混淆的状况下的一群对象做证实研究⁶。
, 百拇医药
    尽管一项试验的敏感度和特异度并不随事件的多少而改变，但阳性或阴性预测值却大大依赖于事件发生的多寡程度。这正是全科医师怀疑那些只是建立于次要关心人群的试验效用的原因，也是一个好的诊断试验未必就是一个好的筛选试验的原因。

    问题4：是否避免了工作偏差？

    这点很容易核查。它的含义简单地说就是“任何人通过这项新的诊断试验所获得的结果，是否也能通过金标准试验获得，反之亦然吗？”只对那些被已证实有效的试验测为阳性的人群进行金标准试验，就是这种研究中一个明显的潜在的偏差。

    问题5：是否避免了期望偏差？

    当病理学家或者其他参与诊断的人下意识地受该病例特有病征知识的影响时，就会产生期望偏差——例如当有胸部疼痛存在的情况下解释一张心电图时。在与金标准作对比的证实诊断试验的整个过程中，所有此类的先验判断都应被“盲化”。
, http://www.100md.com
    问题6：该试验所见可否重复？

    如果同一观察者两次对同一对象做试验，即使试验对象的特征未改变，也会有一定比例病例的试验结果有差异。同样，确认在不同的观察者之间的可重复性位于一个可接受的水平，这也是重要的⁹。

    问题7：从这一证实研究中推导出该试验的特征是什么？

    即使以上所有标准都能满足，该试验仍然可能因其敏感度、特异度及其他一些重要特征值太低而毫无价值——也就是说，该试验无效。什么样的情况才是可接受的，要看筛选的疾病。我们几乎没有人会对一项敏感度95%和特异度80%的色盲试验吹毛求疵，但确实也没有人死于色盲。在英国每个刚出生的婴儿都要做一项用于检查先天性甲状腺机能减退的Guthrie足跟针刺筛选试验，这项试验的敏感度在99%以上，但阳性预测值却只有6%(该试验几乎能找出所有的患病婴儿，但要以高的假阳性率为代价)¹⁰，且肯定如此。显然，找出那些真正患病的婴儿进行治疗以防止其发展成严重的智力残障，要比省去多次重复做一项小的血液试验重要得多。
, http://www.100md.com
    问题8：是否给出了置信区间？

    置信区间是可从数字角度计算的一组结果，表示所得结果的真值可能所处的范围。在前面第一个例子中如果陪审团发现另有1名谋杀者未判罪，则其判决的敏感度将由67%下降到33%，判决的阳性预测值由33%下降到20%。当然，这一例判决的改变引起敏感度产生较大的(且难接受的)变化是由于我们仅以10个案例来考察陪审团的行为。当样本量越大时，置信区间就会越窄。因此当你所阅读论文中报告的研究仅是基于一个相对小的样本时，查看一下它的置信区间尤为重要。

    问题9：是否导出了一个明确的“正常范围”？

    如果该试验给出的不是两个分开的(而是连续的)结果——即如果它给出的是一个数值而不是是或非的判断——那么人们就会问什么样的值才是异常值。对一个连续变量(如血压)而言，定义其相对和绝对危险区间是一门复杂科学，需要考虑引出相反结果并进行预防性治疗的实际可能性。这一过程若应用似然比方法，会更客观(见下文)。
, 百拇医药
    问题10：该试验是否被纳入整个诊断程序的其他可能的试验之中？

    一般来说，我们对高血压的治疗只是简单地基于一系列的平静时血压读数。可将此与用于诊断冠状动脉狭窄的程序相比较。首先，我们选取那些有典型劳力型心绞痛史的患者；其次，我们通常要做平静时心电图、运动心电图，且某些情况下还会做心脏放射核素扫描。大多数患者只有在这些初步检查结果异常时才会做冠状血管造影。

    如果你送检了100名普通人做冠状血管造影，和那些事先被确诊患病的人群相比，检测的结果或许会显示出非常不同的阳性和阴性预测值(甚至敏感度和特异度也会不同)。这意味着对于冠状血管造影这一诊断试验而言，从不同角度证实其有效性实际上是无意义的，除非这些图象是被用来表示其对整个诊断过程有多大作用。

    似然比的注解

    上述问题9对定义一个连续变量的正常范围的问题进行了说明。在这种情形下，将试验结果表述为当试验值达到某一特定水平时患者出现目标症状的实际机率，要比表述为试验结果“正常”或者“异常”更好。例如用前列腺特异性抗原(prostate speci-fic antigen，PSA)试验筛检前列腺癌。多数男性的血液中都会有一些可检测到的抗原(比如0.5ng/ml)，并且多数晚期前列腺癌患者的抗原浓度更高(高出约20ng/ml)。但是某些抗原浓度，例如7.4ng/ml可以出现在完全正常的男性，也可以出现在某些早期癌症患者。可见正常与异常之间并无一个简单的明确界线。
, 百拇医药
    但是我们可以用这一试验对前列腺癌诊断金标准(例如前列腺活组织检查)的证实研究结果来绘制一系列2×2列联表格。每一表格均用异常试验结果的不同定义来划分患者为“正常”或“异常”。依据这些表格我们可以产生按不同抗原浓度分界点区分的不同似然比值。当我们面对一项介于“灰色区”的试验结果时，我们至少能够说，“这项试验虽未能证明患者患有前列腺癌，但它使得准确诊断的可能性提高(或者降低)了x。”

    因此，似然比具有很大的实用价值，并且正在成为表示和比较不同试验有用程度的受欢迎的方法⁶。例如，如果某人进了我的诊室，任何症状都没有，但我仍知道他有5%的可能患缺铁性贫血症，因为我知道人口中的1/20有这种疾病(用诊断试验的语言说，就是贫血症的事前概率为0.05)¹³。

    现在，如果我做一项贫血检验——血清铁蛋白浓度，其结果通常会使诊断贫血的可能性升高或者下降。血清铁蛋白浓度(18～45μg/l)中度下降的似然比为3，因此患者被诊为缺铁性贫血症的可能性就是0.05×3，或者0.15(15%)。这一数值被称为血清铁蛋白试验的事后概率。非常低的血清铁蛋白浓度(18μg/l以下)的似然比是41，使得此类患者患缺铁性贫血症的可能性大于1。另一方面，非常高的浓度(100μg/l以上；似然比0.13)将使患者贫血的可能性由5%降低至1%以下¹³。

, 百拇医药
    验前概率似然比验后概率

    附图利用似然比计算某人是一个吸烟者的事后概率⁶

    附图是一计算图，由Sackett等基于Fagan的原文绘出¹⁴，用于当试验的事前概率(普及率)和似然比已知时，计算事后概率。线A、B和C，由事前概率的25%处(英国成人吸烟率)划出，其轨迹分别穿过似然比的15、100和0.015——是3种检测某人是否吸烟的试验¹⁵。由于为阳性结果的事后概率只有0.5%，试验C实际上检测的是一个人是否为非吸烟者。

    感谢Dr. Sarah Walters和Dr. Jonathan Elford的建议，并特别感谢Dr. Walters提供有关陪审团的例子。

    BMJ 1997; 315:540

    附：对《如何阅读一篇报告诊断或筛选试验的论文》的勘误

    一位读者来信指出：Trisha Greenhalgh的文中有一处名词错误。被称作阴性似然比且用公式(1-敏感度)/ 特异度表示该特征值，实际上并非阴性似然比值，而应为如下问题所称的“患者试验结果阴性相比于非患者试验结果阴性的可能有多大？”的比值。阴性似然比应为问题“非患者试验结果阴性相比于患者试验结果阴性的可能有多大？”所述，并以公式特异度/(1-敏感度)表示。在所举例子中，尿糖阴性试验确实降低了该窗户清洁工患糖尿病的底线机率，事前似然比0.78，但是该试验的阴性似然比应为其倒数，即1.28。

    BMJ 1997; 315：942, http://www.100md.com

百拇医药网 http://www.100md.com/html/analecta/1999/02/01/16/804.htm