临床非劣效性_等效性评价的统计学方法(药理试验设)

临床非劣效性/等效性评价的统计学方法

http://www.100md.com 2003年8月25日《中国临床药理学与治疗学》 2000年第4期

     作者：刘玉秀姚晨陈峰陈启光苏炳华孙瑞元

    单位：刘玉秀(南京军区南京总医院医务部，南京210002)；姚晨陈峰(南通医学院医学统计教研室，南通226001)；陈启光(东南大学医学院流行病学与生物统计系，南京210009)；苏炳华(上海第二医科大学生物统计教研室，上海200025)；孙瑞元(皖南医学院临床药理研究所，芜湖241001)

    关键词：

    中国临床药理学与治疗学000417

    中图分类号R965.2 以安慰剂作为对照的随机双盲临床试验一直被视为药物开发中的金标准，它在确认新的试验药物的疗效优于安慰剂方面发挥着重要的作用。然而，如果有现成的疗效肯定的药物，仍用安慰剂对照做临床试验，会面临伦理上的困难。随着愈来愈多可供应用的有效药物的出现，疗效有突破的新药愈来愈少，因而药物临床研究的目的发生了转变。在阳性对照试验中，更多的情形是探求新药与标准的有效药物相比其疗效是否不差或疗效相等(严格地说，疗效相等应该是既不比标准药差，也不比标准药好)，而并不一定要知道新药是否优于标准药，由此而提出了非劣效性/等效性试验(noninfer_iority/equivalencetrials)^[1]。
, 百拇医药
    非劣效性/等效性试验与通常意义下的优效性试验(superioritytrials)在设计和统计分析上是有区别的。近年来，尽管对设计和分析该类试验已给予强调，但遗憾的是，许多非劣效性/等效性临床试验的评价缺少针对性，仍仿照安慰剂对照试验的方式进行，因而导致了非劣效性/等效性试验的样本含量估计、无效假设和备选假设确定、统计学分析和结论推断等方面的不够合理，难以达到设想的目的^[2]。

    本文拟主要介绍有关非劣效性/等效性试验中涉及的统计学分析方面的一些具体问题，至于在设计时还必须考虑的有关对照的选定等问题可参考文献^[2]及ICH文件E10：“临床试验对照的选择”^[3]。

    1 非劣效性/等效性界值

    从临床上讲，一种新药的药效不比标准对照药差，到底临床上可接受的最大允许的范围是多少
, 百拇医药
    呢？或者说，新药比对照药最低到多大程度才能算

    “非劣效(noninferiority)”呢？类似地，新药和对照药的疗效相比，最低不能低于多少以及最高不能超过多少才可认为是“等效(equivalence)”呢？这就涉及到临床非劣效性/等效性界值(nonferiority/equivalencemargin)的问题。为叙述方便，我们统一用δ表示界值，并以-δ表示劣侧界值，以δ表示优侧界值。显然，非劣效性试验仅用-δ一个界值，而等效性试验要用-δ和δ两个界值。

    δ是一个有临床意义的值，该值的选定至关重要。若δ选大了，将把药效达不到要求的药物判断为非劣效或等效而推向市场；若δ选小了，则可能会埋没一些本可推广使用的药物。这一数值不应大于安慰剂对照的优效性试验确认有效的效应差值△。一般来说，δ的决定应该由临床学家和统计学家商讨联合做出，而不是单独地依赖统计学家。注意，选定δ时一定要从临床药效角度，结合以往的试验结果，必要时进行成本效益分析等诸多方面反复论证。δ界值必须在试验的设计阶段决定并在试验方案中阐明，一旦确定，事后不得随意更改。除非发现新的δ界值比原先选定的δ界值更合理，在揭盲之前可作更正，并在修订方案中陈述理由。一旦揭盲，不得更改。
, http://www.100md.com
    根据既往的经验^[4]，对有些临床定量指标的等效界值，有学者提供了可供参考的建议标准，例如血压可取为0.67kPa(5mmHg)，胆固醇可取为0.52mmol^.L-1(20mg^.dl-1)，白细胞可取为0.5×109^.L-1(500个/mm3)；当难以确定时，可酌取1/5～1/2个标准差或参比组均数的1/10～1/5。对两组率而言，有人建议δ最大不应超过对照组样本率的1/5。有作者指出，δ不能过小，否则，所需的样本含量可能会不切实际。

    尽管δ值的选定并不容易，但若试验的目的就是为了确认非劣效性/等效性，人们也不得不面对这些困难并解决之。

    药理试验设计与统计

    例1：为了显示一种新药血管紧张素Ⅱ拮抗剂(AⅡantagonist)治疗轻中度原发性高血压的降压效果是否不差于标准药血管紧张素转换酶抑制剂(ACEinhibitor)，请按照非劣效性试验的要求制定非劣效界值δ。
, http://www.100md.com
    该试验以药物ACE作为阳性对照，试验的主要终点指标取仰卧舒张压(SDBP,单位为mmHg)。既往的许多ACE与安慰剂的对照试验显示，两组SDBP与基线相比平均舒张压下降值的差值至少达到10mmHg才能认可药物的疗效，即最小的药物效应差值△=10mmHg。基于临床和统计学的综合考虑，经讨论认为用δ=3mmHg(约为△的30%)作为非劣效性试验的界值是合理的。

    2 判定非劣效性/等效性的假设检验方法

    假设检验(hypothesestesting)是基于一定的检验假设进行推断的一类方法。我们平时所做的绝大多数检验假设为两组相等的零假设，其统计推断往往仅限于两者的差别有无统计学意义，若P>α，意味着统计上“不能拒绝零假设”，但并非说明零假设成立，更没有理由说两组相等，因为检验的效能(poweroftest)未知；如P≤α，虽然可“拒绝零假设”，但也只能推断两者在统计上有差别，而不能评价差别的大小。这难以满足临床实际中需要评价疗效差别的要求。为了能对非劣效性/等效性进行推断，需要建立有别于传统的检验假设^[2,5,6]。为方便叙述，统一用如下符号作为组别或参数：
, 百拇医药
    T=试验治疗组，也泛指相应组效应的参数(均数或率)

    S=标准治疗组，即阳性对照组，也泛指相应组效应的参数(均数或率)

    δ=非劣效/等效界值。非劣效性试验用-δ，等效性试验用-δ和δ

    2.1检验假设的构建和检验用统计量无效假设(nullhypotheses)和备选假设(alternativehypotheses)分别用H0和Ha表示。以α作为总的检验水准。表1列举了几种不同情形下的检验假设和检验统计量计算的通用公式。

    表1不同试验类型的检验假设

    本表所示的检验统计量假设数据来自大样本，数据分布正常。其中d为T组样本效应值减去S组样本效应值的差值，即d=T-S，sd为d的标准误。z为检验统计量，服从标准正态分布。
, http://www.100md.com
    2.2结论的推断

    2.2.1非劣效性试验由于只进行一次单侧检验(one_sidedtest)，若P≤α,则H0被拒绝，可推论T非劣效于S；若P>α，则还不能下非劣效的结论。这里的α含义是，当T比S疗效差，其效应差值实际上超过δ时，错误地下T非劣效于S结论的概率。

    2.2.2等效性试验由于需要在两个方向上同时进行两次单侧检验(twoone_sidedtests)，故亦需分别推断。若P1≤α/2和P2≤α/2同时成立(注意每次检验的水准只用总的检验水准α的一半)，则两个无效假设均被拒绝，前者推论T不比S差，后者推论T不比S好，因此综合的推断是T和S具有等效性；若P1和P2中的任何一个大于α/2，则不可下等效的结论。这里的α含义是，当T与S的疗效差值实际超过δ(包括差-δ以下或好δ以上两种情况)时，错误地下T和S等效结论的概率。

    2.2.3优效性试验有两种不同的情形。一种是严格意义上的，从统计学的角度考虑的优效性，这时所用的假设为通常的零假设，为单侧检验。目前临床试验中一般用此概念。如果能拒绝无效假设，可下统计学意义上优效的结论。当然这种优效性较弱，有时可看作是边缘优效性。
, http://www.100md.com
    另一种是从临床意义上提出的优出一定量的优效性，姑且也用δ表示该量。此时若拒绝无效假设，可下临床优效性的结论。

    3判定非劣效性/等效性的可信区间方法

    可信区间方法亦可用于非劣效性/等效性的判定，该方法通过构建有关参数差别的可信区间(confidenceinterval,缩写为CI)作为评价的决策准则。CI方法在ICH的指导原则中曾予以推荐，指出：对非劣效性或等效性试验安全性与耐受性的评价，应用可信区间比用假设检验更佳^[1]。一些具体的方法，可参见文献^[6]。

    假定总的可信度取100(1-α)%，以CL表示可信区间的下限，以CU表示可信区间的上限。

    3.1非劣效性试验按单侧100(1-α)%可信度，计算出T-S可信区间的下限CL，若^{[CL,∞)完全在}[-δ,∞)范围内，或者CL>-δ，可下非劣效性的结论。
, http://www.100md.com
    3.2等效性试验按双侧100(1-α)%可信度，计算出T-S可信区间的下限CL和上限CU，若[CL,CU]完全在[-δ,δ]范围内，或者-δ
    3.3优效性试验按单侧100(1-α)%可信度，计算出T-S可信区间的下限CL。若[CL,∞)不包括0，或CL>0，可下统计学优效性的结论；若[CL,∞]完全超出(-∞,δ)范围，或者CL>δ，可下临床优效性的结论。

    例2：继续上例。假使：δ=3mmHg，两组合并标准差s=8mmHg，两组样本含量均为120，取单侧α=0.05，方案规定可用两步法(见后)。主要指标结果：SDBP与基线相比平均下降值，T=14mmHg，S=12mmHg。经计算：d=14-12=2mmHg，sd=8(1/120+1/120)1/2=1.033mmHg。

    表1 不同试验类型的检验假设试验类型
, 百拇医药
    无效假设

    备选假设

    检验统计量

    非劣效性试验

    H_0:T-S-δ

    H_0:T-S-δ

    z=(d+δ)/st

    等效性试验

    H_10:T-S-δ

    H_10:T-S-δ

    z1=(d+δ)/st
, http://www.100md.com
    H_20:T-Sδ

    H_20:T-Sδ

    z2=(δ-d)/st

    H_0:T-S0

    H_0:T-S0

    z=d/St

    H_0:T-S<δ

    H_0:T-S<δ

    z=(d-δ)st

    第一步：非劣效性评价
, http://www.100md.com
    单侧假设检验：z=(2+3)/1.033=4.84>1.645(z0.95)，P<0.05

    单侧95%可信区间下限：CL=2-1.645×1.033=0.301>-3

    两种方法均显示，在抗高血压效果方面新药AII拮抗剂与标准药ACE抑制剂相比具有非劣效性。

    第二步：优效性评价

    单侧假设检验：z=2/1.033=1.936>1.645，P<0.05

    单侧95%可信区间下限：CL=0.301>0结果表明，新药AII拮抗剂比标准药ACE抑制剂的抗高血压效果具有统计学意义优效性。

    ICHE9指导原则中的建议[1]更保守些，若按α取0.025的标准判断，非劣效性评价的z=4.84>1.96(z0.975)，P<0.025，可下非劣效性结论。但是，因优效性评价的z=1.936<1.96，P>0.025，尚不能认为具有统计学优效性，更达不到临床意义上的优效性。
, http://www.100md.com
    有一种情况值得注意，即求得的可信区间的下限大于-δ，但上限却比0小，管理当局比如美国的FDA可能仍然把试验药看作和标准药不等效，甚至比标准药还差，尽管非劣效性的标准已经达到了。这一额外增加的标准之严格，似乎并不是从统计学意义上考虑的。事实上，这对很高效地完成试验而出现了窄小的CI可能是不公正的。

    4非劣效性/等效性试验样本含量估计及检验效能

    对服从正态分布的数据(定量指标)和服从二项分布的数据(率指标)分别介绍。

    4.1定量指标

    4.1.1非劣效性试验按照单侧的检验水准α，要求允许的二类误差概率不超过β，在T=S的条件下，非劣效性试验每组需要的样本含量为：

    n=2[(Z1-α+z1-β)(s/δ)]2
, 百拇医药
    检验效能为：

    1-β=Ф[δ(2s2/n)-1/2-z1-α]

    式中s为两组的合并标准差。n为每组的样本含量。Ф[x]代表标准正态分布下x左侧的概率Pr[X≤x]。

    例3：上例继续。若按非劣效性设计试验，假定，α=0.05，β=0.10，将有关量：z0.95=1.645，z0.90=1.282，s=8mmHg，δ=3mmHg代入公式则可求得每组的样本含量为：n=2[(1.645+1.282)(8/3)]2=121.8≈122

    4.1.2等效性试验按照双侧的检验水准α(等同于按单侧的α/2)，要求允许的二类误差概率不超过β，在T=S的条件下，等效性试验每组需要的样本含量为：

    n=2[(Z1-α/2+z1-β)(s/δ)]2
, http://www.100md.com
    检验效能为：

    1-β=2Ф[δ(2s2/n)-1/2-z1-α]-1

    例4：上例继续。假定各参数不变，只是按等效性试验来进行设计,则每组需要样本含量：

    n=2[(1.96+1.282)(8/3)]2=149.5≈150

    可见，等效性试验设计的每组的样本含量要比非劣效性试验增加近30例。

    4.1.3优效性试验

    ①优于阳性标准对照组的试验：按照单侧的检验水准α，要求允许的二类误差概率不超过β，在T优于S的效应差量为ε，即T-S=ε的条件下，优效性试验每组需要的样本含量为：

    n=2[(Z1-α+z1-β)(s/ε)]2
, 百拇医药
    检验效能为：

    1-β=Ф[ε(2s2/n)-1/2-z1-α]

    例5：上例继续。假定单侧α=0.05，β=0.10，ε=2。即按0.05的检验水准，在90%的把握度下，检出试验组比阳性对照组优2mmHg每组所需的样本含量为：

    n=2[(1.645+1.282)(8/2)]2=274.2≈274

    ②优于安慰剂组的试验:按照单侧的检验水准α，要求允许的二类误差概率不超过β，在T优于S有临床意义的差量为Δ时，优效性试验每组需要的样本含量为：

    n=2[(Z1-α+z1-β)(s/Δ)]2

    检验效能为：

    1-β=Ф[△(2s2/n)-1/2-z1-α]
, 百拇医药
    例6：上例继续。假定设计为优于安慰剂的试验。单侧α=0.05，β=0.10，Δ=10。即按0.05的检验水准，在90%的把握度下，检出试验组比安慰剂组优10mmHg每组所需的样本含量为：

    n=2[(1.645+1.282)(8/10)]2=10.97≈12

    由上可见，采用阳性对照的非劣效性试验、等效性试验、优效性试验所需的样本含量均比安慰剂对照试验要大。因为：z1-α
    4.2率指标

    有关的数学符号及意义同定量指标。
, http://www.100md.com
    4.2.1非劣效性试验按照单侧的检验水准α，要求允许的二类误差概率不超过β，在两组总体率T=S=π的条件下，非劣效性试验每组需要的样本含量为：

    n=2[π(1-π)δ-2](z1-α+z1-β)2

    检验效能为：

    1-β=Ф[δ{π(1-π)(2/n)}-1/2-z1-α]

    例7：治疗手足癣常规推荐伊曲康唑100mg用药4周方案，考虑到该药有极高的组织亲和性，停药后可在角质层持续停留4周，这种药动学特性提示服药1周的短程疗法可能对皮肤真菌病有效。为此设计了400mg1周和100mg4周的比较试验，考察新方案的疗效是否不比常规方案差。以临床治愈率作为评价终点，假设两方案的疗效相同，根据以前的疗效及有关要求，取：T=S=π=0.80，δ=0.15，α=0.05，β=0.20。则z0.95=1.645，z0.80=0.845，每组需要的样本含量按公式计算如下：
, 百拇医药
    n=2[0.80(1-0.80)0.15-2](1.645+0.845)2

    =88.2≈88

    4.2.2等效性试验按照双侧的检验水准α(等同于按单侧的α/2)，要求允许的二类误差概率不超过β，在两组总体率T=S=π的条件下，等效性试验每组需要的样本含量为：

    n=2[π(1-π)δ-2](z1-α/2+z1-β)2

    检验效能为：

    1-β=2Ф[δ{π(1-π)(2/n)}-1/2-z1-α]-1

    例8：上例如保持各项参数不变，只是按照等效性试验来设计，其每种方案所需的样本含量为：

    n=2[0.80(1-0.80)0.15-2](1.960+0.845)2=111.9≈112
, http://www.100md.com
    值得提出的是，以上非劣效性/等效性试验样本含量的计算均建立在两组的真实差别为0，即在T=S的前提下，按检验水准α能检验出非劣效性/等效性的概率作为检验效能。如果试验药效实际上低于阳性对照药，但在δ以内时(这在理论上和实际中均是完全可能的)，此时如仍用上述的计算公式计算样本含量，将会低估这一检验效能时所应该需要的样本含量，或者说达不到目前预定的检验效能[8]。例如[5]，按照T=S=π=0.90，δ=0.1，α=0.05，β=0.20设计的等效性试验每组需要142例，如果试验组的的真实疗效是85%而不是90%，两组差别仅为5%，小于允许的10%(δ=0.1)，仍符合等效性的条件。此时如果每组用142例进行试验，则下等效结论的机会仅为25%，检验效能很小，说明样本含量不够。

    当然，在实际工作中样本含量的估计还应考虑到病人的脱落等问题[9]，此不祥述。

    5讨论

    传统假设检验差别无显著性(P>α)与非劣效性/等效性试验的非劣效/等效(P≤α)是两种不同的概念，前者表示现有数据因例数少、误差大或参数本身相近等原因尚不能作出两组差别有统计学意义的结论，后者表示根据临床专业上的界值标准及统计上的α水准，可作出两组非劣效或等效且有统计学意义的结论。从理论及实际分析看[10]，两组差别无统计学意义(P>α)，不一定存在非劣效性或等效性；两组差别有统计学意义(P≤α)，也可能是非劣效或等效的，因此，一般假设检验意义下的结论决不可代替非劣效性或等效性检验。
, 百拇医药
    从实际的结果看，若试验用药组和标准阳性对照组样本效应值的差值小于δ时，可进行非劣效性/等效性的评价。如果T组比S组样本效应的差值比δ还大时，则无需做上述的任何检验，因为即便做了也必定得不出非劣效或等效的结论。如果T组比S组的样本效应值好的幅度比δ大时，倒是可以做一下临床意义上的优效性检验，以确认T的疗效在临床疗效上确实比S好，这在临床研究中也是

    具有非常重要实际意义的[7,10]。

    如果开始是按照非劣效性试验来设计的，而且T样本的效应好于S样本，当非劣效性试验的无效假设被拒绝，而可以推断T比S具有非劣效性时，可进一步检验T的优效性[2]。我们可称之为两步法或步进法。Morikawa和Yoshida概括为“单侧等效性检验与单侧优效性检验组合法”[11]。尽管在实际中并不一定要求对检验水准α进行校正，但是，要想这样做，应在设计阶段考虑到，并事先在试验方案中讲明，而不是到统计分析阶段根据检验结论的提示才想到要作进一步分析。
, 百拇医药
    因为我们经常用阳性对照，试验药和阳性药在临床疗效上非劣效、相当或优效时，习惯上都笼统地称为“等效”，可以批准上市。但严格意义上的等效性与之是有区别的，正如生物利用度等效性研究中的等效性一样，试验药比阳性药效应低到一定程度或高到一定程度都不能说等效[12,13]。实际上，临床等效性并不要求这么严格，因为我们最关心的是新药是否不比阳性对照药差，至于在另一个方向上的好与不好并不关心，或者说没有必要关心。因而阳性对照试验中大多数应该属于非劣效性试验。当然，即使用了等效性试验方法，对新药评审来说，也无可厚非，因为这并未降低标准，从某种程度上说还抬高了标准。

    本文所用的统计推断方法和一般情况下统计推断方法应用条件相似，当不符合统计方法的应用条件时应考虑进行校正或另选其它的方法，例如，两组均数比较方差不齐时，可采用Satterthwaite校正法等进行检验[6]；两组率比较例数较少或率较接近0或1时，可采用精确概率法等。随着临床疗效非劣效性/等效性评价的不断应用，对有些统计问题，譬如意向性分析(ITT分析)和符合方案集分析(PP分析)的选用、不符合统计应用条件的处理、缺失值及异常值的处理等还需作更深入的研究和探讨，以满足实际工作的需要和要求的不断提高。
, 百拇医药
    我国目前已提出新药临床等效性试验的要求[14]，但仍存在着标准偏低或不够明确的不足。例如，60对的试验例数在许多情况下检验效能不足，对临床等效界值δ并未明确指出，还有α、β的标准掌握不够一致等问题，这些均不利于新药的审评。从我国的临床试验实际看，已有进行等效性分析的实例，但往往不是从一开始就按照非劣效性/等效性试验来设计的，因而到最后统计分析时才确定的一些标准，在把握上容易出偏差。严格讲，非劣效性/等效性试验的标准(如样本含量、δ、α、β等等)都要在设计阶段确定，以后非必要时不得更改。作者认为，对临床非劣效性/等效性试验，应参照生物利用度等效性评价的指导原则，建立起临床疗效的非劣效性/等效性评价的指导性原则或标准，以使研究者有章可循。

    本文介绍的主要是有关统计学方面的事项，对其他方面的问题已超出范围，但要提醒大家，非劣效性/等效性试验的所有设计、实施、分析等涉及到的申办者方、研究者方、管理当局等方面的工作程序、职责和要求等一点也不能减少。

    刘玉秀，男，34岁，副主任医师，医学统计硕士，主要从事科研管理及临床试验设计与统计分析研究工作。
, http://www.100md.com
    参考文献

    1，ICH.E9 Statistical Principles for Clinical trials,1998

    2，H wang IK,Morikawa T.Design issues in noninferior_ity/equivalence trials.Drug Information Journal,1999;33:1205

    3，ICH.E10 Choice of control groups in clinical trials, 1998

    4，倪宗瓒,主编.医学统计学.第2版.北京:人民卫生出版社,1998:21;44

    5，Chuang_Stein C. Clinical equivalence— — a clarifica_ tion. Drug Information Journal,1999;33:1189
, 百拇医药
    6，刘玉秀,洪立基,主编. 新药临床研究设计与统计分析.南京大学出版社,1999:88;120;125;162

    7，黄正南 . 两个总体均数和两个总体率等价或差别有实际意义的统计推断 .数理医药学杂志 , 1993;6(1):25

    8，MaKuch R,Simon R.Sample size requirements for evaluating a conservative therapy. Cancer Treat Rep, 1978;62(No. 7):1037

    9，Meinert CL, Tonascia S. Clinical Trials— — Design, Conduct, and Analysis. Oxford Unversity Press, 1986:71
, 百拇医药
    10 刘玉秀 ,杨友春 . 临床试验疗效的等效性评价 .中国临床药理学与治疗学 ,1999;4(3):220

    11，Morikawa T, Yoshida M. A useful testing strategy in Phase III trials: Combined test of superiority and test of equivalence. J Biopharm Stat, 1995;5(3):297

    12，Schuirmann DJ. Bioequivalence test and two one_sided t test. J Pharmacokin Biopharm, 1987;15(1):16

    13，Schuirmann DJ.A comparison of the two one_sided tests procedure and the power approach for assessing the equivalence of average biovailability. J Pharma_ cokin Biopharm, 1987;15(6):657

    14，国家药品监督管理局第2号令.新药审批办法.1999

    2000-10-23收稿, 百拇医药

百拇医药网 http://www.100md.com/html/analecta/2003/08/25/55/689.htm