跳到主要内容

透过镜子:理解不自卑

摘要

非劣效性试验测试新产品是否比现有产品差到不可接受的程度。本文介绍了与非劣效性相关的概念,并讨论了欧洲药品管理局和美国食品药品管理局的监管观点。

同行评审报告

简介

“是啊,在我们国家,”爱丽丝说,仍然有点喘着气,“你通常会到别的地方去——如果你像我们这样跑得很快很长时间的话。”

“一个缓慢的国家!”王后说。“现在,在这里,你看,你要竭尽全力地跑,才能保持在同一个地方。如果你想去别的地方,你必须跑得至少比这快一倍!”

刘易斯·卡罗尔的那首,镜中奇遇记

当你试图证明一种新的干预比以前的干预更好时,经典统计学是不够直观的。你不能证明你想证明的东西;你只能说,你观察到的数据提供了足够的证据来驳斥两种干预措施具有相同效果的假设。然后,当你试图估计效应的大小时,你只能说,如果你将实验重复无限次,并按照所教的方法计算置信区间(CI), 95%的区间将覆盖真实效应。(难怪人们会选择贝叶斯推理!)但是,尽管经典统计学可能很困难,也违反直觉,但与非劣等性试验中的推理问题相比,它们是简单的。

当设计一个试验以显示新的干预措施的优越性时,你指定一个零假设;与“null”一词一致,您的假设断言两种干预是相同的。然后你选择一个替代假设,说明平均值或其他统计数据之间的差异是γ。在本文中,我们假设较大的积极结果优于较小的积极结果,并且积极的治疗差异γ提供了获益的证据。对于较小结果优于较大结果的情况(例如,癌症应用中的肿瘤大小),本文中的符号将从负向正变化。你使用你选择的I型错误率或α,你想要的幂,和γ来选择你的样本量。你的实验的目标是拒绝零假设,因此γ在某种意义上是一个工具,帮助你选择样本容量。在试验结束时,估计的影响可能大于或小于γ,但只要95% CI的下界高于零,您就可以拒绝零假设。预先选择的γ在优势试验的分析中没有正式的统计作用,尽管假设γ和估计效应之间的量级差异可能会影响如何解释结果。

相比之下,非劣效性实验试图证明新的干预措施并不“劣于”前一个干预措施,或者更准确地说,新的干预措施比作为对照的干预措施“并非不可接受地差”。因此,在某种意义上,零假设似乎是向后的,因为这个假设根本不是“零”。相反,它指出,新的治疗方法比旧的治疗方法差-Δ以上,其中-Δ是“非劣效边际”。替代假设指出,新旧干预措施之间的效果差异小于-Δ(图1).在非劣势的倒置世界中,备择假设似乎是“零”的,而零假设包含一个特定的处理差异-Δ。在这里,-Δ不仅是设计的一个组成部分,就像γ在优势试验中一样,也是分析的一个组成部分,γ在优势试验中没有发挥作用。

图1
图1

Δ在优势、等效和非劣势试验中的作用

推翻原假设和替代假设可能是非自卑性的第一个镜子问题,但当我们更深入地观察时,落后似乎成倍增加!

展示优越性的试验通常会惩罚草率的研究者(尽管并非总是如此;对缺失数据的不当处理可能有利于更有害、更无效的治疗,潜在地增加优越性试验中错误发现的可能性)。相比之下,非自卑试验倾向于奖励粗心的人。试验进行得越不严格,就越容易显示非劣效性。随着治疗方法的改进,显示一种新疗法的好处变得越来越难,但显示非劣性变得越来越容易,这源于“缺乏稳定性”(在药物中被称为“生物蠕变”,在设备中被称为“技术蠕变”)。但是等等!还有更多!非劣效性试验还面临“化验敏感性”的问题,即在某些疾病情况下,即使是真正有效的药物也不一定在临床试验中显示出益处。这意味着在标准药物不优于安慰剂的环境下进行的非劣效性试验很可能证明新治疗的非劣效性(见[12用于进一步讨论分析敏感性和与主动对照试验相关的其他问题)。亚博ag出账秒到

由于所有这些原因,也许还有更多的原因,许多面临设计和解释非自卑试验挑战的研究人员在试图理解它们时往往感到绝望。在这篇评论中,我们解释非自卑试验试图展示什么;我们放大了上面讨论的一些问题;我们区分了美国食品和药物管理局(FDA)和欧洲药品管理局(EMA)的监管观点;也许,最重要的是,我们讨论了为什么这样的试验往往是可取的。

优越感、对等感和非优越感

甚至在应用统计学严密性之前,研究人员就能直观地了解如何进行试验以确定一种新疗法的优越性。当一种新疗法与安慰剂对照(如果存在,则与积极对照)进行比较时,研究人员定义一个结果(如疼痛程度或总生存期),并在试验结束时,如果治疗组的结果估计值比对照组的估计值“更好”,则宣布新疗法优于对照组。从统计学上讲,“更好”意味着数据允许拒绝两种分布相等的原假设,支持新处理比对照更好的假设。

有时,目的不是要证明新疗法更好,而是要证明新疗法与对照疗法“等效”。因为只有在无限大的样本量下才有可能显示精确的等价性,研究人员转而选择了一个边际。同样,将其命名为Δ。在试验结束时,围绕两个测试统计量之间的差异计算CI(等效试验通常使用90% CI),如果CI严格位于[-Δ, +Δ],则两个处理被称为“等效”。这种试验用于证明仿制药与仿制药在生物学上是相同的。它们也被用来显示疫苗试验的一致性,试验结果是免疫反应的衡量标准。

非劣势不同于等价。在等价试验中,期望的结论是两种产品相同或彼此之间“没有不可接受的差异”。相比之下,在非劣效试验中,其目的是表明一种新产品并不比旧产品差到不可接受的程度。为什么追求一种可能不如现有疗法有效的产品是合理的呢?如果一种新疗法与标准疗法相比,预期其副作用更少,或导致生活质量提高,或其给药方案更容易忍受,那么它比标准疗法差不了多少,或“不劣于”标准疗法可能具有吸引力。

假设有可能定义“显著恶化”的含义(将其视为不可区分的窗口,或者我们称之为-Δ的边缘;下面我们将讨论如何选择这样的边界),并且有一种现有的处理方法可用来与新处理方法进行比较。这种新的治疗方法可以说比[更糟,并非不可接受。3.](即,不劣于)现有的治疗,如果,当计算新的和现有的治疗之间的效应大小差异的CI时,该区间的下界没有超出上述定义的不可区分窗口。我们关注的是非自卑比较的下界;在CI的上端发生了什么并不是主要关注的问题。相比之下,在等效性试验中,研究人员关心CI的两端,只有当整个CI落在零的任何一侧的边界内时,才会宣布新治疗与现有治疗等效。

非劣效性试验显然适用于某些疾病和某些治疗方法。在开发一种预防结核病的新疗法时,研究人员可能愿意为了更简单的给药计划、更少的副作用或其他优点而牺牲一些小的好处(如空白所示),但如果新疗法比现有疗法更好(因此不限制区间的上限),他们会很高兴,他们也可以宣布优越性。只有当区间的下界大于0,而不仅仅是大于-Δ时,才会发生这种情况。

到目前为止,这个问题听起来很简单。人们需要选择一个非劣效边界,运行试验,将实验处理与主动对照进行比较,计算处理之间差异的CI,并检查CI的下界。如果下界高于边界-Δ,则新的治疗被视为不劣,试验是“成功”的。此外,如果新的治疗方法在统计上显著优于比较方法(即相同CI的下界也高于零),那么也可以宣布新治疗方法的优越性。重要的是,先对非劣性进行测试,再对优性进行测试,并不需要对多次测试进行统计上的“惩罚”,因为先对非劣性进行测试,然后再对优性进行测试(在检查单个CI时),使用的测试程序可以适当地控制两个测试的总体I型(或α)错误率。统计学家将这种类型的测试称为“封闭测试”,这样的过程可以确保在测试多个假设时,总体实验错误率保持在正确的水平。测试的顺序很重要;为了宣布优越性,一种新的待遇也必须被宣布为非劣待遇。相反的(首先测试优越性,然后测试非劣性)并不总是一个封闭的过程。按此顺序进行测试可能会导致明显异常的结果,即使在检查单个CI时也是如此。 A large trial with a narrow CI around the difference between the active control and the new treatment might show that the lower limit of the interval lies within the margin, meaning that the new treatment is non-inferior to the active control, but the upper limit of the interval is below zero, so the new treatment is also inferior to the active control. Bear in mind that the opposite of 'non-inferior' is not 'inferior'; it is the looking-glass opposite, 'not non-inferior'. As an example, suppose the margin -Δ is -3, and the observed 95% CI at the end of the trial is [-2.7, 1.5]. The lower limit of the CI is above -3, so the new drug is non-inferior to the old, but the upper limit of -1.5 is less than zero, so the new drug is also inferior to the old. In this case, the single CI can be used to say that the new treatment is simultaneously 'non-inferior' and 'inferior'. Although this example may seem counterintuitive, when interpreting the results of a non-inferiority trial, it must be remembered that the purpose of the trial is to estimate the lower bound of the CI, not to establish a point estimate of the treatment effect. This test, sitting on the other side of the looking glass, requires an interpretation different from the usual.

在一些试验中,首先进行优势比较在统计学上是合适的,如果没有显示出统计学上的好处,则进行非劣势比较。只有在预先选定了非劣效边界时才适用。允许这样的转换的原因源于这样一个事实,即我们可以将测试视为CI的解释。计算出来的CI不知道它的目的是判断优势还是非劣势。如果它完全高于零,那么它就显示出了优越性。如果它完全位于-Δ之上,那么它表现出了非劣等性。

如图所示,非劣效性试验可以有五种可能的结果类型2.两条垂直线表示0和-Δ。每条水平线代表一个CI,估计的治疗效果由中心的圆点表示。图顶部的CI完全高于零;如果试验得出这样的结果,就会得出这样的结论:新疗法优于对照组,因此也不逊于对照组。下一个区间横跨0,但完全位于-Δ之上,它代表了一项显示非劣效性但不优效性的试验。第三个区间介于0和-Δ之间,它代表了一项既没有表现出非劣势也没有表现出优势的试验。第四个CI说明了上面讨论的案例;它夹在两条垂直线之间,既显示了非劣值(因为它完全位于-Δ的直线之上),也显示了劣值(因为它也完全位于零以下)。图底部的最终CI显示了劣势,而不显示非劣势。

图2
图2

非劣效性试验的可能结果

并发症-除了边缘

与优势试验相比,非劣势试验面临的挑战包括边际的选择、用于分析的主要人群以及比较者处理。与前一节一样,我们暂时不讨论保证金问题,先讨论后一个问题。

传统观点认为,在非劣效性试验中,用于分析的主要人群应该是按方案(PP)人群,在这种情况下,这是一组已经接受指定治疗并坚持治疗的人。(回想一下,优越性试验使用总人群或意向治疗(ITT)作为主要分析。)在非劣效性试验中,许多对PP人群有吸引力,因为试验进行得越差,ITT分析就越有可能显示出非劣效性。考虑一个具有无可救药的随机化缺陷的试验,该随机化方案没有创建两个不同的治疗组(一组受试者接受新治疗,另一组受试者为主动比较者),而是实际上创建了两个“混合”组,每个组由一半受试者接受新治疗,另一半受试者接受主动比较者。如果这个试验是为了检验优越性,那么这个试验很有可能正确地发现两组之间没有差异。然而,作为一项非自卑性试验,这样一项有缺陷的试验很可能会错误地证明非自卑性。上述试验是检测敏感性重要性的一个极端例子,因为这样一个有缺陷的分配方案的试验已经失去了区分治疗组之间可能存在的任何真正差异的能力,这是为什么传统智慧倾向于在PP人群中显示益处的一个理由。

其他(4)(包括作者)不同意这种观点。呼吁马虎的危险不是使用PP人群的原因,而是确保试验设计良好和仔细监测的原因,并对ITT人群进行初步分析。然而,从监管的角度来看,这两个群体都是值得关注的。美国和欧洲监管机构对ITT和PP种群的成功感兴趣。EMA出版物优势与非劣势转换的思考要点5]特别指出,非劣效性试验必须在ITT和PP人群中显示非劣效性。美国监管机构[6]引用了在“处理后”或PP分析中“对信息审查可能性的重大担忧”,并建议研究者在他们的非劣效性试验中计划这两种类型的分析。他们接着说,两种分析之间的差异需要“仔细检查”,没有调查人员想从监管机构那里听到这样的话。

在非劣效性试验中,研究人员也可以对比较组有几种选择,但这必须是一场“公平的斗争”。不公平控制的一个例子是剂量低于最佳剂量的比较器。另一个原因来自生物蠕变。假设一项早期试验发现药物A明显优于安慰剂,那么几年后,药物B在一项较大的非劣效性边际试验中被发现不比药物A劣。然后将药物C与药物B进行比较,同样有很大的非劣性边界,并显示出其不劣于B。这是生物蠕变的一个例子;在每一个步骤中,新药物都被证明比前一种药物更糟糕。因此,将新药与药物C进行比较可能是不公平的,因为药物C实际上可能不如药物a有效,如果差距太大,甚至不如安慰剂有效。我们在下面谈到“稳定性”时再次提到这种情况。

需要有足够的数据来计算相同疾病和终点的非劣效边际。FDA指南[6然而,如果这些数据存在,则不需要批准主动对照作为非劣效性试验中感兴趣的指征。

在概念上选择边界

在同意同时分析ITT人群和某些版本的PP人群,并选择了适当的主动对照后,研究者接下来必须选择非劣效性边际和分析方法。一种方法是要求临床医生或患者考虑他们愿意牺牲多大程度的疗效来换取新疗法带来的潜在好处。一个了解现有治疗方案和潜在疾病的临床专家小组可能会考虑患者群体水平的权衡,并可能提出一个合理的非劣效边界。患者群体或许可以提供更多关于潜在患者可能愿意为一种产品做出取舍的信息,这种产品具有改善的给药计划或更少的副作用。这种从临床判断或患者经验中寻求指导的论点,从一些医生的角度来看可能很有吸引力,但这种模棱两可的方法在科学或监管环境中可能会取得有限的成功,这可能需要对预期的治疗效果和可变性进行论证。

两种更为正式的边缘和分析方法是假定的安慰剂(也称为综合方法)和Rothmann的95-95方法[78].

95-95方法首先计算M1与安慰剂相比,积极对照组的整体效果是明显的。该计算通常使用荟萃分析方法和以前的研究数据,如下所述,以获得积极对照组和安慰剂之间估计差异的95% CI。然后用这个差值的保守估计,即CI的下限作为M1.接下来,一个较小的边距M2,是为了保留估计主动控制效果的某个预定比例,例如,50%或75%。我们可以解释M2作为将试验药物与主动对照进行比较时临床上可接受的最大效果损失(劣效)。这些M的定义1和M2来自FDA指南文件中使用的符号,我们将在下一节讨论。确定了边际M2如果新治疗与主动对照之间的差异的95% CI的下限高于该下限,则使用固定边际方法的非劣效性试验是成功的。

相比之下,合成方法不需要指定特定的边界或主动控制效果[69].这种方法为新处理所保留的主动控制效果的期望部分指定了一个阈值。因此,在这种类型的分析中,非劣效性假设的检验是基于当前研究中未观察到的主动对照与安慰剂比较的估计和标准误差(SE),以及当前研究中新治疗与主动对照比较的估计和标准误差(SE)。这种方法假设积极控制的效果随着时间的推移保持合理的恒定,或者如果效果随着时间的推移而减弱(例如,由于改进的伴随治疗),则可以估计这种修改后的效果。看到Rothmann.[7],以深入了解主动控制效应或其可变性的建模,以及Snappin和Jiang [1011]用于固定裕度和综合方法的统一方法,该方法解决了分析灵敏度和恒定性的假设,及其对I型错误率的影响。我们将在下面的技术问题一节中详述这些概念。

监管的角度

2010年3月,美国FDA的药物评估与研究中心(CDER)和生物制剂评估与研究中心(CBER)发布了一份草案行业指引关于非自卑试验[6].FDA指导文件代表了该机构目前对药物开发过程中各种主题的思考,包括临床问题、统计、制造、安全性和标签。本指南以非自卑试验的介绍性概述开始。然后对统计问题进行了仔细的讨论,包括确定适当的非劣性边际的方法,并通过最近提交的说明性示例解决问题。该指南的大部分理念涉及FDA的担忧,即在没有安慰剂组(或更普遍地说,未经治疗的对照组)的试验中,未能发现新治疗和积极对照组之间的差异实际上可能意味着两者都不会比安慰剂更好。因此,看待指南的一种方式是将其视为一种尝试,以确保得出“非劣效性”结论的研究已经确定了一种优于安慰剂的治疗方法。

指南提供了有用的符号,我们在本文的讨论中采用了这些符号。如上所述,我们使用M1表示积极对照组相对于安慰剂的全部效果,M2在将试验药物与主动对照药物进行比较时,表示临床可接受的最大效果损失(劣效)。

效果M1由历史信息计算;在非劣效性试验中不直接测量(除非试验包括第三组,安慰剂或不治疗)。尽管如此,在目前的研究中,即使没有直接观察到这种优势,积极对照相对于安慰剂的假定优势也必须存在。我们将在下面更详细地讨论这一假设,即“分析敏感性”。

《指南》指出,在某些情况下,仅证明非劣于M1保证金。这样的结果表明试验药物具有非零效应,但这种效应可能没有临床意义。边际越小,M2,加强了试验药物和主动对照之间的联系,只有当试验药物没有失去“太多”的主动对照效果时,才允许声称非劣效性。《指引》指出:

“…一项成功的非劣效性研究严格地表明,如果排除了M1的NI边界,那么试验药物的效果大于零,只要M1是精心选择的,并且代表了对照药物实际会产生的效果(与安慰剂相比,如果有安慰剂组的话)。它还可以表明,测试药物的效果大于对照药物的某些部分效果,这取决于所使用的M2。”((6第12页,第三部分b)。

尽管非劣效性试验通常在概念上是可取的,但操作上的困难可能会困扰选择边际的过程,要么是因为数据不足来支持所选边际,要么是因为计算出的边际导致了不切实际的样本量。指南简要讨论了在这些情况下可能更可取的替代设计,包括附加研究、精心选择的患者群体或随机停药研究。

该指南的主要重点在于第四节:“选择非劣效边界和分析NI试验的结果”。从概念上讲,该指南将这一过程分解为两个步骤:确定一种合理的方法来评估当前研究中主动对照的效果,然后表明当前研究中主动对照对试验药物的益处不大于(假设的)主动对照对安慰剂的整体效果。

一旦从专家意见或历史数据的正式分析中选择了边际,试验的设计者必须确定如何分析非劣效性研究的结果。《指引》列出了两种可行的方法,我们在上文已简要介绍过:固定裕量法(亦称双CI法或95-95法[78])和合成方法。在固定边际法中,如果试验药物与主动对照之间的差异的95% CI的下限高于边际,即M1或米2

相比之下,综合方法没有根据过去的试验定义一个特定的主动控制的边际或效果。该指南说,“合成方法的设计是为了直接解决测试产品是否优于安慰剂的问题NI的研究中有安慰剂吗[强调我们的],同时也要解决相关的问题,即主动比较器的效果有多少比例是由测试产品维持的' ([6],第30页)。该方法将在非劣效性试验中观察到的试验产品的效果与来自单个试验或元分析的估计对照效果相结合,以获得单个CI,用于检验将试验产品与活性比较物进行比较的非劣效性假设。然而,考虑另一种方法,可以应用合成方法(在主动控制效果0%保留的设置下)来测试测试产品是否优于安慰剂,假设可以获得相对于安慰剂的主动控制效果的无偏估计。这里最重要的假设是,从过去到当前的非劣效性试验,主动控制的效果保持相对恒定(或可以像上面讨论的那样建模)。这种方法在统计学意义上稍微更有效(就需要更小的样本量来具有相同的统计能力而言),但对假设敏感,并且不容易将临床判断纳入M的定义2

该指南最后回答了一系列关于非自卑试验的常见问题和一些例子。问题集中在边际的选择和M1和M2、主动对照的适宜性,以及非劣效性试验不可用时的选择。这些例子说明了固定边际和综合分析方法之间的差异,如何在缺乏随机安慰剂对照试验的情况下估计主动控制效果,历史主动控制效果如此之小以至于非劣效性试验是不切实际的,以及当两项研究提供一致的结果时可以放宽成功的非劣效性标准的情况。亚博ag出账秒到

相比之下,EMA关于选择非劣效边际的指导文件[9]没有指定选择页边距的方法。相反,EMA指导试验发起人使用统计和临床判断的结合。选择边际的方法可以来自德尔菲式的方法,询问专家,如果使用新产品而不是已经证明有效的产品,他们愿意放弃比安慰剂多多少好处。或者,调查人员可以使用更正式的方法选择一个边际。然而,该文件警告说,选择的边际必须足够小,以确保实验疗法比安慰剂更好。用EMA的话来说,“在解释非劣效性试验数据时所涉及的决策过程的最低要求是,如果进行了安慰剂对照试验,我们必须确信测试产品将被证明是有效的”。

严格来说,是选择边际

无论使用德尔菲方法、综合方法还是95-95方法,定义非劣性边界的第一步都是收集有关主动控制效果的所有相关信息。对于德尔菲方法来说,“所有相关信息”都可能存在于临床专家的思想、经验和判断中。对于综合和95-95方法,“所有相关信息”包括一组数据,说明对照治疗与安慰剂相比效果的大小。后两种方法都可以使用相同的方法来确定相对于安慰剂的对照效果。

前95%(或对照与安慰剂相比如何)

如上所述,95-95方法中前95%的目的是计算对照组的效应量,合理保证不小于真实的效应量。其原理是计算估计效应量的95% CI,然后选择该区间的下端,从而给出95%的置信度,即相对于安慰剂,对照干预的真实效应量至少与计算的效应量一样大。在接受这个原则作为计算路径之后,下一个决定是使用什么数据来计算CI。FDA指南建议应用元分析技术来计算估计的效应量,从而计算CI的下限。为了便于阐述,我们在这里讨论二元结果;很多讨论也与其他类型的结果相关。

元分析是一套方法,用于结合来自一组研究的数据,以获得对治疗效果的估计。因此,进行元分析的第一步是收集要使用的研究组。在设计非劣效性试验时,在理想条件下,研究人员将选择一组研究,其中只包括比较对照干预和安慰剂的随机试验。患者群体应与正在计划的非劣效性试验中研究的人群相似;试验研究的结果应与计划一致;对照方案(干预和剂量)应与新试验中使用的方案相同;目前的护理标准应与之前试验中的护理标准相同(“恒常性”假设)。此外,在所考虑的试验集中研究的总人口数应该足够大,以产生精确估计的效应量。

在实践中,现有数据的局限性常常迫使研究人员在这些标准上做出妥协。先前试验中研究的人群可能与新试验计划的人群在重要方面有所不同。以前的试验可能并不都统一地比较了对照干预和安慰剂;一些试验可能使用安慰剂,而另一些可能使用标准护理,还有一些可能使用另一种积极对照。先前试验的结果测量可能与正在设计的试验的结果不同。以前试验中的干预可能使用了不同于新试验中预期的剂量,或者相关试验可能使用了与计划对照相同类别的药物,但不是同一种药物。也许最令人烦恼的问题,因为它本质上是不可测量的,是护理标准在之前试验和计划试验之间的几年里发生变化的可能性。如果是这样的话,一种过去被证明有效的药物,如果今天进行同样的试验,可能就不会被证明有效了。同样,如果荟萃分析所考虑的试验是在护理标准与非劣效性试验所在国截然不同的国家进行的,那么对照的效应量可能与正在寻求批准的国家所应有的效应量不同。

假设正在考虑的试验集没有严重违反上面提到的理想标准,研究人员准备对效应量进行总体估计。

比较治疗A和治疗B的荟萃分析始于T随机试验。如果试验的主要结果是二元的,则为k= 1, 2,…T,试验k有样本大小n而且nkB年代而且年代kB分别成功。Mantel-Haenszel (MH)方法的结果是整个的合并优势比T试用每项研究都可以用一个2 × 2的表来表示,其结构如表所示1

表1 2 × 2表的说明k审判。

每项研究(和表格)的优势比为:

,估计MH比值比为[12]:

由优素福描述的皮托方法[13在这些设置中也经常使用。这种方法与MH方法略有不同;然而,对于大样本量,这两种方法产生的结果几乎相同。

在MH和Peto方法中,原假设下比值比的对数近似正态分布,均值为零,方差由观测值估计。这两种方法都是根据样本量对研究进行加权,而不是研究中治疗效果的大小。换句话说,大型研究对汇总效应量的影响较大,而小型研究对估计效应的影响较小。

此外,如果所有研究的真实效应量实际上是相同的,那么MH检验是最优的程序,因为它在所有可能的无偏检验中具有最高的统计力。这种性质经常被颠覆,有人说这些测试要求研究具有相同的真实效应大小,或者它们是“固定效应模型”。事实上,MH和Peto方法都不需要相同的效应大小。使用这两种方法的荟萃分析的逻辑解释不是在所有情况下治疗的真实效果是相同的,而是从荟萃分析中获得的总体估计是对所有研究的平均治疗效果的最佳估计。

FDA指南建议在荟萃分析中优先使用所谓的“随机效应模型”,用于建立非劣效性试验的边际。与MH和Peto方法相比,这些模型对所有潜在研究的效应量分布做出了非常具体的假设。由DerSimonian和Laird引入的标准方法[14],假设效应大小(在二项变量的情况下是对数比值比)来自均值μ和方差σ的正态分布2.这一假设意味着,估计的汇总效应是每个研究中获得的效应的加权平均;与MH和Peto方法相反,权重是各种研究的样本量以及每个研究内估计与其他研究估计的接近度的函数。如Petitti [15]指出,当研究结果不一致时,随机效应模型往往会过度强调小型研究的重要性。这样的权重可能是不适当的;小型研究通常在单个中心进行,更有可能存在偏差,不太可能对数据质量进行严格检查或在研究过程中使用严格的方法。看到张志贤.[16],因为他讨论了一项关于镁元素使用的随机效应元分析,导致了错误的结果。在这种情况下,一项小型研究的结果与其他更大的试验完全不同,它主导了估计的效应量,因为随机效应模型的假设对小型试验施加了不适当的权重。

荟萃分析的典型表现形式是用森林图描述每次试验的结果,然后是显示估计效果的汇总统计数据。在完成荟萃分析后,研究人员计算95% CI,并得出FDA称之为M1,即假设对照治疗的效应大小(图3.).

图3
图3

森林地块和M1

如果结果是时间事件变量或连续变量,则通常分别对估计的风险比或平均值进行荟萃分析。

M的选择2我们愿意损失多少?

正如EMA指南文件所强调的,统计和临床判断都应该在边际的选择中发挥作用。米1如上所述,计算为95% CI的下端,围绕对照组相对于安慰剂的效应量的最佳估计值。这个数字成为确定边际的起点。研究人员现在必须问,如果采用新疗法,损失多少好处是可以接受的。研究人员过去的经验可能使他们能够确定他们在临床上愿意接受的疗效损失的程度。例如,通过考虑100例病例,临床医生可以通过考虑与标准治疗相比可能出现的可接受的疗效损失来量化此类判断。

有时,调查人员不会进行这样的正式分析;相反,他们会计算出自己能花多少钱。从那里,他们决定他们可以进行的最大的试验,并在事后证明保证金的合理性。这(并不完全是秘密)是研究人员在优越性试验中经常做的事情;不同之处在于,优越性试验的目的是为了显示益处,如果对于给定的样本量来说,威力太低,试验就不太可能显示优越性。然而,在镜子式的非劣等性世界中,类似的行为是使边缘太大,增加成功证明新处理的非劣等性的机会。

2常选用M1;然而,当一种药物非常有效,失去一半的效果,即使它可能仍然比安慰剂好,也可能不被临床接受(图4).例如,考虑一种儿童疫苗,它可以预防96%的潜在病例。一种新的口服疫苗,只能预防48%的疾病,仍然比安慰剂有效得多,但几乎没有吸引力,即使对孩子来说比注射更痛苦。因此,治疗严重疾病的高效产品通常应在试验中进行评估,在试验中边际保留了很大比例的M1.在其他情况下,如果新产品在不良事件、易于管理和成本方面的好处非常大,研究人员可能愿意放弃更高比例的M1

图4
图4

2作为M的分数1

第二个95%(或者说,新产品不比旧产品差吗?)

选择了M1(来自前95%)和M2(从判决书开始),审判开始。试验结束时,根据观测数据计算出95% CI。如果该区间完全高于预先指定的-Δ,则试验显示非劣效性。事实上,我们可以参考图2看看置信度极限与图中所示的极限相比如何。

样本大小

非劣效性试验的样本量计算满足以下方程:

换句话说,这意味着样本量必须足够大,使得概率足够高,以至于处理组和对照组之间估计差异的95% CI的下界大于裕度-Δ,当两组之间的真实差值θT- - - - - -θC,为γ。

非劣效性试验的样本量通常是在假设试验药剂和对照处理具有同等效果的前提下计算的,即假设γ为零。假设新的处理方法稍微好一点,就像新产品通常的情况一样,所需的样本量会大大减少。

例如,考虑表中所示的两种比例的比较2.对于固定裕量,设置为主动对照中真实比例的10%,表中显示了假设处理效果相等,实验药剂的收益较小(5%)和较大(10%)所需的大致样本量。

表2比例非劣效性比较所需的大概样本量

作为如何读取表的示例,请考虑粗体显示的行,其中活动控件中的真实比例为50%。被认为不劣的最小比例是45%(主动控制效果损失了10%)。假设新处理和主动对照的比例相等,每组所需的总样本量约为2100个。然而,如果新的治疗方法实际上比主动对照提供了5%的益处,对应于52.5%的真实比例,则所需的样本量将约为每组1000个,以显示非劣效性。也就是说,在每组样本量为1000的情况下,如果主动对照组的真实比例为50%,新处理的真实比例为52.5%,则CI下界高于-5%的概率为90%。10%的获益,相当于新疗法中55%的比例,需要每组样本量超过500才能显示非劣效性。

假设与主动对照相比,实验药剂的收益很小,将所需的样本量减少了大约一半;如果更大的好处是更现实的,样本量大约是同等处理效果假设所需样本量的四分之一。

然而,与主动对照相比,这些仍然是相对温和的改善,尽管假设这些益处不是微不足道时,样本量减少了,但它们并没有大到建议改用优势试验来证明这些益处。优越性试验证明小效益所需的样本量将是非劣效试验所需的样本量的近10倍,而较大效应所需的样本量大约是前者的4倍。

对非自卑试验的关注

非劣效性试验有许多并发症。如上所述,一个严重的问题是化验敏感性,即试验区分有效疗法和无效疗法的能力,而非劣效性试验和劣效性试验的问题是不同的。缺乏检测敏感性的优势试验可能表明,新疗法在统计学上没有明显优于对照,因为该试验将无法宣布疗效。相比之下,没有检测敏感性的非劣效性试验如果显示治疗组之间没有差异,则可能产生阳性结果(即可能显示非劣效性证据),因为这将导致非劣效性的结论。与优越性试验不同,非劣效性试验没有检测灵敏度的内部检查。(优越性试验的检验表明,被测试的干预优于对照组。)为了缓解这一问题,EMA建议,在任何可能的情况下,非劣效性试验都应包括安慰剂组,以便对主动对照和实验制剂与安慰剂进行直接比较。(请注意,这项研究可能是新药、旧药和安慰剂,所有研究都有护理标准的背景。)在许多情况下,这样的试验在道德上是不可接受的。也就是说,当现有的治疗方法(例如,在癌症中)已被证明对生存有益时,将参与者随机分配到安慰剂组可能不合适,而在其他情况下(例如,减轻疼痛),三组试验可能效果很好。

另一个与非劣效性试验相关的问题是护理标准的演变,如上所述。考虑现有药物(药物A)在安慰剂对照试验的基础上被批准用于治疗传染病的情况。现在假设一家公司使用药物a作为主动对照的非劣效性设计,向监管机构申请批准一种新的治疗方法(药物B)。假设试验“成功”,也就是说,在治愈率方面,药物B被证明不比药物A差。据推测,如果药物B有一些优点,比如副作用更少或给药计划改进,那么它将成为治疗标准。然后假设下一家公司申请批准另一种药物(药物C),使用与药物b的非劣性比较。如果药物a在第一次试验中实际上并不优于安慰剂,那么就很容易证明每一种新药都不逊于主动对照,即使没有一种新药比安慰剂好。在大多数情况下,护理标准的问题并不像这个例子所表明的那样可怕,因为即使边际允许一些效力损失,点估计也可以显示出积极的影响,但这种担忧是有效的。如前所述,这种影响的变化在药物中被称为“生物蠕变”,在设备中被称为“技术蠕变”。

此外,在传染病的情况下,生物体本身可能会进化,使我们有可能出现真正的生物“生物蠕变”。也就是说,随着时间的推移,生物会对药典中较早出现的药物产生耐药性,这意味着每一种新药都在与一种主动对照药物进行比较,而后者对一种增强感染性病原体的效果可能会越来越差。在这里,生物蠕变代表生物体中实际的生物变化。通常所说的“生物蠕变”更确切地说是“虚拟生物蠕变”,即每一种后续产品的效果都可能比前一种产品略差。1718].

但是如果非劣效性试验不能进行怎么办?

如上所述,各种原因可能会使非劣效性试验不可行。严格计算的边际值可能会产生无法由经济或潜在研究人群支持的样本量。EMA指南特别警告研究人员,当科学得出的边际值产生不切实际的大样本量时,不要增加他们的非劣效边际值。有时必要的数据可能不存在(或可能无法提供给新的研究人员),以计算所需的边际;或者,自历史数据收集以来,治疗情况可能发生了很大变化,以至于不清楚使用哪种积极对照,以及该对照是否真的比安慰剂有好处;或者试验可能是在一个治疗领域,在这个领域,众所周知的有效治疗并不总是优于安慰剂(例如,抑郁症),这使得很难为计划非劣效性试验所需的测定敏感性进行论证。尽管具有挑战性,但这样的环境为创造性的试验者(和统计学家)提供了机会。

结论

非劣效性试验是合理的,当一种新的治疗方法有一些足够有利的特性,医生和他们的病人将愿意牺牲相对于已经批准的治疗方法的某种程度的好处。其优势可能是降低成本,改善易用性或剂量计划(每月注射而不是每周注射),更简单的存储(不需要冷藏),或提高安全性。然而,为了换取这些优势而放弃的好处不应该太大,以至于患者和医生不愿意使用新产品。如上面的疫苗例子所述,口服制剂如果失去了注射所能提供的一半保护,就不是可行的产品。非劣效边界的选择以及要保留多少现有治疗效果在某种意义上包含了治疗“可行性”的这些其他方面。

然而,从美国监管机构的角度来看,非劣效性试验的成功不能正式包含这些多方面的方面;这根本不是他们目前制定法规的方式。M2通过改变保留的主动控制效果的比例,确实提供了一些灵活性的空间。对于有已知和高效治疗方法的严重疾病,任何新产品都需要保留大量已知的治疗效果才能被认为是成功的。在其他情况下(例如轻度头痛),更适度的效果保存可能仍然是有趣的。在选择M时2在美国,研究人员和药物开发人员应考虑咨询患者,以确定监管机构可接受的幅度是否过大,以至于患者无法接受。

将主要终点扩展为结合疗效和生命质量、疗效和成本或疗效和安全性的复合指标,将是复杂的。我们主张考虑是否修改相关立法以修改法规,以便监管机构在法律上能够考虑新产品的多个维度。由此产生的分析将变得更加复杂,但监管决策将更加微妙,最终对公众健康更好。然而,目前在美国,非劣效性试验的成功取决于主要结果测量的成功,而不是其他方面的益处,如安全性,使用非劣效性试验设计的监管成功可能需要完成多个这样的试验。

参考文献

  1. Temple R, Ellenberg SS:评估新疗法的安慰剂亚博ag出账秒到对照试验和主动对照试验;第一部分:伦理和科学问题。中华医学杂志,2000,34(4):344 - 344。

    文章中科院PubMed谷歌学者

  2. Ellenberg SS, Temple R:评估新疗法中的安慰亚博ag出账秒到剂对照试验和主动对照试验;第二部分:实际问题和具体案例。中华内科杂志,2000,34(4):344 - 344。

    文章中科院PubMed谷歌学者

  3. 主动控制试验:一个语言问题。《国际华人统计学会公报》,2001,39-40。

    谷歌学者

  4. 赵玮:意图治疗在非劣效性研究分析中的作用。临床试验,2007,4:286-291。10.1177 / 1740774507079443。

    文章PubMed谷歌学者

  5. EMA专利药品委员会(CPMP):优品和劣品之间转换的几点考虑伦敦,2000

    谷歌学者

  6. 美国食品和药物管理局:行业非劣效性临床试验指南。2010

    谷歌学者

  7. 罗思敏,李宁,陈刚:肿瘤学非劣效性死亡率试验设计与分析。中华医学杂志,2003,22:339 - 344。

    文章PubMed谷歌学者

  8. 罗思曼,周洪辉:基于增量法置信区间的非劣效分析。中国生物医学工程学报,2003,13:565-583。10.1081 /毕普- 120022775。

    文章PubMed谷歌学者

  9. EMA人用药品委员会(CHMP):非劣效边际选择指南,伦敦,2005

    谷歌学者

  10. Snappin S, Jiang Q:控制非劣效性试验中的1型错误率。中华医学杂志,2008,27:371-381。10.1002 / sim.3072。

    文章谷歌学者

  11. Snappin S, Jiang Q:基于非劣效性试验的疗效保存和监管机构对新疗法的批准。中华医学杂志,2008,27:382-391。10.1002 / sim.3073。

    文章谷歌学者

  12. Mantel N, Haenszel W:疾病回顾性研究数据分析的统计方面。中华肿瘤学杂志,2003,23(4):349 - 349。

    中科院PubMed谷歌学者

  13. Yusuf S, Collins R:为什么我们需要一些大型、简单的随机试验?中华医学杂志,1984,3:409-420。10.1002 / sim.4780030421。

    文章中科院PubMed谷歌学者

  14. DerSimonian R, Laird N:临床试验的meta分析。对照临床试验,1986,7:177-188。10.1016 / 0197 - 2456(86) 90046 - 2。

    文章中科院PubMed谷歌学者

  15. 《元分析、决策分析和成本效益分析:医学定量合成方法》,2000年,牛津:牛津大学出版社,306页

    谷歌学者

  16. Teo KK, Yusuf S:静脉镁在疑似急性心肌梗死中的作用:随机试验综述。BMJ。1991, 303: 1499-1503。10.1136 / bmj.303.6816.1499。

    文章中科院PubMed公共医学中心谷歌学者

  17. Fleming TR:非自卑试验的当前问题。中华医学杂志,2008,27:317-332。10.1002 / sim.2855。

    文章PubMed谷歌学者

  18. 弗莱明TR,鲍尔斯JH:非劣效性试验中的问题:社区获得性肺炎的证据。中华流行病学杂志,2008,29(增刊3):344 - 344。

    文章PubMed公共医学中心谷歌学者

下载参考

作者信息

作者及隶属关系

作者

相应的作者

对应到想念的心装满的珍妮弗

额外的信息

相互竞争的利益

作者宣称他们之间没有利益冲突。

作者的贡献

JS和JW起草了手稿。两位作者都阅读并批准了最终的手稿。我们感谢审稿人的有用评论和建议,以及Tara Gentile对创建这些数字的帮助。

作者提交的图片原始文件

权利和权限

本文由BioMed Central Ltd授权发布。这是一篇开放获取文章,根据创作共用属性许可协议(http://creativecommons.org/licenses/by/2.0),允许在任何媒介上不受限制地使用、传播和复制,前提是正确地引用原始作品。

转载及权限

关于本文

引用本文

《透过镜子:理解非自卑性》。试用12, 106(2011)。https://doi.org/10.1186/1745-6215-12-106

下载引用

  • 收到了

  • 接受

  • 发表

  • DOIhttps://doi.org/10.1186/1745-6215-12-106

关键字

  • 主动控制
  • 欧洲药品管理局
  • 估计效应大小
  • 等效性试验
  • 真实的比例
Baidu