跳过主要内容

透过镜子:了解非自卑

摘要

非劣效试验是指一种新产品是否比已在使用的产品差到不能接受的程度。本文介绍了与非劣效性相关的概念,并讨论了欧洲药品管理局和美国食品药品管理局的监管观点。

同行评审报告

介绍

“嗯,在我们国家,如果你像我们这样跑上很长时间,很快地跑,通常会跑到别的地方的。”爱丽丝喘着气说。

“一种缓慢的乡村!”王后说。“现在,在这儿,你看,你得拼命跑才能保持在原来的地方。如果你想去别的地方,你至少得跑两倍的速度!”

刘易斯·卡罗尔的那首,透过镜子

当你试图证明一种新的干预措施比前一种要好时,经典统计学就不够直观了。你不能证明你想证明的;你所能说的是,你观察到的数据提供了足够的证据来否定这两种干预措施具有相同效果的假设。然后,当你试图估计效果的大小时,你只能说,如果你重复你的实验无限次,并计算你的置信区间(CI),如你所教,95%的间隔将覆盖真实的效果。(难怪人们都信奉贝叶斯推理!)但是,尽管经典统计学可能是困难的和违反直觉的,但与非劣效试验中的推理问题相比,它们是简单的。

在设计试验时显示新干预的优越性,您可以指定零假设;与“null”一词一致,您的假设断言两个干预措施是一样的。然后,您选择一个替代假设,说明手段或其他统计数据之间的差异是γ。在本文中,我们假设较大的阳性结果优于较小的阳性结果,并且阳性治疗差异γ提供有益的证据。对于较小结果优于较大结果的情况(例如,癌症应用中的肿瘤大小)本文的迹象将从负面变为阳性。您可以使用所选择的I错误率或α,所需的电源和γ选择样本大小。您的实验的目标是拒绝该零假设,因此γ在某种意义上是帮助您选择样本大小的工具。在试验结束时,估计效果可能更大或小于γ,但只要95%CI的下限高于零,您可能会拒绝您的零假设。预选的γ在分析优势试验中不起正式统计作用,尽管假设γ与估计效应之间的幅度差可能会影响如何解释结果。

相比之下,非劣效性实验则试图表明新的干预措施并不比之前的干预措施“劣”,或者更准确地说,新的干预措施比作为对照的干预措施“并非糟糕到不可接受的程度”。因此,零假设在某种意义上似乎是反的,因为这个假设根本就不是“零”。相反,报告指出,新疗法比旧疗法更糟糕,比-Δ更糟糕,而-Δ是“非劣等性差异”。另一种假设是,新旧干预措施之间的效果差异小于-Δ(图1).在非自卑感的倒置世界中,替代假设似乎是“null”,而null假设包含了-Δ的特定处理差异。在这里,-Δ不仅是设计的一个组成部分,就像γ在优越性试验中一样,也是分析的一个组成部分,而γ在优越性试验中没有发挥作用。

图1
图1

Δ在优势、对等和非劣势试验中的作用

扭转空洞的和可替代的假设可能是非自卑的第一个镜子问题,但当我们更深入地观察,落后似乎成倍增加!

审判优越性的审判通常惩罚邋spectionator(尽管并非总是;缺失数据的处理不当可以有益于更有毒,更有效率的治疗,可能增加了在优势试验中的错误发现的可能性)。相比之下,非劣势试验倾向于奖励粗心。对试验不太严格进行,可以更容易地显示非劣势。随着治疗的改善,表现出新的治疗的好处变得越来越困难,但表现出非劣势变得更加容易,源于“缺乏态度”(荒谬的“毒品和'TechoCrep')的设备中的”精美“)。可是等等!还有更多!非劣势试验也面临“测定敏感性”的问题,现实中,在某些疾病环境中,甚至真正有效的药物并不总是在临床试验中表现出受益。这意味着在一个环境中,标准药物未被出现出优于安慰剂的环境中的非劣效性试验可能会表现出新的治疗的非劣种(见[12用于进一步讨论检测灵敏度和与主动对照试验相关的其他问题)。亚博ag出账秒到

由于所有这些原因,可能还有更多的原因,许多研究人员面临着设计和解释非自卑性试验的挑战,当试图理解它们时,往往会感到绝望。在这篇评论中,我们解释了非劣效性试验试图展示的是什么;我们放大了上面讨论的一些问题;我们区分了美国食品和药物管理局(FDA)和欧洲药品管理局(EMA)的监管观点;也许,最重要的是,我们讨论了为什么这样的试验经常需要进行。

优越感、对等感和非自卑感

研究人员甚至在应用严密的统计数据之前,就能直观地理解如何进行试验,以确定一种新疗法的优越性。当一个新的治疗与安慰剂控制相比,或者,如果一个人存在,积极控制,研究者定义了一个结果(如疼痛或总体存活率),声明了新的治疗方法优越,如果最后的审判,结果治疗组的估计价值‘更好’比对照组的估计。从统计学上说,“更好”意味着数据允许拒绝零假设,即两个分布是相等的,支持新的处理方法比控制方法更好的假设。

有时,我们的目标不是要证明新的治疗方法更好,而是要证明新的治疗方法与对照组“等效”。因为只有在无限大的样本容量下才有可能显示出确切的等价性,所以研究者选择了一个边际值。还是叫它Δ吧。在试验结束时,根据两项试验统计数据之间的差异计算CI(等效试验通常使用90%的CI),如果CI严格在[-Δ, +Δ]范围内,则两种治疗称为“等效”。这类试验被用来证明仿制药在生物学上与其试图模仿的药物是一样的。它们也被用来显示疫苗试验的一致性,在疫苗试验中,结果是对免疫反应的衡量。

非自卑不同于等价。在等价试验中,期望的结论是两种产品是相同的或“并非不可接受的不同”。相比之下,在非劣效性试验中,目的是证明新产品并不比旧产品差到不可接受的程度。为什么追求一种可能不如现有疗法有效的产品是合理的呢?如果与标准治疗相比,一种新的治疗方法不会比标准治疗差太多,或者“不比标准治疗差”,那么它可能是有吸引力的,如果它预期引起的副作用更少,或导致生活质量的提高,或者如果它的给药方案更容易忍受。

假设有可能定义“严重恶化”的含义(将其视为难以区分的窗口,或我们称之为-Δ的边际;下面我们将讨论如何选择这样的边界),并且有一个现有的治疗可用来比较新的治疗。新的治疗方法比[3.](即,非较差)现有的治疗如果计算出新的和现有处理之间的效果大小的差异差异,则该间隔的下限不会延伸超出上面定义的难以区分的窗口.一个侧重于这种非劣级度比较的下限;CI上端发生的事情不是主要问题。相比之下,调查人员关心CI的两端,并且如果整个CI在零两侧的余量内落在这个边缘内时,才会宣布相当于现有治疗的新处理。

非劣效性试验显然适用于某些疾病和某些治疗。在开发新的治疗方法,以预防结核病,调查人员可能愿意牺牲利益(反映在利润率)一个简单的给药方案,副作用少,或其他利益的一些量小,但他们如果新的治疗很高兴的均优于现有疗法(因此在上结合的间隔的没有限制),并且它们也可以宣布优越性。如果绑定的区间的下限均大于零,而不是简单地以上-Δ这只会发生。

到目前为止,这个问题听起来很简单。我们需要选择一个非劣效性边界,进行试验,将实验性治疗与积极对照组进行比较,计算治疗之间差异的CI,并检查CI的下界。如果下限高于界限-Δ,则新疗法被视为非劣治疗,试验就是“成功”的。此外,如果新治疗在统计上显著优于比较国(即,同一CI的下界也高于零),那么也可以宣布新治疗的优越性。重要的是,测试第一non-inferiority然后优势不需要多个测试统计“惩罚”,因为测试之前non-inferiority首次测试优势(在检查一个CI)使用一个测试程序,适当地控制整个I型,或α,出错率的两个测试。统计学家将这种类型的测试称为“封闭测试”,这样的过程可以确保当测试多个假设时,整体的实验错误率保持在正确的水平。测试的顺序很重要;要宣布优越,就必须宣布一种新的待遇非劣等。反之(先测试优势,再测试非劣势)并不总是一个封闭的过程。按这种顺序进行测试可能会导致明显异常的结果,即使在检查单个CI时也是如此。 A large trial with a narrow CI around the difference between the active control and the new treatment might show that the lower limit of the interval lies within the margin, meaning that the new treatment is non-inferior to the active control, but the upper limit of the interval is below zero, so the new treatment is also inferior to the active control. Bear in mind that the opposite of 'non-inferior' is not 'inferior'; it is the looking-glass opposite, 'not non-inferior'. As an example, suppose the margin -Δ is -3, and the observed 95% CI at the end of the trial is [-2.7, 1.5]. The lower limit of the CI is above -3, so the new drug is non-inferior to the old, but the upper limit of -1.5 is less than zero, so the new drug is also inferior to the old. In this case, the single CI can be used to say that the new treatment is simultaneously 'non-inferior' and 'inferior'. Although this example may seem counterintuitive, when interpreting the results of a non-inferiority trial, it must be remembered that the purpose of the trial is to estimate the lower bound of the CI, not to establish a point estimate of the treatment effect. This test, sitting on the other side of the looking glass, requires an interpretation different from the usual.

在一些试验中,从统计上来说,首先进行优势比较是合适的,如果在统计上没有显示优势,则进行非劣势比较。只有在预选了非劣效差时才适当。之所以允许这样的转换,是因为我们可以将测试视为对CI的解释。计算出的CI并不知道它的目的是判断优越感还是非劣等性。如果它位于零以上,那么它就显示了优越性。如果它完全位于-Δ之上,那么它就没有自卑感。

非劣效性试验可能有五种可能的结果,如图所示2.两条垂直线表示0和-Δ。每条水平线代表一个CI,中间的点表示估计的治疗效果。数字顶端的CI完全高于零;有此结果的试验将得出结论,即新疗法优于对照组,因此也非劣于对照组。下一个区间,它跨越0,但完全位于-Δ之上,代表了一个没有劣等,但没有优越的试验。第三个区间介于0和-Δ之间,表示该试验既没有显示出非劣等性,也没有显示出优越性。第四个CI说明了上述案例;夹在两条垂直线之间,它既显示非劣等(因为它完全位于-Δ的直线之上),也显示劣等(因为它也完全位于零以下)。图底部的最终CI显示的是自卑感而不是非自卑感。

图2
figure2

非劣效试验的可能结果

复杂性-除了边际

与优势试验相比,非劣效试验面临的挑战包括边缘的选择、分析的主要人群和比较者治疗。和前面的部分一样,我们推迟对边际的讨论,先解决后面的问题。

传统观点认为,在非劣效性试验中,分析的主要人群应该是每方案(PP)人群,在这种情况下,这是一组接受了指定治疗并坚持治疗的人。(回想一下,优势试验使用总体或意向治疗(ITT)人群作为主要分析。)许多非劣效性试验对PP人群有吸引力,因为试验运行得越差,ITT分析显示非劣效性的可能性越大。假设一项随机试验存在无可救药的缺陷,它不是创建两个截然不同的治疗组(一组接受新治疗的受试者,另一组作为积极的比较者),而是创建了两个“混合”组,每组由一半接受新治疗的受试者和一半接受主动比较器的受试者组成。如果这个试验是在测试优越性,那么它很有可能正确地发现两组之间没有差异。然而,作为一个非劣效性试验,这样一个有缺陷的试验很可能会错误地证明非劣效性。这个试验所描述的是一个极端的例子的重要性分析敏感性,与这样一个有缺陷的分配方案,试验已经失去了辨别的能力可能存在的任何真正的治疗组之间的差异,是一个理由为什么传统智慧倾向于显示人民党人口受益。

其他(4(包括笔者)不同意这种观点。上诉到草率的危险是不使用PP人群,而是确保试验是精心设计和仔细监测,与主要分析的ITT人群进行的理由的理由。从监管的角度来看,这两个种群的兴趣。美国和欧洲的监管机构有兴趣同时在ITT和PP人群的成功。在EMA发布优越感与非自卑感转换的几点思考5]特别指出,非劣效试验必须在ITT和PP人群中都显示出非劣效。美国监管机构[6[引用了“作为处理”或PP分析中“对信息审查可能性的重大担忧”,并建议研究人员在他们的非劣效试验中计划这两种类型的分析。他们接着表示,这两种分析之间的差异需要“仔细检查”,没有调查人员希望从监管机构那里听到这样的话。

在非劣效性试验中,研究者也可以有几种选择,但这必须是一场“公平的战斗”。不公平控制的一个例子是一个剂量低于最佳剂量的比较器。另一个源于生物蠕变。假设一项较早的试验发现药物A明显优于安慰剂,几年后,在一项非劣效差较大的试验中,发现药物B不比药物A差。然后将药物C与药物B进行比较,同样具有很大的非劣效性,并显示出非劣效性,这是生物蠕变的一个例子;在每一个步骤中,新药物都被证明比之前的糟糕得不能接受。因此,将一种新药与药物C进行比较可能是不公平的,因为药物C实际上可能不如药物a有效,如果利润太大,甚至不如安慰剂有效。我们在下面谈到“恒常性”时再次提到这种情况。

需要有足够的数据来计算相同疾病和终点的非劣效界。食品及药物管理局指引[6然而,如果这些数据存在的话,主动对照不需要被批准用于非劣效试验的适应症。

在概念上选择边际

在同意分析ITT人群和PP人群的某些版本,并选择适当的主动对照后,研究者接下来必须选择非劣效界和分析方法。一种方法是让临床医生或患者考虑,他们愿意牺牲多大程度的疗效,以换取新疗法提供的潜在好处。一个具有现有治疗方案和潜在疾病知识的临床专家小组可能会考虑患者群体水平上的权衡,并提出一个可信的非劣效性边际值。患者群体或许可以提供更多的见解,了解潜在患者可能愿意为一种有好处的产品做出的权衡,比如改善剂量计划或减少副作用。这种从临床判断或患者经验中寻求指导的论点,从一些医生的角度可能很有吸引力,但这种德尔菲方法在科学或监管环境中可能有有限的成功,这可能需要对预期的治疗效果和变异性进行论证。

对边缘和分析的另外两个正式的方法是推定安慰剂(也称为合成方法)和Rothmann的95-95方法[78].

95-95法从计算M开始1与安慰剂相比,积极对照的整体效果。这种计算通常使用元分析方法与以往研究的数据,如下所述,以获得积极对照和安慰剂之间的估计差异的95% CI。这个差异的保守估计,即CI的下限,然后被用作M1.接下来是一个较小的差额,M2,以便保留估计的主动控制效果的某些预定分数,例如,50或75%。我们可以解释M2作为最大的效果损失(劣势),在将试验药物与活性控制中进行比较时会临床上可接受。m的这些定义1和M2来自FDA指南文件中使用的符号,我们将在下一节讨论。确定了边际M2在美国,如果新疗法和积极对照之间的95%置信区间的下限高于这个界限,那么使用固定边际方法的非劣效性试验就是成功的。

相比之下,综合方法不需要特定裕度或主动控制效果的规范[69].这种方法为新治疗保留的主动控制效果的期望部分指定了一个阈值。因此,non-inferiority假说的测试在这种类型的分析是基于估计和标准误差(SE)与安慰剂比较主动控制的,这并不是在当前的研究中,观察到的估计和SE的比较与主动控制的新方法在当前的研究中。这种方法假设主动控制的效果随着时间的推移保持合理的恒定,或者如果效果随着时间的推移而减弱(例如,作为改进的伴随治疗的结果),这种改进的效果可以被估计。看到Rothmann.[7为深入了解主动控制效应或其变异性的建模,以及Snappin和Jiang的论文[1011为固定裕度法和合成法提供统一的方法,该方法解决了分析灵敏度和稳定性的假设,以及它们对I型错误率的影响。我们将在下面的技术问题一节中详细阐述这些概念。

监管的角度

2010年3月,美国FDA药物评价与研究中心(CDER)和生物制剂评价与研究中心(CBER)发布了一份草案指导行业在非劣效试验中[6].FDA指南文件代表了FDA目前对药物开发过程中各种主题的思考,包括临床问题、统计、生产、安全和标签。本指南以非劣效性试验的介绍性概述开始。然后,它提供了统计问题的仔细讨论,包括确定适当的非劣效性边际的方法,并通过最近提交的说明性例子来解决问题。大部分的哲学基础这个指导处理FDA的担忧没有安慰剂组的试验(或更一般的,一个未经处理的控制),未能找到一个新的治疗和主动控制的区别实际上可能意味着既不优于安慰剂。因此,一种看待指南的方式是,将其视为一种尝试,以确保得出“非劣效性”结论的研究确定了一种优于安慰剂的治疗方法。

指南提供了有用的符号,我们在本文的讨论中采用了这些符号。如上所述,我们使用M1表示主动对照相对于安慰剂的整体效果,M2表示试验药物与对照药物比较时临床可接受的最大效果损失(劣效)。

影响米1是根据历史信息计算的;在非劣效性试验中不能直接测量(除非试验包括第三组,安慰剂或不治疗)。尽管如此,在目前的研究中,即使没有直接观察到积极控制相对于安慰剂的假定优势,也必须存在。我们将在下面更详细地讨论这一假设,即所谓的“分析灵敏度”。

《指南》指出,在某些情况下,仅证明M的非劣等性是合理的1保证金。这样的结果表明试验药物具有非零效应,但这种效应可能没有临床意义。较小的差额是M2,收紧测试药物与活性控制之间的连接,只有在试验药物没有丢失活性控制的效果的情况下,才允许非劣种的权利要求。指导国家:

“…成功non-inferiority研究表明严格测试药物有影响大于零,如果不包括M1的倪保证金,只要M1选择,实际上代表了一种效应,控制药物会有(与安慰剂有安慰剂组)。它还可以表明,根据所使用的M2,测试药物的效果大于部分对照药物的效果。”((6,第12页,第III.B节)。

虽然非劣效性试验在概念上通常是可取的,但操作上的困难可能会困扰选择边际的过程,要么是因为没有足够的数据来支持选定的边际,要么是因为计算的边际导致不切实际的样本量。该指南简要讨论了在这些情况下可能更可取的替代设计,包括附加研究、仔细选择的患者群体或随机停药研究。

该指南的主要重点在第四部分:“选择非劣效性边际和分析NI试验的结果”。从概念上讲,指导分解过程分为两个步骤:确定一个合理的方式评估主动控制的效果在最近的研究中,然后显示主动控制试验药物的好处在当前的研究中不大于(假定)整个活动控制安慰剂的效果。

一旦余额从专家意见或历史数据的正式分析中被选中,审判的设计人员必须确定如何分析非劣等研究的结果。该指导推出了两种可能的方法,我们简要介绍了上面的:固定边缘方法(也称为双CI方法或95-95方法[78])及合成方法。在固定边际值法中,非劣效性试验“成功”的条件是,测试药物和积极对照之间的95% CI的下限位于边际值之上,即M1或米2

相比之下,综合方法并没有根据过去的试验确定主动控制的具体裕度或效果。该指南称,“设计这种合成方法是为了直接解决测试产品是否优于安慰剂的问题。NI研究中有安慰剂吗[强调我们的],并解决相关的问题,即活性比较器的效果有多少部分是由测试产品保持的' ([6), 30页)。这种方法结合的效果测试产品non-inferiority试验中观察到的估计和控制效果,从单个试验或荟萃分析,获得一个CI non-inferiority用来测试的假设比较测试产品和活动比较器。但从另一种角度考虑,可以采用合成方法(在主动对照效果保留率为0%的设置下)来测试测试产品是否优于安慰剂,假设可以获得相对于安慰剂的主动对照效果的无偏估计值。这里最重要的假设是,从过去到现在的非劣效试验,主动对照的效果保持相对恒定(或可以如上所述建模)。这种方法在统计学意义上稍微有效率一些(即需要更小的样本量才能具有相同的统计能力),但对假设比较敏感,不容易将临床判断纳入M的定义2

指南最后回答了关于非劣效性试验的一系列常见问题和一些例子。问题集中在margin的选择和M之间的区别1和M2,主动对照的适用性,以及非劣效试验不可行时的选择。这些例子说明了固定边际和综合分析方法之间的差异,如何在没有随机安慰剂对照试验的情况下估计积极对照效果,在这种情况下,历史积极对照效果是如此之小,非劣效试验将是不切实际的,亚博ag出账秒到还有一个例子,当两项研究提供一致的结果时,成功的非劣等标准可以放宽。

相比之下,EMA关于选择非劣效差的指导文件[9没有指定选择页边距的方法。相反,EMA指导试验发起者使用统计和临床判断相结合的方法。选择边际的方法可能来自德尔菲式方法,询问专家,如果使用新产品而不是已经证明有效的产品,与安慰剂相比,他们愿意放弃多少效益。另外,调查人员可以使用更正式的方法来选择边际值。然而,该文件警告说,选择的边际必须足够小,以确保试验性治疗优于安慰剂。用EMA的话来说,“在解释非劣效试验数据的决策过程中,最低要求是我们必须确信,如果进行了安慰剂对照试验,测试产品将被证明是有效的。”

技术上来说,选择差额

无论采用德尔菲法、综合法还是95-95法,确定非劣效界的第一步是收集有关主动对照效果的所有相关信息。对于德尔菲法,“所有相关信息”可能存在于临床专家的头脑、经验和判断中。对于合成和95-95方法,“所有相关信息”包括一组数据,说明对照治疗与安慰剂相比的效果大小。后两种方法可能使用相同的方法来确定对照相对于安慰剂的效果。

前95%(对照组与安慰剂组相比如何)

如上所述,95-95方法的前95%的目的是计算对照组的效应量,并给出不低于真实效应量的合理保证。其原理是,计算估计效果大小的95% CI,然后选择该区间的下端,使我们有95%的信心相信对照干预相对于安慰剂的真实效果大小至少与计算的效果大小一样大。接受了这个原则作为计算的路径后,下一个决定是使用什么数据来计算CI。FDA指南建议应用元分析技术来计算估计的效应大小,从而确定CI的下限。为了便于说明,我们在这里讨论二元结果;很多讨论也与其他类型的结果有关。

荟萃分析是一套方法,用于结合一组研究的数据,以获得治疗效果的估计。因此,进行元分析的第一步是收集要使用的研究。在设计非劣效性试验时,在理想条件下,研究者将选择一组只包括对照干预与安慰剂对照的随机试验的研究。患者群体应与正在计划的非劣效性试验的研究人群相似;试验研究的结果应与计划的结果相同;对照方案(干预方案和剂量)应与新试验使用的方案相同;目前的治疗标准应与以前试验的治疗标准相同(“恒定”假设)。此外,在考虑的一组试验中研究的总人群应该足够大,以产生精确估计的效应大小。

在实践中,可用数据的限制常常迫使调查人员在某些标准上妥协。以前试验中研究的人群可能在一些重要方面与新试验计划的人群不同。前几项试验可能并非都将对照干预与安慰剂进行了一致比较;一些试验可能使用了安慰剂,而另一些可能使用了标准护理,还有一些可能使用了另一种主动对照。以前试验的结果测量可能与设计的试验结果不同。先前试验中的干预可能使用了与新试验中设想的不同剂量的药物,或者相关试验可能使用了与计划对照组相同类别的药物,但不是同一种药物。也许最令人烦恼的问题,因为它本质上是无法测量的,是护理标准在之前的试验和计划试验之间的几年里发生了变化的可能性。如果是这样的话,在过去被证明有效的药物在今天进行同样的试验时可能就不会被证明有效了。同样,如果考虑试验的荟萃分析进行的国家非常不同的护理标准的国家执行non-inferiority审判,然后控制的效果可能不同于原本的国家正在寻求批准。

假设被认为的一系列试验不令人震惊地侵犯上述理想标准,研究人员准备产生了对效果规模的整体估计。

比较治疗A和治疗B的荟萃分析开始于T随机试验。如果试验的主要终点是二进制的,对于k= 1, 2,…T,试验k有样本大小nnkB年代年代kB成功分别。Mantel-Haenszel(MH)方法的结果是汇总的赔率比T试用每个研究都可以用一个2 × 2的表来表示,表中描述了结构1

表1 2 × 2表的插图k审判。

每项研究(及表格)的优势比为:

估计的MH优势比为[12]:

优素福描述的皮托方法[13在这些场景中也经常使用。该方法与MH方法略有不同;然而,对于大样本,这两种方法产生几乎相同的结果。

在MH和Peto方法中,零假设下比值比的对数近似正态分布,均值为零,方差由观测值估计。两种方法的权重研究根据他们的样本量,而不是研究中治疗效果的大小。也就是说,大型研究对综合效应量的影响较大,而小型研究对估计效应量的影响较小。

此外,如果所有研究的真实效果大小实际上是相同的,那么MH检验是最优程序,因为它在所有可能的无偏检验中具有最高的统计威力。这一特性经常被颠覆,因为有人说,这些测试要求研究具有相同的真实效应大小,或者它们是“固定效应模型”。事实上,MH和Peto方法都不需要相同的效应大小。使用这两种方法中的任何一种进行荟萃分析的逻辑解释不是治疗的真实效果在所有情况下都是一样的,而是从荟萃分析中得到的总体估计是治疗效果的最佳估计,是所有研究的平均值。

FDA指南建议在meta分析中使用所谓的“随机效应模型”,这将用于确定非劣效试验的边际。与MH和Peto方法相比,这些模型对所有潜在研究中效应大小的分布做出了非常具体的假设。由DerSimonian和Laird介绍的标准方法[14,假设效应大小(在二项式变量的情况下是对数优势比)来自一个平均μ和方差σ的正态分布2.这一假设意味着,估计的混合效应是每个研究中获得的效应的加权平均;与MH和Peto方法相比,权重是各种研究的样本量和每个研究内估计与其他研究估计的接近程度的函数。作为Petitti [15]指出,当研究结果是异质性的时候,随机效应模型倾向于过分强调小型研究的重要性。这种权重可能是不适当的;小型研究通常在单个中心进行,更有可能受到偏差的影响,更不可能在研究过程中对数据质量进行严格检查或使用严格的方法。看到张志贤.[16讨论了一项关于镁的使用的随机效应元分析,这导致了错误的结果。在这种情况下,由于随机效应模型的假设对小型试验的权重过高,一项结果与其他大型试验大不相同的小型研究占据了估计效应量的主导地位。

了荟萃分析的典型呈现示出了森林图描绘各试验的结果,然后示出了所估计的效果的汇总统计。在完成这个荟萃分析中,研究者计算95%CI,并认定了FDA所说的中号1,将假定的对照治疗的效果大小(图3.).

图3
图3

森林图和米1

如果结果是时间-事件变量或连续变量,则通常分别对估计的风险比或平均值进行元分析。

选择米2:我们愿意损失多少?

正如EMA指南文件所强调的,统计和临床判断都应该在边际的选择中发挥作用。米1如上文所述,作为对照组相对于安慰剂效应大小的最佳估计的95% CI的下端。这个数字成为确定差额的起点。研究人员现在必须问,如果采用新疗法,损失多少好处是可以接受的。研究人员过去的经验可能允许他们定义他们在临床上愿意接受的疗效损失的程度。例如,通过考虑100个病例,临床医生可以通过考虑与标准治疗相比,什么可能是可接受的疗效损失来量化这种判断。

有时,调查人员不进行这种正式的分析;相反,他们计算出他们能花多少钱。在此基础上,他们决定他们能进行的最大的试验,并在事后证明差额的合理性。这(并非秘密)是调查人员在优越性审判中经常做的事;不同之处在于,优势试验的目的是显示效益,如果对给定的样本量而言,能力太低,那么试验不太可能显示出优势。然而,在镜子非自卑的世界里,类似的行为使边际太大,增加了成功证明新疗法非自卑的机会。

2常被选择来保留M1;然而,当药物是非常有效的,失去了一半的作用,尽管它可能仍然是优于安慰剂,可能不是临床上可以接受(图4).例如,考虑一种儿童疫苗,它可以预防96%的潜在疾病病例。一种新的口服疫苗只能预防48%的疾病,它仍然比安慰剂有效得多,但即使对孩子来说比注射疫苗少些痛苦,也很难吸引他们。因此,针对严重疾病的高效产品一般应在试验中进行评估,在试验中M的边际保留了很大比例1.在其他情况下,如果新产品在不良事件、易于管理和成本方面的好处非常大,研究人员可能愿意放弃更高比例的M1

图4
装具

2作为M的一个分数1

第二个95%(或者说,新产品不比旧产品差吗?)

有选择的米1(从前95%开始)和M2(根据判决),审判开始。在试验结束时,根据观察数据计算出95%置信区间。如果该间隔完全高于预先设定的-Δ,则试验显示非劣效性。事实上,我们可以参考图2看看置信极限与图中所示的极限的比较。

样本大小

计算非劣效性试验的样本量满足以下方程:

用词,这意味着样本尺寸必须足够大,使得概率足够高,使得95%CI的下限用于治疗组和对照组之间的估计差异是否大于边际,-Δ,当组间的真实差异,θT- - - - - -θCγ。

非劣效试验的样本量通常是在实验药剂和对照处理具有相同效果的假设下计算的,即假设γ为零。在假设新的处理方法稍微好一点的情况下,就像新产品通常的情况一样,所需的样本量就会大大减少。

例如,请考虑表中所示的两个比例的比较2.对于固定的margin,设置为主动控制中真实比例的10%,表格显示了假设相同的处理效果,小的(5%)和大的(10%)的实验剂效益所需的近似样本量。

表2比例非劣效比较所需的近似样本量

作为如何读取表的示例,考虑黑体显示的行,其中活动控件中的真实比例为50%。被认为不差的最小比例是45%(主动控制效果损失10%)。假设新处理和积极对照的比例相等,每组所需的总样本量约为2,100。然而,如果新治疗实际上比积极对照提供了5%的效益,对应的真实比例为52.5%,则需要的样本量为每组约1000个,以显示非劣效性。也就是说,在每组样本量为1000的情况下,如果积极对照的真实比例为50%,新治疗的真实比例为52.5%,则CI下限高于-5%的概率为90%。10%的益处,相当于新治疗中55%的比例,需要每个组的样本量刚刚超过500才能显示非劣效性。

假设与主动控制相比,实验代理的收益较小,将所需样本量削减约一半;如果更大的效益更现实,那么样本量大约是假设同等处理效果所需样本量的四分之一。

这些都还在,但是,在主动控制的效果相对温和改善,虽然样本量的减少假设这些好处时是不平凡的,他们没有那么大,建议切换到优效性试验,以证明这些好处。对于优效性试验所需的样本量来证明本小利会比非劣效性试验需要更大的近10倍,和周围的四倍大的影响较大。

对非劣效试验的关注

非劣效试验有许多并发症。如上所述,一个严重的问题是检测敏感性,即试验区分有效治疗和无效治疗的能力,非劣效试验和优效试验的问题是不同的。缺乏检测灵敏度的优势试验可能表明,新疗法在统计上没有明显优于对照组的优势,因为该试验将无法宣布疗效。相比之下,如果在治疗组之间没有差异,没有检测敏感性的非劣效性试验可能产生阳性结果(也就是说,它可能显示非劣效性证据),因为这将导致非劣效性结论。与优等试验不同,非劣效试验对测定灵敏度没有内部检查。(优越性试验的检查显示,被测试的干预优于控制。)为了缓解这一问题,EMA建议非劣效性试验,只要有可能,应包括安慰剂组,以直接比较主动对照和实验药物与安慰剂。(请注意,该研究可能是新药、老药和安慰剂,所有这些都是在标准护理的背景下进行的。)在许多情况下,这样的试验在道德上是不可接受的。也就是说,当一种已有的疗法(如癌症)已被证实对生存有利时,将参与者随机分配给安慰剂可能并不合适,而在其他情况下(如缓解疼痛),三组试验可能会很有效。

如上文所述,非劣效性试验的另一个问题与不断发展的治疗标准有关。考虑一种现有药物(药物A)的情况,该药物在安慰剂对照试验的基础上被批准用于治疗传染病。现在假设一家公司向监管机构申请批准一种新的治疗方法(药物B),使用非劣效设计,药物a作为积极对照。假设试验是“成功的”,也就是说,在治愈率方面,药物B并不逊于药物A。据推测,如果B类药物有一些优势,比如副作用更少或剂量安排更佳,那么它将成为治疗的标准。然后假设下一个公司申请批准,另一种药物(毒品C)对药物如果药物使用non-inferiority比较实际上并不优于安慰剂在第一个试验中,它可能是相当容易显示,每一个新的药物是主动控制的非劣,即使没有任何比安慰剂。在大多数情况下,护理标准的问题并不像这个例子可能表明的那样可怕,因为点估计可能显示出积极的效果,即使边际允许一些效力的损失,但这种担忧是有效的。如前所述,这种变化在药物方面被称为“生物蠕变”,在设备方面被称为“技术蠕变”。

此外,在传染病的情况下,生物体本身可能进化,给我们留下了真正的生物蠕变的可能性。也就是说,随着时间的推移,微生物对药典中较早出现的药物产生了耐药性,这意味着每一种新药都要与一种积极的控制药物进行比较,而这种药物可能会对一种增强的传染病病原体越来越无效。在这里,生物蠕变表示生物体中实际的生物变化。通常所谓的“生物蠕变”更准确地说是“虚拟生物蠕变”,即每一个后续产品的效果都可能比前一个产品稍差一些。1718].

但如果不能进行非劣效性试验呢?

如上所述,各种原因可能使非劣效性试验不可行。一个严格计算的边际可能会产生一个不能由经济或潜在的研究人群支持的样本量。EMA指南特别警告研究者不要增加他们的非劣效性边际值,当科学推导的边际值产生了不切实际的大样本量。有时必要的数据可能不存在(或可能没有一个新的研究人员可用),以尽可能仔细地计算裕度;或者自从收集历史数据以来治疗的前景已经发生了很大的变化以至于我们还不清楚该使用哪种主动控制以及这种控制是否真的比安慰剂更有效;或者,该试验可能是在一个治疗领域,在这个领域中,众所周知的有效疗法并不总是优于安慰剂(例如,抑郁症),这使得计划一个非劣效试验所需的分析敏感性很难争论。虽然具有挑战性,但这样的环境为有创造力的审讯者(和统计学家)提供了机会。

结论

非劣效性试验是合理的,当一种新的治疗方法具有某些足够有利的特性时,医生和他们的病人愿意牺牲某种程度的益处,相对于一种已经被批准的治疗方法。其优点是降低成本,提高使用的便捷性或给药计划(每月注射而不是每周注射),更简单的储存(不需要冷藏),或改进的安全性。然而,为获得这些好处而放弃的好处不应该太大,以至于患者和医生不愿意使用新产品。正如上面的疫苗例子所讨论的,失去注射提供的保护一半的口服制剂将不是一种可行的产品。非劣效界的选择和保留多少现有治疗效果在某种意义上包含了治疗的其他方面的可行性。

然而,从美国监管机构的角度来看,非劣效性试验的成功并不能正式纳入这些多方面的因素;这根本不是他们目前制定法规的方式。M2通过改变保留的主动控制效果的比例,确实提供了一些灵活性的空间。对于有已知和高效治疗方法的严重疾病,任何新产品都需要保留大量的已知治疗效果才能被认为是成功的。在其他情况下(例如轻度头痛),更温和的效果保存可能仍然是有趣的。在选择米2在美国,研究人员和药物开发人员应该考虑咨询患者,以确定监管机构可接受的幅度是否太大,患者无法接受。

将主要终点扩展为综合疗效和生活质量、疗效和成本、或疗效和安全性的综合指标将是复杂的。我们主张考虑是否修改相关立法,修改法规,使监管机构能够合法地考虑新产品的多个方面。由此产生的分析将变得更加复杂,但监管决策将更加微妙,最终对公共卫生更有利。然而,目前在美国,一项非劣效试验的成功取决于主要结果测量的成功,而不是受益的其他方面,如安全性,使用非劣效试验设计的监管成功可能需要完成不止一个这样的试验。

参考文献

  1. 1.

    Temple R, Ellenberg SS:评估新疗法中的安慰亚博ag出账秒到剂对照试验和主动对照试验;第一部分:伦理和科学问题。《内科医学年鉴》,2000,133:455-463。

    中科院文章PubMed.谷歌学术搜索

  2. 2.

    Ellenberg SS, Temple R:评估新疗法中的安慰亚博ag出账秒到剂对照试验和主动对照试验;第二部分:实际问题和具体案例。《内科医学年鉴》,2000,133:464-470。

    中科院文章PubMed.谷歌学术搜索

  3. 3.

    Wittes记者:主动控制试验:一个语言问题。国际中国统计副教授公告。2001年,39-40。

    谷歌学术搜索

  4. 4.

    赵伟:治疗意向在非劣效性研究分析中的作用。临床试验。2007,4:286-291。10.1177 / 1740774507079443。

    文章PubMed.谷歌学术搜索

  5. 5。

    EMA专利药品委员会(CPMP):考虑在优势和非劣势之间转换的要点伦敦,2000年

    谷歌学术搜索

  6. 6.

    美国食品和药物管理局:工业非劣等临床试验指南,2010

    谷歌学术搜索

  7. 7.

    Rothmann M,Li N,Chen G:肿瘤学中非劣质死亡率试验的设计与分析。统计医学。2003,22:239-264。

    文章PubMed.谷歌学术搜索

  8. 8.

    基于delta方法置信区间的非劣效分析。生物医学杂志。2003,13:565-583。10.1081 /毕普- 120022775。

    文章PubMed.谷歌学术搜索

  9. 9.

    EMA人用药品委员会(CHMP):非劣效区选择指南,伦敦,2005

    谷歌学术搜索

  10. 10.

    控制非劣效性试验1型错误率。统计医学,2008,27:371-381。10.1002 / sim.3072。

    文章谷歌学术搜索

  11. 11.

    Snappin S,蒋强:基于非劣效试验的疗效保存和新疗法的监管批准。统计医学,2008,27:382-391。10.1002 / sim.3073。

    文章谷歌学术搜索

  12. 12.

    回顾性疾病研究数据分析的统计方面。中华肿瘤杂志,1999,22:719-748。

    中科院PubMed.谷歌学术搜索

  13. 13.

    Yusuf S, Collins R:为什么我们需要一些大型、简单的随机试验?医学杂志1984,3:409-420。10.1002 / sim.4780030421。

    中科院文章PubMed.谷歌学术搜索

  14. 14.

    DerSimonian R, Laird N:临床试验的meta分析。对照临床试验。1986,7:177-188。10.1016 / 0197 - 2456(86) 90046 - 2。

    中科院文章PubMed.谷歌学术搜索

  15. 15.

    Petitti DB: Meta-analysis, Decision Analysis, and Cost-effectiveness Analysis: Methods of Quantitative Synthesis in Medicine. 2000, Oxford: Oxford University Press, 306 pp

    谷歌学术搜索

  16. 16.

    张志贤KK,优素福S:随机试验的概述:在疑似急性心肌梗死静脉镁的影响。BMJ。1991年,303:1499-1503。10.1136 / bmj.303.6816.1499。

    中科院文章PubMed.公共医学中心谷歌学术搜索

  17. 17.

    弗莱明TR:非劣效试验的当前问题。统计医学,2008,27:317-332。10.1002 / sim.2855。

    文章PubMed.谷歌学术搜索

  18. 18.

    非劣效性试验的问题:社区获得性肺炎的证据。中国临床传染病杂志,2008,47(增刊3):S108-S120。

    文章PubMed.公共医学中心谷歌学术搜索

下载参考

作者信息

从属关系

作者

相应的作者

给詹妮弗·舒米的信件。

额外的信息

相互竞争的利益

两位作者宣称他们没有相互竞争的利益。

作者的贡献

JS和JW起草了手稿。两位作者都阅读并批准了最终的手稿。我们感谢审稿人提供的有帮助的评论和建议,以及Tara Gentile对创建这些数字的帮助。

作者的原始提交的图像文件

权利和权限

本文由BioMed Central Ltd授权发表。这是一篇基于知识共享署名许可协议(http://creativecommons.org/licenses/by/2.0),允许在任何媒介上无限制地使用、分发和复制,但必须正确引用原作。

再版和权限

关于这篇文章

引用这篇文章

舒姆,J.,Wittes,J.T.通过看起来的玻璃:了解非劣势。试用12,106(2011)。https://doi.org/10.1186/1745-6215-106

下载引用

关键字

  • 主动控制
  • 欧洲医药局
  • 估计效果
  • 等效性试验
  • 真实的比例