如何多级,多臂机试验比较传统的双臂平行组设计——再分析4试验

FM-S Barthel^1,2,3,
MKB Parmar^2,3&
P罗伊斯顿^2,3

试用体积10文章编号:21(2009年)引用这篇文章

7368年访问
22引用
3Altmetric
指标细节

文摘

背景

加快新疗法的评价,多臂机、多级试验设计被作者建议之前。

方法

在本文中,我们评估两级的性能,多臂机设计使用四个癌症临床试验MRC反恐组。在虚构的性能设计临时使用一个条件引导方法的分析评估。

结果

解决两个主要目的:正确的出错率进行/在一个临时停止试验分析以及量化的收益而言,采用这种设计的资源。此外,我们建议这个临时分析的最佳时机。

结论

多臂机,多级试验是一种有效的方式加快治疗评估过程。设计表现良好的I型和II错误率。

同行评审报告

背景

多臂机,多级(播出)试验采用一个中间结果在早期阶段的多级试验与多个研究武器已经被提议作为手段,加快新疗法的评价1]。设计本身是基于中断随机“贫穷”治疗在早期阶段,并允许通过进一步治疗阶段只有那些显示一个预定义的优势度对控制治疗。在早期阶段,实验武器比较成对根据一个中间结果测量与控制。使用中间端点的优势在临时分析一般被高盛等人研究了在模拟研究[2]。治疗武器生存这种比较然后输入进一步病人权责发生制最终的高潮阶段,针对控制基于成对比较主要的端点。因此,审判只是停了缺乏好处,不像许多其他好处的证据设计(3,4]。这些设计的一个主要问题是评估他们的操作特征,特别是保护成对权力在每个阶段和整体试验,即在第二阶段有条件在治疗跳第一阶段分析的“障碍”。

本研究的目的是确定试验是否曾作为标准进行平行组试验会受益从进行多级使用播出的试验方法。为了达到这个目标,使用了四种不同的试验的数据。这项研究有两个主要目标:首先评估是否使用播出的方法,试验会被正确地进行/停在临时分析其次量化收益在资源利用播出的方法的使用条款。因此,我们担心错误率在第一阶段给定一个特定的结果在最后阶段分析。一个错误是在这种背景下定义为早期停止试验,最后分析显示影响或在临时进行试验分析,最终分析表明没有证据的影响。为此,一系列的中间结果的分析测量是模仿的试验使用原始试验数据和引导样本数据(5]。

方法

试用

四个试验比较不同治疗癌症网站包括在分析中。其中两个有一个积极的结果支持的新疗法,一个是“负面”,显示没有证据的区别研究和控制杆,和一个是多臂机审判“负面”和“积极”的结果。

初审、RE01显示大量证据的治疗差异的总生存期(6]。在这个实验中转移性肾癌患者随机同样皮下α干扰素(实验)或口服醋酸甲羟孕酮(控制)。整体存活率的比较两组显示死亡率减少28%α干扰素组(风险比= 0.72,95%置信区间0.55 - -0.94)。这个试验用一个三角形的序贯设计允许早期停止只要结果是决定性的。

两个试验在卵巢癌也重新分析。在ICON3 [7),患者随机1:2紫杉醇联合卡铂的研究机构对控制臂单代理卡铂或帽(环磷酰胺、阿霉素、顺铂)。试验显示,没有证据表明改进的实验对控制杆(HR = 0.98, 95%置信区间0.86 - 1.10)。第二个卵巢癌审判,ICON4 [8)是用来评估是否给予紫杉醇与含铂化疗有利于女性卵巢癌复发的platinum-sensitive超过传统的以铂为基础的化疗。试验显示显著提高实验的控制治疗(HR = 0.78, 95%置信区间0.65 - 0.95)。

最后,多臂机审判的焦点(9在晚期大肠癌的预后不良也重新分析。在这个实验中患者随机2:1:1:1:1五治疗计划,B, C, D和e . A组(控制)由单氟尿嘧啶直到临床疾病进展,然后单药伊立替康。分别B和C是氟尿嘧啶氟尿嘧啶/伊立替康或氟尿嘧啶/铂。D和E氟尿嘧啶/伊立替康或氟尿嘧啶/铂从一开始。只有比较实验C臂控制被发现比使用测量结果的总生存期。所有的比较结果表1。

表1治疗手臂比较集中

全尺寸表

多级结构的设计

我们重新设计所有四个试验,仿佛他们已经运行在一个两阶段设计。要做到这一点,参数表中给出2和基于最初的试验方案是用来计算必要的控制臂的事件数量e_我第一阶段使用n-stage项目占据(10]。这个程序也可以从作者要求。对试验ICON3 ICON4 RE01,这些计算是基于使用无进展生存(PFS)作为中间结果。焦点,然而,它是决定使用PFS作为中间结果不适当的自随机治疗一个包在第一行设置和发展。因此,有关采用整体生存这个试验结果在这两个阶段1和2。而合适的风险比中间和最终结果(备择假设)被指定为相同的值在大多数试验,在ICON4,审判协议指定一个稍低风险比最后的结果。这个值也用于分析。较低的最后阶段显著性水平用于集中反映了调整是为多个比较,由于存在大量的武器试验中。

表2为试验分析基于试验协议参数值

全尺寸表

分析中间端点进行的临时分析事件的目标数实时“应计”在对照组。病人没有‘进入’试验在这个时间点被排除在分析之外。在这一分析的风险比无进展生存进行了计算并与风险比的临界值在设计阶段确定。这个关键风险比d计算如下。定义的风险比中间的结果在第一阶段H₀,让表示正常的偏离在片面的显著性水平α。然后,对于一个给定的概率p被分配到的控制臂和所需数量的控制臂的事件

控制臂事件的数量网游在这个计算是相同的两个零和替代假说。因此,这个临界值给1 -的下界%置信区间下的风险比H₀没有影响的11)(p.79)。这意味着片面1 -%周围的置信区间只包括H₀的权力%。因此如果一个观察到的风险比大于这个临界值,我们可以可靠排除一个效应大于零假设下的水平。请参阅附加的文件1一个活生生的例子。因此,如果风险比小于此临界值审判是算作继续随机选择进一步的患者,如果是大的,这次审判是算作“停止”,不会再有进一步的随机进行特定的实验。风险比的试验使用总体存活率也计算获取测试中间统计结果之间的相关性值和主要结果。所有风险比率计算使用Cox回归模型和治疗唯一的协变量。

百分比来计算一个错误估计,5000试验数据集是基于每个原始试验通过创建引导的替代试验样本数据集(5)(p.82)。如果这个方案被没有任何进一步的调整,我们将获得一系列试验的总体结果不匹配原始审判结果的意义在双边5%的水平。然而,我们想要回答的问题是,给定一个最终结果显示实验处理的效应的证据,这个试验是正确使用中间继续在临时分析测量结果。因此我们决定我们会抛弃引导样品的治疗效果与在5%的水平。同样适用于消极的试验,我们将放弃如果引导治疗效果是重要的在这个级别。因此,我们使用一个引导采样机制的条件下,对最后的结果分析。检查产生的风险比率的均值,我们发现在5000数据集,这是非常接近原来的试验结果。

获取图形显示,病人权责发生制审判是模仿如上所述,此外,风险率计算每次观察一个新的事件。

在占据version 9.2进行了分析。

结果

有关使用试验数据的结果

在第一种情况下,所有的试验都重新分析中描述的方法考虑会发生什么假设如果他们被设计为两阶段试验。这个分析的结果显示在表中3和4以及数据1和2。可以观察到,这些试验/武器,最终结果显示的证据(表中获益3),试验/手臂继续在所有阶段。在最后的试验分析表明没有证据表明(表产生影响4),武器会被停在第一阶段分析的一些但不是全部。这反映在人力资源,计算风险比在每个阶段不同的审判。

有关试验的原始试验数据汇总在表3显示的证据对最终的结果产生影响。

全尺寸表

有关试验的原始试验数据汇总在表4显示没有证据表明对最终的结果产生影响。

全尺寸表

这些数据随着时间的推移发展做了进一步的阐述。在所有情况下,中间的实线代表观察到的日志风险比为95%置信区间作为阴影区域。为试验ICON4 ICON3 RE01,日志使用PFS风险率计算结果这是作为中间结果重新设计。所有武器的焦点,日志风险比率计算基于总体存活率。每个人物还包括日志风险率临界值的发展随着时间的推移,显示为黑色虚线。日志风险比ICON4和RE01保持低于临界值的全部试验。然而,如果我们考虑ICON3为例,我们可以确定为什么在4 5分析表中,审判将是继续尽管最终结果显示没有证据的区别。日志最初风险比低于临界值,然后上面移动很短的时间内它后再移动它下面。只有非常稍后在审判中它又回到高于临界值。焦点的情况同样模糊的在第一阶段的试验。 In all comparisons the observed estimate of the hazard ratio is very close to the critical value at all times. This suggests that at best there is a very small effect of the experimental treatment over control, a long way away from the targetted hazard ratio.

有关使用引导数据的结果在2阶段

表5来8给有关的试验结果为2阶段与前两个表采用PFS作为中间结果。比较之间的控制和治疗手臂ICON3,百分比误差与这些试验的治疗手臂进行。是这样的,因为最终的试验结果显示,没有证据的区别。这个错误可能是等大问题我们正在继续武器没有明显效果的试验,因此可以认为这是一个“保守”的错误。ICON4比较的例如,百分误差是指当治疗手臂的次数会被停在第一阶段分析,即使最后的结果是正面的。这对我们更关心的是错误的因为我们停止试验显示能从中获益。

表5的再次与最终结果在两个阶段的实验中显示出不同的证据使用PFS作为中间结果。

全尺寸表

表6分析两个阶段的试验最终结果显示没有证据的不同采用PFS作为中间结果。

全尺寸表

表7有关与最终结果在两个阶段的实验中显示出不同的证据使用总体存活率作为中间端点。

全尺寸表

表8的再次在两个阶段的实验中最终结果显示没有证据的不同使用总体存活率作为中间端点。

全尺寸表

我们的分析表明,如果一个治疗是成功的最终结果的最后审判,它有一个非常好的机会“跳”的障碍在中间阶段。ICON4和RE01都试验强阳性结果的最后审判,这两个试验,最大误差是5%以下使用PFS作为中间结果和略高于6%使用总体存活率作为中间结果。重点比较A和C的错误百分比大。然而,整个试验结果还不清楚“积极的”或“负面”方向,见图1。ICON3结果(表6)也说明,由于风险比不是常数随着时间的推移,这一趋势在错误率也non-monotonic和反直觉的。在这个实验中,如图2可以观察到一个非常小的效果,接近但不H₀也是在临界值附近。因此,引导了许多上市变现的趋势即将躺的临界值。

表7和8给结果引导分析使用所有阶段的试验的主要结果。有趣的是,结果错误率不改善(有时甚至更糟)当使用这个结果。这表明,错误率不是夸大了使用不同的结果在中间分析和最终的分析试验。

显示的相关性检验统计量之间的相关性在阶段1和试验结束,即中间结果日志风险率之间的相关性分析和日志的时候风险比整体生存的最后审判。在重点再分析,结果使用在这两个阶段是最后的结果。结果说明,早期分析的相关性很低。原因是在一个较高的显著性水平,控制臂事件的数量e_我可用于分析小之间有较长的时间间隔,分析和最终的分析。此外,病人的分析是基于一个更小的子集。

表6和8另外给信息的意思是节省时间如果审判是停止在早期阶段的试验与消极的整体结果。同时保存被减去计算所需的平均时间引导从第一阶段分析所需的估计时间标准下平行组试验设计的假设。在这种情况下,它被认为只试验进行最终分析整体生存,这是在5%的显著性水平进行双边和90%的力量。如果一个不成功的治疗在早期被拒绝,节省试验时间1.5 - 2.3年。

同时考虑到储蓄可能总试验时间如果审判是正确地停在早期阶段的错误率估计试验最终分析显示不同的证据,我们可以得出一些结论的最好把第一阶段分析。正确和错误之间的权衡阻止早期试验表明,在理想的情况下,第一阶段分析应放置在0.2或0.3的显著性水平。此时,错误率RE01和ICON4 re-analyses是微不足道的。同时,平均总试验时间的节省1和2年可以分别在集中和ICON3。然而,需要进行更广泛的研究去获得第一阶段分析的最佳时机。

结果在表7说明,重点比较A和C会早早已经停止了在某些情况下,即使整个审判审判的最后结果可能被视为是“利润”的统计学意义。绕过这个问题,预计在播出的试验设计中,病人的胳膊被取消在早期阶段仍将跟踪和数据分析在稍后的阶段。表9给出了最终分析的结果是如果重点试验/手臂早已经停止了和分析了在稍后的日期。稍后分析使用成熟的数据集中试验中,几乎所有的患者一个事件的分析。然而,只有病人应计的时间相关的第一阶段分析包含在最终的分析中。虽然结果比较A和B, A和D和E vs符合表中给出的分析1,比较A和C是近乎显著如果后期1进行分析(HR 0.86如果第一阶段分析进行显著性水平为0.1)。

表9的焦点最终分析结果后停在早期阶段1。

全尺寸表

结论

目前,据FDA估计(12),约90%的代理进入阶段我在第三阶段没有成功。这是我们知识与进展途径与癌症发展和转移,因此多个代理的可用性测试的临床试验。经过阶段I / II,癌症三期试验的成功率仍只有50%。然而,如果我们例如雇佣多臂机、多级设计有四个实验方案和一个控制,成功的概率至少一个代理的最后审判增加到87%。这个计算假定所有独立实验武器。因此,这种类型的试验设计更有效地使用资源。

在这个设计我们建议目标控制手臂的活动率而不是事件的数量在所有武器的总和。这种方法有两个原因。首先,一个事件率不同,对整个试验预期可能出现由于不同的底层事件率在所有武器或由于风险比不同的最初目标。这种级别的歧义是被使用控制臂事件率时的决定性因素进行分析。第二,当多个实验部门招募,不太可能,我们应当遵守同样的风险比比较,给予不同的事件总数的比较。然而,事件总数的计算假定同一事件率在所有比较实验的怀里。

我们已经证明使用播出的设计,重要的储蓄可以审判时间如果治疗没有被证明是有效的审判。re-analyses在这种情况下,试验表明,大约50%的所有引导试验会被拒绝在第一阶段,不管这中间阶段。更多的存款可以做如果播出的试验设计与三个或更多阶段早期排斥的概率增加。

试验有很好的证据对整体存活率的影响跳所有的中间障碍有很高的概率。对于ICON4,这是发现高达100%。然而,这些方法确实付出了代价。A / C作为重点的分析比较表明,试验或治疗武器与非常小的治疗效果在审判之前被中断的风险。缓解这个问题在使用这个设计MRC反恐组我们遵循病人进一步停止武器而随机停止这些武器。因此,这些武器也将分析主要结果在以后虽然减少了权力在某些情况下,根据数据的成熟度,所以至少可以获得影响大小的估计。

我们re-analyses不仅证明一般播出的设计的效率,而且探索第一阶段分析的最佳时机。结果表明,第一阶段是理想的放置在0.2和0.3之间的显著性水平之间的权衡对正确和错误地停止被认为是错误。这是点的错误率有关例如RE01变得可以忽略不计,对PFS和整体生存中间端点。然而,这是一个实用的建议,并不能反映一个优化设计可以从模拟研究获得。

本研究进一步观察的行为之间的相关性测试中间的统计数据和主要结果。如果第一阶段进行早期在很小数量的控制臂的事件,这种相关系数一般较低,约为0.3。它增加随着时间的推移和达到的值在0.5至0.7的范围很晚第一阶段分析。

这种类型的分析将理想做模拟研究中,考虑到所有可能的试验情况。然而,我们认为更简单条件引导的方法,我们使用是足够的。在这个分析中,我们需要能够区分早期停止试验条件的错误最终结果显示很好的证据的影响,以及持续的错误条件试验最终结果显示没有证据的影响。因此我们使用条件引导而不是标准版的因为我们的兴趣在于错误条件在一个特定的最终结果。

在这个设计没有调整多个测试是由错误的过渡阶段。有很多原因:我)疗效的早期停止错误的问题更严重,不纳入设计,2)显著性水平在每个阶段筛选作用只有0.5,接近确保早期第一阶段的外观和iii)整体显著性水平是显著性水平选择上有界的最后阶段。如果需要,这最后阶段显著性水平可能是根据实验武器的数量调整。事实上,正如我们现在的方法是为了阻止武器因缺乏利益可能会适当调整为多个比较在每个阶段II型错误。然而,在我们的经验中这个问题通常不考虑。

当分析试验的中间阶段,权力可能增加了协变量包括。自从早期阶段将包含几个病人,审判人口在武器更可能是不平衡的潜在的混杂协变量如年龄。包括这些已知协变量影响的分析可能会增加结果的鲁棒性。

引用

罗伊斯顿P Parmar MKB钱W:小说设计多臂机与生存的临床试验的结果,应用程序在卵巢癌。医学统计数据。2003年,22 (14):2239 - 2256。10.1002 / sim.1430。
文章 PubMed 谷歌学术搜索
高盛B,勒布朗M,克劳利J:临时徒劳分析中间端点。临床试验。2008年,5:14-22。10.1177 / 1740774507086648。
文章 PubMed 谷歌学术搜索
局域网K, DeMets D:离散连续边界进行临床试验。生物统计学。1983年,70:659 - 663。10.2307 / 2336502。
文章谷歌学术搜索
Pampallona年代,Tsiatis Kim公里:临时监测组序贯试验使用消费函数为i型和ii错误概率。药物信息杂志。2001年,35:1113 - 1121。
文章谷歌学术搜索
好P:重采样方法:数据分析的实用指南。Birkhaeuser。2001
书谷歌学术搜索
MRC肾癌合作者:α干扰素和生存在转移性肾癌早期一个随机试验的结果。柳叶刀》。1999年,353:14 - 17。10.1016 / s0140 - 6736 (98) 03544 - 2。
文章谷歌学术搜索
国际合作的卵巢肿瘤(图标)组:紫杉醇+卡铂与标准化疗与单药卡铂或环磷酰胺、阿霉素、顺铂在卵巢癌的女性:ICON3随机试验。柳叶刀》。2002年,360:505 - 515。10.1016 / s0140 - 6736 (02) 09738 - 6。
文章谷歌学术搜索
图标和以前的合作者:紫杉醇+铂类化疗和传统以铂为基础的化疗与复发卵巢癌女性:ICON4 /前- 2.2 -审判。柳叶刀》。2003年,361:2099 - 2106。10.1016 / s0140 - 6736 (03) 13718 - x。
文章谷歌学术搜索
西摩米,莫恩T, Ledermann J, Topham C,詹姆斯·R Gwyther年代,史密斯D,牧羊人年代,Maraveyas,渡轮D,米德,汤普森L,格里菲斯G, Parmar M,史蒂芬斯R:不同策略的顺序和联合化疗对晚期大肠癌的预后不良(MRC)重点:随机对照试验。柳叶刀》。2007年,370:143 - 52。10.1016 / s0140 - 6736 (07) 61087 - 3。
文章中科院 PubMed 谷歌学术搜索
Barthel F,罗伊斯顿P, Parmar M:一个菜单驱动的设施在小说多臂机样本量的计算,多级随机对照试验与生存时间的结果。亚博ag出账秒到占据杂志。2009年,
谷歌学术搜索
食蟹猴D,张YB, Parmar MKB:生存分析实用方法。2006年,约翰·威利和儿子,英格兰,2
书谷歌学术搜索
美国食品和药物管理局:创新或停滞:关键路径上的挑战和机遇,新的医疗产品。美国健康和人类服务部门。2004年
谷歌学术搜索

下载参考

确认

这项研究得到了英国癌症研究,格兰特C448 / A6807数量。

作者信息

作者和联系

生物统计学、精神病学研究所、伦敦国王学院,伦敦,英国
FM-S Barthel
肿瘤学研发、葛兰素史克、英国伦敦
FM-S Barthel, MKB Parmar & P罗伊斯顿
本临床试验单位,伦敦,英国
FM-S Barthel, MKB Parmar & P罗伊斯顿

作者

FM-S Barthel

看来作者出版物

你也可以搜索这个作者PubMed谷歌学术搜索
MKB Parmar

看来作者出版物

你也可以搜索这个作者PubMed谷歌学术搜索
P罗伊斯顿

看来作者出版物

你也可以搜索这个作者PubMed谷歌学术搜索

相应的作者

对应到FM-S Barthel。

额外的信息

相互竞争的利益

facebook一直受雇于葛兰素史克在修改手稿。

作者的贡献

facebook进行分析和起草了手稿。议员和公关参与讨论有关分析方法,帮助起草手稿。所有作者阅读和批准最终的手稿。

电子辅料

13063 _2008_309_moesm1_esm.pdf

额外的文件1:附录:工作的例子。附录包含一个工作示例的计算控制臂的事件和关键风险比。(PDF 45 KB)

作者提交的原始图像文件

下面是链接到作者的原始提交的图像文件。

作者对图1的原始文件

作者对图2的原始文件

权利和权限

这篇文章发表在生物医学中心有限公司的许可证。这是一个开放获取知识共享归属条款条许可证(http://creativecommons.org/licenses/by/2.0),允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。

再版和权限

关于这篇文章

引用这篇文章

Barthel, FS。,Parmar, M. & Royston, P. How do multi-stage, multi-arm trials compare to the traditional two-arm parallel group design – a reanalysis of 4 trials.试用1021岁(2009年)。https://doi.org/10.1186/1745 - 6215 - 10 - 21所示

下载引用

收到了:2008年10月10日
接受:2009年4月17日
发表:2009年4月17日
DOI:https://doi.org/10.1186/1745 - 6215 - 10 - 21所示

关键字

临时的分析
中间结果
阶段分析
最初的试验
中间结果测量

如何多级,多臂机试验比较传统的双臂平行组设计——再分析4试验

文摘

背景

方法

结果

结论

背景

方法

试用

多级结构的设计

结果

有关使用试验数据的结果

有关使用引导数据的结果在2阶段

结论

引用

确认

作者信息

作者和联系

相应的作者

额外的信息

相互竞争的利益

作者的贡献

电子辅料

13063 _2008_309_moesm1_esm.pdf

作者提交的原始图像文件

作者对图1的原始文件

作者对图2的原始文件

权利和权限

关于这篇文章

引用这篇文章

分享这篇文章

关键字

试用

联系我们