跳到主要内容

2×2×2阶乘随机临床STEPCARE试验中的相互作用和对结论的潜在影响:模拟研究的方案

摘要

背景

采用因子设计的随机临床试验可以评估同一人群中多种干预措施的效果。析因试验是在假设试验干预对结果没有相互作用的情况下进行的。在这里,我们提出了一项模拟研究方案,以调查试验干预措施之间不同水平的相互作用对未来2×2×2阶因设计的随机临床镇静、温度和压力在院外心脏骤停后昏迷患者的心脏骤停和复苏(STEPCARE)试验的结果的后果。

方法

通过模拟50个地点、3278名参与者的多地点试验,并假设对照人群的6个月全因死亡率为60%,我们将以不同程度的相互作用影响结果来调查试验结果的有效性。本研究的主要模拟结果是在模拟情景中出现1型和2型错误的风险,即在何种交互水平上超出了期望的alpha和beta水平。在保持1型误差的总体风险≤5%和2型误差的风险≤10%的情况下,如果计划样本量增加5%,我们将量化我们可以接受的最大相互作用效果,以考虑试验干预之间可能的相互作用。其次,我们将评估交互作用如何影响我们可以确认或拒绝的最小可检测差异,以考虑模拟中没有“真实”干预效应的5%(小交互作用)、10%(中等)或15%(大)正交互作用(1型错误),以及模拟中有“真实”干预效应的小(5%)、中等(10%)或大的负交互作用(15%)(2型错误)。此外,我们将研究必须增加多少样本量才能解释小、中等或大的相互作用效应。

讨论

该模拟研究方案将为2×2×2阶乘随机临床试验的设计提供信息,以了解评估干预措施之间的潜在相互作用可能如何影响结论。制定模拟研究的协议对确保结果的有效性和无偏性很重要。

试验注册

不相关的

同行评审报告

简介

随机临床试验最常调查单一干预措施的效果[1].采用因子设计的随机临床试验可以评估同一人群中多种干预措施对结果的影响。在假设试验干预措施的效果之间不存在相互作用的前提下,与析因设计中包括的每一种评估干预措施的效果相关的结果通常在单独的文章中报道[2].然而,纳入析因设计的评估干预措施之间的相互作用可能会影响总体试验结果[2].

心脏骤停和复苏后的镇静、温度和压力(STEPCARE)试验是一项大型三期临床试验,由研究者发起,国际,评估者盲法,随机2×2×2阶乘试验。我们计划在3278例院外心脏骤停(OHCA)复苏后昏迷的成年患者(人群)中评估以下假设:深度镇静目标,使用反馈导向装置来目标正常状态(< 37.8°C),或平均动脉压(MAP)目标> 85 mmHg(干预措施1、2和3),与最小化镇静,无设备的温度管理,或> 65 mmHg(比较物1、2和3)相比,是否可以提高随机化后6个月的生存率(主要临床结果)?

我们计划分别发表这三种干预措施的结果,假设干预措施之间没有显著的相互作用影响6个月生存率。我们预计这些干预措施可能会对彼此产生短期影响(“生理相互作用”)。在先前对重症监护人群进行的研究中,研究了短期生理变化和长期以患者为中心的结果之间的关系,这种联系是不一致的和不可预测的[3.45].例如,在一般重症监护人群中,将血糖严格控制在正常水平与死亡率的增加和降低有关[3.5];手术干预导致创伤性脑损伤后颅内压的大幅降低与更糟糕的结果相关[4].此外,在我们之前的2×2因子随机部分联合招募试验中,与心脏骤停后靶向轻度高碳酸血症(TAME)试验,未观察到影响结果的干预措施之间的相互作用[67].同样,我们发现PaCO之间没有显著的相互作用影响患者的预后2心脏骤停和复苏(COMACARE)试验中的二氧化碳、氧气和平均动脉压,动脉氧张力、MAP或温度目标[89].然而,从理论上讲,我们的三种实验干预之间可能存在生理上的相互作用,这种相互作用可能会影响参与者的结果。然而,这种生理相互作用的实际水平及其与这些特定干预的结果的关系尚不清楚。

因此,在STEPCARE试验的准备过程中,我们将开展一项模拟研究,调查与主要临床结果相关的试验干预措施之间不同水平的相互作用的后果。我们的目的是研究在没有“真实”干预效果的模拟中增加积极相互作用的1型错误,以及在有“真实”干预效果的模拟中增加消极相互作用的2型错误。模拟研究很少被记录下来[10],但由于模拟可能会像其他类型的分析一样受到数据驱动方法的影响,我们将在运行模拟之前详细定义我们的方法[111213].

方法

本模拟研究将调查2×2×2析因设计随机临床试验中试验干预措施之间的相互作用如何潜在地影响总体结果。计划中的STEPCARE随机临床试验将包括OHCA患者,模拟是基于先前两项研究OHCA患者靶向温度管理的试验获得的信息[614].简而言之,第一项试验将950名参与者在OHCA后的36小时内随机分为33°C和36°C两组。第二项试验将1900名参与者随机分组,在随机分组后的前40小时内,OHCA后的温度为33°C,而非正常状态(≤37.8°C)。两项试验均得出结论,低温不影响6个月时死亡或功能不良结果的风险[614].

研究设计

模拟随机临床试验将是2×2×2阶乘设计,其中每个参与者将被随机分配到每个试验干预措施的实验组和对照组(使用反馈导向设备进行温度控制与不使用温度控制设备;协议镇静与最小化镇静;更高的MAP目标比通常的MAP目标)。所有模拟的主要临床结果为6个月全因死亡率。随机分组将根据不同的试验地点进行分层。不同的情况将针对每种情况进行1000次模拟,这足以获得稳定的结果[151617].数据生成机制可用作补充材料

模拟

srct函数,它被实现为公开可用的clintools- R软件包,已开发用于模拟随机临床试验[18].srct -函数生成一个包含地点、分配、相对风险和结果的个人参与表。该表通过以下步骤生成:

  • 创建站点,并定义参与者被包含在站点中的概率。为了模拟每个站点不包含相同数量的参与者,特定站点包含参与者的概率基于随机生成的截断正态分布概率(分布的形状:均值10,标准差5)。每个站点接收一个数字,通过将分配给所有站点的数字与特定站点的总和除以,确定包含的概率。概率将被重新计算,直到所有站点都有可能包含超过0.5%的参与者。这意味着在一个有50个站点和3278名参与者的多站点试验中,最小的站点将包括16名参与者(中位数,四分位数范围(IQR) 11 - 20),最大的站点将包括135名参与者(中位数,IQR 125 - 148)。

  • 根据定义的块大小为每个站点生成分配表,每个站点的参与者都包括在试验中,并分配给每个干预措施。

  • 结果的基线风险随机分配到每个低变异性(标准差为0.05)的位点,以模拟位点的随机效应。本试验的基线风险定义为60% (见下文)

  • 每个参与者的结果概率(绝对风险)根据以下公式计算:

    左左(P $ $ \ ln \ \ (Y = 1 \) \右)={一}_0 + {Var} _1 \子弹{一}_1 + {Var} _2 \子弹{一}_2 + {Var} _3 \子弹{一}_3 + {Var} _1 \子弹{Var} _2 \{一}_4 \点$ $

α0是指结果概率的自然对数。α1 - 3指干预措施相对风险降低或增加的自然对数。α4 +指相互作用的相对风险降低或增加的自然对数。Varx如果参与者在控制组为0,如果参与者在干预组为1。

  • 每个模拟中的每个参与者的结果都是根据上面计算的结果概率计算出来的。

模拟研究人群和相对风险降低

模拟试验将在多站点设置中进行,平均有50个参与站点(SD 5),并且假定对照组参与者的6个月全因死亡率为60% [614].基于3278名参与者的样本量,每种干预的alpha设置为0.05,最小重要绝对风险降低为5.6%(对应于9.3%的相对风险降低,RRR),我们将在每次比较中实现90%的幂。为了调查样本量的影响,我们将使用两个较小的样本量进行所有调查。第一个模型包括1990名参与者,并假设最小的重要绝对风险降低为7.2%(对应于12%的RRR),其结果为90%的幂。第二组包括200名参与者,并假设绝对风险降低22.7%(对应37.8%),结果是90%的幂。缺少的数据将不包括在模拟中。

模拟试验的统计分析

模拟试验将有一个二分的主要模拟结果,并将分析一种干预措施的相互作用的影响,称为“评估干预”。相对风险(RRs)和相应的置信区间将由以二项(log)为族的glmer函数从lme4包[19],其中p数值小于0.05即为显著值[20.].如果模型不收敛,我们将使用基于R的glm函数进行计算,族集为qausipoisson补充材料).我们将测试干预措施之间的相互作用。在这项模拟研究中,将测试评估干预措施和其他两项干预措施之间的相互作用。只有当相互作用在统计上显著时,我们才会认为存在相互作用的证据p-低于0.017的值(对于原始alpha为0.05的每次分析,每可能的双向相互作用数的bonferroni校正)[21].

交互作用

基于理论考虑,我们认为在样本量计算中假设的效应量的5%(小相互作用效应)、10%(中等相互作用效应)或15%(最大合理相互作用效应)的相互作用效应是最合理的。我们使用以下公式来确定实际相互作用占最合理的相互作用效应的百分比:

$ $ iRR =存款准备金率- \离开(1 - {e} ^ {\ ln \离开了存款准备金率(1 - \右)+左(1 - x \右)}\ ln \ \右)$ $

存款准备金率是来自样本量分析的假定相对风险降低,iRR相互作用的相对风险(相互作用效应),和x是交互作用的百分比。根据上面的公式,并经过隔离x

$ $ x = \压裂{iRR}{1 -存款准备金率}$ $

初始样本量为3278,假设效应量为9.3% (存款准备金率), 5%的小相互作用效应对应的相对风险降低或增加0.465% (iRR),以及交互作用(x)的百分比为0.513%。见表1对于所有最合理的相互作用效应。

表1交互效应

模拟条件

这将使用以下条件进行评估:

  1. 1)

    在被评估的干预措施和其他干预措施之间增加积极的相互作用(即协同效应)。

  2. 2)

    增加评价干预措施与其他两种干预措施之间的正向相互作用。

  3. 3)

    被评估的干预措施与其他干预措施之间的负面相互作用增加。

  4. 4)

    所评估的干预措施与其他两种干预措施之间的负面相互作用增加。

对于这四种情况中的每一种,我们将调查两种有效(样本容量计算的RRR及其两倍,例如初级分析的RRR为0.093和0.186)干预措施和两种最低限度有害(RR: 1.001和1.0025)干预措施。

结果

本研究的主要模拟结果将评估在何种相互作用水平上(1)得出无效干预有效的结论的风险高于可接受的5%(所选的alpha水平);(2)在何种相互作用水平下,得出有效干预实际上无效的结论的风险高于可接受的10%(所选的beta水平)。这将告诉我们什么程度的相互作用影响结果,以及什么时候干预之间没有相互作用的假设被违反(图。1A).在保持1型误差的总体风险≤5%和2型误差的风险≤10%的情况下,如果计划样本量增加5%,我们将量化我们可以接受的最大相互作用效果,以考虑试验干预之间可能的相互作用。其次,我们将评估交互作用如何影响我们可以确认或拒绝的最小可检测差异,以考虑模拟中没有“真实”干预效果(1型错误)的5%(小交互作用)、10%(中等)或15%(大)正交互作用,以及模拟中有“真实”干预效果(2型错误)的小(5%)、中等(10%)或大(15%)负交互作用。最后,我们将研究必须增加多少样本量才能解释小、中、大相互作用效应。

图1
图1

这个数字显示了一种情况,一种有效的干预措施(相对风险降低(RRR)为0.1)和另一种干预措施的积极相互作用。这种先发制人的模拟只包括10%增量的模拟,100次模拟试验,以及100次迭代的相对风险的g计算。一个主要模拟结果基于1型和2型错误的综合风险进行评估。有效干预的阈值为10% (y-轴)用于评估在何种相互作用程度下,2型错误的风险高于定义的10%,而对于无效干预,5%的阈值(y轴)用于评估1型错误的风险。B当确定有显著相互作用时的次要结果设为10%。超过(C)和低估(D)基于RR的置信极限,其中阈值设置为我们模拟的alpha和beta,即分别为5%和10%

探索性结果包括在何种交互水平上,交互分析将在90%以上的试验中达到显著性(幂次)[22].这将告诉我们,在什么程度的交互作用下,试验者将被告知在干预之间没有交互作用的假设的破坏(图。1B)。此外,在何种相互作用水平下,效应高估的风险超过了可接受的5%(图。1C),在何种相互作用水平下,效果低估的风险超过可接受的10%(图。1D),以及平均计算相对风险与实际干预效果之间的差值。在alpha为5%,幂为90%的试验中,假阳性(1型错误率)为5%,假阴性(2型错误率)为10%是可以接受的。1型和2型错误指的是H0假设干预只能是劣的、优的或平等的[23].对第一类错误的更详细解释是对实际干预效果的高估,而第二类错误是对实际干预效果的低估。通过识别RR的置信下限高于实际RR的模拟试验次数来计算高估比例,通过识别置信上限低于实际RR的模拟试验次数来计算低估比例。

结果

我们运行以下模拟来测试srct函数的有效性。当对2000名参与者进行10,000次模拟,干预的RRR为10%,且无交互时,srct函数的平均RR为0.90(95%置信区间(CI) 0.82至0.95)。运行了18,000个不同试验规模的模拟(中位数为3,588;IQR: 300-3850名参与者),不同的干预效果(6000次模拟,RRR为0.0;6000次模拟,RRR为0.1;和6000个模拟,RRR为0.2),并且没有相互作用,我们发现4.98%的试验发现了不包括实际干预效果的置信区间。此外,使用Wald近似计算的置信区间没有显著重叠1.0p值,且无置信区间不包括1.0且值不显著p价值。不幸的是,我们的分析中有4216项没有收敛;因此,在这些分析中,地点被作为一个固定效应。我们认为这些结果验证了srct函数。每个条件都将以图表的形式呈现(图。1).

讨论

在这里,我们提出了一个详细的方案和统计分析计划的模拟研究的阶乘随机临床试验。本研究将基于我们计划的STEPCARE 2×2×2阶乘随机临床试验的潜在相互作用水平,调查1型和2型错误的风险,包括考虑合理的相互作用效应应增加多少样本量。此前,一项模拟研究发现,干预措施之间的正向相互作用会影响结论[24].然而,这项研究没有调查在何种程度的相互作用下,1型和2型错误的风险超过了确定的alpha和beta,也没有调查人员何时会意识到这个问题。本模拟研究中所调查的相对风险降低具有临床意义,并且可以认为,即使较小的干预效果也可以归类为具有临床意义[6].

的优势

这是2×2×2因子设计试验模拟研究方案和统计分析计划的第一份同行评审出版物。此外,模拟研究很少采用预先发表的同行评审协议[10].模拟研究对科学界做出了重要贡献,但同样容易受到数据驱动分析和发表偏倚的影响[25].该协议需要定义调查方法,确定的结果,并附有源代码。该模拟研究的结果与未来任何具有因子设计的随机临床试验的设计相关。本方案是根据随机临床试验和观察性研究的统计分析计划的建议制定的[1112].

限制

模拟研究因试图模拟真实生活而受到限制。因此,模拟研究受到代码中的选择的限制,但使用以前从现实生活参与者数据中收集的汇总措施可能会增加本研究结果的有效性和概括性。此外,模拟研究可能无法翻译。模拟研究的结果需要由方法学家和试验学家来解释,而不是盲目地实施。阶乘2×2×2随机临床试验的块大小至少为8,如果块大小不同,另外两个最小尺寸为16和24。如果包含较小的站点,那么相当大的块大小可能会扭曲组。这种潜在的偏差将不会在目前的模拟研究中进行调查。本模拟研究不会调查相互作用的所有潜在方面,特别是亚群体干预的影响和缺失数据可能对后续研究的调查很重要。

结论

本模拟研究方案将为2×2×2阶乘随机临床试验的设计提供信息,以及在何种交互水平下试验结果的有效性将受到影响。制定模拟研究的协议对确保结果的有效性和无偏性很重要。

数据和材料的可用性

在当前研究期间生成和/或分析的数据集将在最终研究结果公布后在Zenodo提供。

参考文献

  1. Granholm A, Alhazzani W, Derde LPG, Angus DC, Zampieri FG, Hammond NE,等。重症监护中的随机临床试验:过去、现在和未来。重症监护医学。2022;48:164-78。

    文章中科院谷歌学者

  2. Montgomery AA, Peters TJ, Little P.析因随机对照试验的设计、分析和展示。亚博ag出账秒到医学医学研究。2003;3:26。

    文章谷歌学者

  3. NICE-SUGAR研究调查员,Finfer S, Chittock DR, Su SY-S, Blair D, Foster D,等。重症患者强化与常规血糖控制的比较。中华外科杂志,2009;36(2):366 - 366。

    文章谷歌学者

  4. Cooper DJ, Rosenfeld JV, Murray L, Arabi YM, Davies AR, D 'Urso P,等。弥漫性外伤性脑损伤的减压术。中华外科杂志,2011;

    文章中科院谷歌学者

  5. van den Berghe G, Wouters P, Weekers F, Verwaest C, Bruyninckx F, Schetz M,等。重症患者强化胰岛素治疗。中华外科杂志2001;35(2):369 - 366。

    文章谷歌学者

  6. 邓凯维兹,李文杰,李文杰,李文杰,Ullén,等。院外心脏骤停后低体温vs正常体温英国医学杂志。2021;384:2283-94。

    文章谷歌学者

  7. 帕克RL,麦吉尼斯S,伊斯特伍德GM,尼科尔A,尼尔森N,丹凯维奇J,等。TAME和TTM-2试验的联合报名:大脑选择。重症监护复苏。2017;19:99-100。

    PubMed谷歌学者

  8. 杨晓燕,杨晓燕,杨晓燕,等。针对心脏骤停和复苏后低正常或高正常平均动脉压:一项随机试点试验。重症监护医学。2018;44:2091-101。

    文章中科院谷歌学者

  9. 贾库拉,李志强,杨晓明,Hästbacka J,李志强,赵晓明,Pettilä V,等。针对心脏骤停和复苏后两种不同水平的动脉二氧化碳和动脉氧气:一项随机试点试验。重症监护医学。2018;44:2112-21。

    文章中科院谷歌学者

  10. Smith MK, Marshall A.临床药物开发中模拟研究方案的重要性。统计方法医学,2011;20:613-22。

    文章谷歌学者

  11. Gamble C, Krishan A, Stocken D, Lewis S, Juszczak E, Doré C,等。临床试验统计分析计划内容指南。《美国医学协会杂志》上。2017; 318:2337-43。

    文章谷歌学者

  12. Hiemstra B, Keus F, Wetterslev J, Gluud C, van der Horst ICC。辩论-观察性研究的统计分析计划。BMC医学Res methodo2019;19:233。

    文章谷歌学者

  13. 莫里斯TP,怀特IR,克劳瑟MJ。利用模拟研究评估统计方法;2019.

    谷歌学者

  14. 李文杰,李文杰,李文杰,等。心脏骤停后33°C和36°C有针对性的温度管理。中华外科杂志,2013;

    文章中科院谷歌学者

  15. 科勒,布朗,韩娟。基于模拟的统计分析中蒙特卡罗误差的评定。Am Stat 2009; 63:155-62。

    文章谷歌学者

  16. Holford N, Ma SC, Ploeger BA。临床模拟试验综述。John Wiley & Sons, Ltd. 2010; 88:166-82

    文章中科院谷歌学者

  17. 史密斯H,斯威廷M,莫里斯T,克劳瑟MJ。比较统计和机器学习方法对时间到事件数据的风险预测的模拟研究的范围方法学综述。诊断计划Res. 2022;6:10。

    文章谷歌学者

  18. Olsen MH. clintools:临床研究工具。R Packag。0.9.3版本。2022.可以从:https://cran.r-project.org/web/packages/clintools/index.html

    谷歌学者

  19. 贝茨D, Mächler M, Bolker B, Walker S.拟合线性混合效应模型的lme4。中国统计杂志,2015;

    文章谷歌学者

  20. Wason JMS, Stecher L, Mander AP。多臂试验中多重测试的校正:有必要吗?试验。2014;15:364。

    文章谷歌学者

  21. Félix V, Menezes A.通过蒙特卡罗研究进行多重比较中t检验的十种校正方法的比较。电子应用统计分析,2018;11:74-91。

    谷歌学者

  22. Nørskov AK, Lange T, Nielsen EE, Gluud C, Winkel P, Beyersmann J,等。随机临床试验中统计分析方法假设的评估:什么和如何。英国医学循证医学杂志2021;26:21 - 6。

    文章谷歌学者

  23. 金H-Y。临床研究人员的统计笔记:统计决策中的I型和II型错误。电阻器Dent Endod. 2015; 40:249-52。

    文章谷歌学者

  24. Jaki T, Vasileiou D.多治疗临床试验的阶乘与多臂多阶段设计。统计医学。2017;36:563-80。

    文章谷歌学者

  25. Head ML, Holman L, Lanfear R, Kahn AT, Jennions MD. p-hacking在科学中的程度和后果。公共科学图书馆。2015;13:e1002106。

    文章谷歌学者

下载参考

确认

不适用

资金

哥本哈根临床干预研究中心,丹麦首都地区,哥本哈根大学医院。

作者信息

作者及隶属关系

作者

贡献

MHO和JCJ起草了初版手稿。所有其他作者都修改了手稿。所有作者都批准了最终版本。

相应的作者

对应到马库斯·哈博·奥尔森

道德声明

伦理批准并同意参与

不适用。

发表同意书

不适用。

相互竞争的利益

作者宣称他们之间没有利益冲突。

额外的信息

出版商的注意

怎么样下载亚搏施普林格自然对出版的地图和机构从属关系中的管辖权主张保持中立。

补充信息

权利和权限

开放获取本文遵循知识共享署名4.0国际许可协议,允许以任何媒介或格式使用、分享、改编、分发和复制,只要您对原作者和来源给予适当的署名,提供知识共享许可协议的链接,并注明是否有更改。本文中的图像或其他第三方材料包含在文章的创作共用许可协议中,除非在材料的信用额度中另有说明。如果材料未包含在文章的创作共用许可协议中,并且您的预期使用不被法定法规所允许或超出了允许的使用范围,您将需要直接获得版权所有者的许可。如欲查看本牌照的副本,请浏览http://creativecommons.org/licenses/by/4.0/.创作共用公共领域奉献弃权书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本条所提供的资料,除非在资料的信用额度中另有说明。

转载及权限

关于本文

通过CrossMark验证货币和真实性

引用本文

奥尔森,m.h.,詹森,a.k.g.,丹凯维奇,J。et al。2×2×2阶乘随机临床STEPCARE试验中的相互作用和对结论的潜在影响:模拟研究的方案。试用23, 889(2022)。https://doi.org/10.1186/s13063-022-06796-7

下载引用

  • 收到了

  • 接受

  • 发表

  • DOIhttps://doi.org/10.1186/s13063-022-06796-7

关键字

  • 模拟研究
  • 协议
  • 的相互作用
  • 析因设计
  • 随机临床试验
  • 统计分析方案
Baidu