跳过主要内容

从外部试点随机对照试验估计关键设计参数的样本量要求:模拟研究亚博ag出账秒到

摘要

背景

外部试点或可行性研究可用于估计关键的未知参数,为最终随机对照试验(RCT)的设计提供信息。然而,对于试点研究需要多大的规模,人们几乎没有达成共识,一些人建议在规划明确的随机对照试验时,夸大估计以调整精确度的不足。

方法

我们用模拟的方法来说明连续结果的标准差抽样分布和二元结果的事件率抽样分布。我们提出了增加试点样本量对这些估计的精度和偏差的影响,以及在三种现实情况下的预测能力。我们还说明了使用置信区间参数夸大估计的结果,以便使用预先指定的置信水平实现所需的能力。在双平行平衡组优势随机对照试验之前,我们将注意力集中在外部试点和可行性研究上。

结果

对于正态分布的结果,合并标准差(SDp)在总样本量为70时小于10%(每组每增加5名受试者)。对于0.1和0.5之间的真实比例,我们发现一旦样本量为60,每增加5个受试者的精度增益都小于5%。由于初步研究估计的不精确性而调整所需的样本量可能会导致过大的确定随机对照试验,而且这里考虑的真实效应量也需要60至90的初步样本量。

结论

我们建议在评估SD时,进行一项外部试点研究,至少有70名被测对象(每组35人)p为了一个持续的结果。如果干预组的事件率需要由试点人员估计,那么总共需要60到100名受试者。因此,如果主要结果是二元的,那么在初步试验中可能需要至少120名受试者(每组60人)。使用规模更大的试点研究要比使用夸大的估计来防止精确性的缺乏有效得多。

同行评审报告

背景

2012/13年度,英国国家卫生研究所(NIHR)为一系列广泛的项目和举措提供了2.089亿英镑的研究拨款,以确保患者和公众尽快从最具成本效益的最新卫生干预和治疗中受益[1].这些研究资助的很大一部分是随机对照试验(rct),用于评估新卫生技术的临床效果和成本效益。亚博ag出账秒到设计良好的随机对照试验被广泛认为是评估新卫生技术的偏见最小的研究设计,而决策者,如国家卫生和保健卓越研究所(NICE),正越来越多地期待随机对照试验的结果来指导实践和政策。

随机对照试验的目的是提供治疗效果的精确估计,因此需要精心设计,以便有良好的能力回答具体的临床重要问题。试验力度过大和力度不足都是不受欢迎的,而且每种试验都带来了不同的伦理、统计和实际问题。良好的试验设计需要预先说明临床重要效应量的大小。然而,在进行稳健的样本量计算之前,有必要了解对照组中结果或事件发生率的总体变化情况。如果结果确定,这些关键的人群或控制参数可以从以前的研究(rct或队列研究)或通过荟萃分析进行估计。然而,在某些情况下,如果拟议调查的试验人群的可靠数据还不存在,找到可靠的估计可能会带来相当大的挑战。

一项对已发表的具有连续结果的随机对照试验的系统综述发现,与试验完成时观察到的变异相比,在样本量计算中(80%的报告终点)的总体变异被低估了[2].这项研究还发现,25%的研究动力严重不足,如果在样本量计算中使用试验中观察到的变化,则需要样本量的5倍。最近对二元和连续结果试验的回顾[3.发现有50%的可能性低估了关键参数。然而,他们也发现,在样本量计算中使用的估计值与最终试验得出的估计值之间存在很大差异。这表明,许多随机对照试验实际上动力不足或过大。系统审查研究伦理委员会收到的随机对照试验建议[4]发现超过一半的研究没有报告人口参数假设值的基础。因此,关键种群参数的假设值可能是RCT设计中最薄弱的部分。

公共资助的随机对照试验经常报告的一个问题是,参与者的招募往往比预期的慢或更困难,许多试验未能在最初设想的试验时间表和试验资助信封内达到计划的样本量。一项对由英国医学研究理事会和美国国家卫生研究院卫生技术评估方案资助的122项试验的队列研究发现,不到三分之一(31%)的试验实现了最初的患者招募目标,55/122(45.1%)达不到原定目标的80%,其中一半(53%)获得延期[5].最近的一项最新研究也报告了类似的发现[6].因此,许多试验的招聘率似乎不切实际。如果试验在允许的时间范围内没有招募到目标样本量,那么检测预先指定的目标效应量的能力就会降低。

因此,确定rct的成功主要依赖于设计中可靠信息的可用性。精心设计、进行和分析的试点或可行性试验有助于为最终试验的设计提供信息,并增加最终试验实现其目的和目标的可能性。在术语上有一些混淆,什么是可行性研究,什么是试点研究。英国国家卫生人力资源研究组合中的公共资助机构已就试点和可行性研究的定义达成一致[7].其他作者反对使用“可行性”一词,并区分了三种类型的临床前试验工作[8].

试点研究和可行性研究的特点

NIHR指导:

可行性研究是在主要研究之前进行的一些研究,目的是回答“这项研究可以进行吗?”在这种情况下,它们可以用来估计设计主要研究所需的重要参数9.例如:

  1. 我)

    结果测量的标准差,在某些情况下估计样本量所需的标准差;

  2. (二)

    参与者随机化的意愿;

  3. 3)

    临床医生招募参与者的意愿;

  4. (四)

    特定时间段内符合条件的患者人数;

  5. v)

    建议的结果测量的特点,在某些情况下,可行性研究可能涉及设计一个合适的结果测量;

  6. (六)

    随访率、问卷回复率、依从性/依从性、集群试验的集群内相关系数等。

随机对照试验的可行性研究本身可能不是随机的。亚博ag出账秒到至关重要的是,可行性研究并没有评估利益的结果;这是主要研究的内容。

如果一项可行性研究是一个小型的随机对照试验,它不需要有一个主要结果,通常的功率计算也不会进行。相反,样本量应足以估计关键参数(如招募率)到必要的精确程度。

先导试验是主要研究的一个缩影,以测试主要研究的各个组成部分是否可以协同工作9.因此,它在许多方面与主要研究相似,包括对主要结果的评估。在某些情况下,这将是实质性研究的第一阶段,试验阶段的数据可能有助于最后的分析;被称为内部飞行员。或者在飞行员研究结束时,数据可能会被分析并放在一边,也就是所谓的外部飞行员10

在本文中,我们将使用“试点研究”一词来指代为确定试验的设计估算关键参数而进行的试点工作。关于使用内部试点研究的两阶段随机对照试验设计,有大量但独立的文献[11- - - - - -14].

在为确定随机对照试验的设计提供信息的试点试验应使用多少样本量的问题上存在分歧[15- - - - - -18].虽然在这个问题上没有达成共识,但已经提出了一些建议。此外,大多数建议侧重于估计连续结果的可变性,而对二元结果的关注相对较少。分歧源于两种相互竞争的压力。小型研究可能是不精确和有偏差的(这里通过比较抽样分布的中位数和真实总体值来定义),因此需要更大的样本量来减少偏差和不精确的幅度。然而,一般来说,在外部试点或可行性试验中测量的参与者对最终试验的治疗效果没有贡献,所以我们的目标应该是保持足够的能量,同时将研究对象的总数保持在最低水平。最近,一些作者提倡在连续结果的方差估计中考虑不精确性的做法。一些人建议使用单边置信区间方法来保证权力至少在50%的时间内是需要的[151819].

本文旨在就两个方面提供建议和指导方针。首先,估计不确定关键参数(连续结果的SD;以及同意率、事件率和二元结果的磨耗率),需要以合理的精度来指导最终随机对照试验的设计吗?其次,这些初步研究的估计如何用于确定随机对照试验的样本量(和设计)?我们假设初步研究(和确定的随机对照试验)是一种新治疗相对于对照组的双平行平衡组优势试验。

为了这项工作的目的,我们假设确定的随机对照试验的样本量是使用显著性水平和功率参数计算的。这是目前随机对照试验中普遍采用的方法;然而,已经提出了计算样本量的替代方法,如使用置信区间宽度[20.以及考虑到不确定性的贝叶斯方法[21- - - - - -23].

方法

我们的目的是证明从小型研究中估计的人口参数的变化。虽然这些参数的抽样分布从统计理论中已经很好地理解了,但我们选择通过模拟而不是通过理论论证来呈现这些分布的行为,因为结果分布的可视化表示使结果更易为更广泛的受众所接受。

随机化不是估计所有感兴趣参数的必要条件。然而,需要注意的是,在可行性阶段的一些相关参数与随机化过程本身有关,例如愿意随机化的比率,以及每个随机化组的保留或退出率。此外,随机化确保了已知和未知协变量在随机组中的平均分布。这确保了我们可以在不需要担心混杂因素的情况下估计武器参数。因此,在这项工作中,我们决定允许参与者随机化,以模拟估计所有参数的一般设置,尽管我们承认有些参数是独立于随机化的。

我们首先考虑两组大小相等的正态分布结果。我们考虑了10到80名受试者的研究小组,每组增加5人。对于每个初步研究规模,进行了10,000次模拟。在不失一般性的前提下,我们假设结果的真实总体均值为0,真实总体方差为1(这些在干预组和对照组中是相同的)。然后,我们使用SD的估计,以及其他信息,如组间临床结果的最小重要差异,以及I型和II型错误水平,来计算确定的随机对照试验所需的样本量(使用显著性阈值方法)。

目标差异或效应大小被认为是临床重要的最小差异,通常是在比较干预的连续结果与对照组的连续结果时的方法差异。然后将这个差异除以总体标准差转换为标准化的效应大小。有关随机对照试验统计假设检验框架的更多细节,请参阅文献[2425].

对于两组试点随机对照试验,我们可以使用新治疗组或对照组/常规护理组的SD估计值,或者将两组的两个SD估计值合并使用合并标准差(SD)p),由两组特异性样品SDs估计。对于样本量的计算,我们通常假设两组结果的可变性相同或相等,尽管这一假设可以放宽,而且在假设两组SDs不相等的情况下,有计算样本量的方法[2627].这与使用标准是类似的t-检验两个独立样本(或多元线性回归),假设方差相等,以分析结果数据与使用版本的t-不假设方差相等的检验(例如Satterthwaite或Welch的校正)。

我们假设二元结果是二项分布的,并考虑一些不同的真实总体比例,因为比例估计量的变化是真实比例的函数。在估计事件率时,将研究的两个分支合并在一起可能并不总是合适的,因此我们研究了从单个分支估计比例的影响,其中研究规模在五个受试者的步骤中增加。我们以0.05为增量考虑了0.1至0.5范围内的真实比例。对于每个场景和样本量,根据假设的真实比例,我们模拟了至少10,000次可行性研究。对于二进制结果,模拟的数量是通过要求在0.001的标准误差内估计比例来确定的。因此,当真实比例等于0.5时,需要的模拟次数最多为25万次。在Stata版本12.1中进行了模拟[28]和R版本13.2 [29].

正态分布结果

对于每次模拟,计算各组的样本方差( 年代 1 2 年代 2 2 ),合并后的SD计算如下:

SD p 年代 1 2 + 年代 2 2 2
(1)

我们还计算了样本合并标准差的标准误差,即

se SD p SD p 2 n 1
(2)

为了量化精度的相对变化,我们比较了95%置信区间(WCI)的平均宽度2n)。p研究规模为2n随着研究规模增加至2时的平均宽度(n+ 5)。我们使用置信区间的宽度,因为它提供了估计精度的度量。

根据标准差的抽样分布,其95%置信下限和95%置信上限分别为:

2 n 1 χ 0.025 2 n 1 SD p 2 n 1 χ 0.975 2 n 1 SD p
(3)

如果每组的样本量增加5个,则精度的相对百分比增加被量化为95%置信区间宽度的减少:

WC 2 n WC 2 n + 5 WC 2 n × One hundred.
(4)

通过从每个估计值中减去真实值并取这些差异的平均值来评估偏差。

我们还考虑了根据Browne在1995年最初提出的建议调整SD估计值的影响[15].这里,我们提出了一个单边置信限来给出一个修正值。如果我们使用50%单边置信限,这将对估计中的偏差进行调整,在使用小型试点时也提出了这种校正[17].如果我们指定50%的信心,那么我们的能力将在50%的时间里符合要求。Sim和Lewis [18]的建议是合理的,要求样本量计算保证所需的功率,并在指定的置信水平大于50%。为说明起见,我们将考虑通货膨胀因素的80%置信水平。因此,我们要求置信区间的极限大于该值的80%置信区间。因此,通胀因素适用于瑞典货币p从飞行员是:

2 n 1 χ 0.8 2 n 1
(5)

为了考虑对电力和计划样本量的影响,我们需要提出合理的具体替代假设。在试验中,治疗之间不常见有很大的差异,因此我们考虑了小到中等标准效应值(组均值之间的差异)为0.2、0.35和0.5 [30.].对于每个真实效果大小为0.2、0.35或0.5,我们除以标准差p估计每个重复,并使用这个值来计算所需的样本量。对于每个模拟试点研究,我们计算随机对照试验的计划样本量,假设未调整标准差或调整标准差p据飞行员估计。使用这个计划的样本量(其中SDp),然后我们计算计划研究的真实威力,假设我们知道真实的人口SDp实际上是1。

二进制的结果

我们认为二元结果将仅对一个同质组进行测量。对每个真实总体成功概率重复下面的步骤。我们以0.05为间隔,检验了从0.1到0.5的9个真实成功概率。我们考虑了41个不同的试点研究规模,范围从10到200不等,包括5个受试者的倍数。下标的j分别表示真实比例和初步研究规模。为每个规模的模拟试点研究nj,成功的次数(Yij~本(nj,θ)nj被计算。首先,观察到的比例, θ ,九种真正成功的概率分别由以下方法计算:

θ Y ij n j
(6)

使用Wilson评分计算相关95%置信区间[21]给出的:

θ + z α / 2 2 2 n j ± z α / 2 θ 1 θ + z α / 2 2 4 n j n j 1 + z α / 2 2 n j
(7)

第二,重复这个过程N年代(需要估计真实成功概率的模拟次数在其标准误差的0.1%以内)和九个真实成功概率中每一个的平均观察成功概率(θ),计算结果如下:

θ ¯ 1 N 年代 k 1 N 年代 θ 本土知识
(8)

在哪里 θ 本土知识 θ k模拟试验研究。第三,由于试点试验的样本量相对较小,我们计算了真实成功概率平均值的95%置信区间的平均宽度N年代使用Wilson评分方法的模拟[31]为固定的样本量,该样本量为:

1 N 年代 k 1 N 年代 2 z 一个 / 2 θ 本土知识 1 θ 本土知识 + z 一个 / 2 2 4 n j n j 1 + z 一个 / 2 2 n j
(9)

每增加5个研究参与者,其准确度在真实二项比例附近的相对百分比增幅定义如下:

WC n j WC n j + 5 WC n j × One hundred.
(10)

对于连续结果,通过从每个估计值中减去真实的总体值并取其符号均值来评估偏差。我们还报告了95%的覆盖率[32].

结果与讨论

正态分布结果

数字1是样品SD分布的多个盒状和晶须图p.在我们的模拟中,真实的SD等于1。数字1清楚地表明,随着合并样本量的增加和估计标准差的分布,估计的扩散减小p随着合并样本大小的增加,也变得更加对称。因此,偏倚和歪斜在样本量较小时更明显。偏差的方向意味着标准差往往被低估。一旦总样本量超过50,平均偏差就可以忽略不计,并且低于真实值的0.005。但更值得注意的是,样本量较小时,抽样分布变化较大,样本量较大时,抽样分布变化较大。

图1
图1

SD的多重盒须图p由初步研究的合并样本量估计。垂直轴表示SD的值p估计每个试点研究规模有10,000个模拟。横轴是由汇集的试点研究规模刻度。

数字2显示精度增益的百分比(SD置信区间的宽度)p),并在样本中再增加10人(每组5人)。精度随样本量的增加而增加,然而,精度的相对增益(总是正的)随样本量的增加而减少。在总样本量为70的情况下,当进一步将参与者加入研究规模时,精度的提高不到10%。因此,就良好的精度和最小的偏差(对于连续的结果)而言,一个初步研究的总样本量为70似乎是可取的。数字3.显示了对于特定替代效应大小为0.2的计划样本容量的真功率分布,假设我们需要在5%双边显著性水平上的90%功率。其他效应大小的真实功率分布是非常相似的(它可以表明,在从试点估计SD的条件下,分布应该是相同的,但在小的样本大小下四舍五入到整数会导致轻微的变化)。正如预期的那样,这张图显示了较小样本容量下的功率变化很大。然而,即使是20个相对较小的试点样本量,计划中的研究在75%以上的时间里确实有至少80%的能力来检测目标效果大小(当我们说我们希望90%的能力时)。数字3.也表明,真正的权力经常超过90%,但这一更高权力的成本,以总参与者不能从这个数字量化。通过对比图4能够显示更高功率的“成本”转化为样本量规模。

图2
figure2

SD精度增益百分比p增加合并的样本大小。这显示了当额外的5个受试者加入到一组时,置信区间的平均宽度的相对减少。

图3
图3

使用SD时计划的RCT研究权力的分配p从初步研究中得出的估计。如果假设SD = 1,则使用计划的研究规模来计算真实功率。图中显示的是真实效果大小为0.2的情况。纵轴是真正的力量。的x-axis表示双臂先导研究的大小。

图4
装具

使用原始标准差的计划样本量分布p估计和调整一个特定的信心水平。(一)效应大小= 0.2。(b)效应量= 0.35。(c)效应大小= 0.5。每个图的上半部分显示了计划样本量按试点研究规模的分布。下半部分显示的是相同的,但使用了通胀调整,以80%的信心保证指定的功率。的x-轴表示计划的样本量,纵轴表示试点研究的规模。虚线表示真实功率为90%的样本大小,虚线表示真实功率为80%的样本大小。

数字4显示使用估计标准差时计划样本容量的分布p从试点(有和没有通货膨胀的SDp).可以看出,对于所有三种效应大小,这些地块的总体形状是相似的,但随着效应大小的减小,计划样本量成比例地增加。数字4a使用未调整的SD显示样本量(对于平均值为0.2的真实差异)p(上图)和膨胀的SDp(较低的情节)。使用充气SDp意味着我们已经明确了我们希望我们计划的研究有90%的力量,80%的信心或确定性。通过比较这两个情节和叠加样本大小为1052,这是我们会需要检测的影响大小为0.2与90%的力量和5%的双边意义当真正的SD等于1,你可以很容易看到通货膨胀因素的影响。数据4b,c呈现与图相同的对比4A的平均值分别为0.35和0.5之间的真正差异。通货膨胀因素的主要影响是保证80%的计划研究是实际的更大的对于小型飞行员来说,这可能会比需要的大50%。如果未经调整的粗估计飞行员用于未来的学习计划,但我们的目标是至少50%的研究动力为90%,检验计划的百分位数显示样本大小提供至少80%与90%的信心,当一个试点研究至少70。研究人员需要仔细考虑,当总体方差被高估时,他们准备承受的最坏情况的最小能力水平。数字5将初步研究的规模添加到计划研究的规模中,这样就可以看到所需的总受试者数量的分布。通货膨胀因素的影响现在取决于真实的影响大小。如果我们计划使用通货膨胀因子,那么当效应大小为0.5时,大约30的初步研究是最优的。然而,使用规模为70的初步研究的未经调整的估计,受试者的平均数量将相同,这将导致计划研究规模的变化较小。如果效应量为0.2,那么采用通货膨胀因子的最优试点研究规模约为90,但与仅使用规模为150的试点研究未经调整的估计相比,这个最优规模仍然导致更大的总体样本量。

图5
figure5

使用先导样本导出的SD时所需总样本量的分布p估计有或没有通货膨胀。(一)效应大小= 0.2。(b)效应量= 0.35。(c)效应大小= 0.5。这个数字与figure相似4;然而,现在总样本量包括了前期研究的样本量。虚线和虚线分别表示90%和80%功率所需的样本量,如果真实SD已知,且不需要进行初步研究。

二进制的结果

当估计比例时抽样分布是真实总体比例的函数所以从集合组估计它似乎是不明智的,除非它是独立于处理组的测量,并且有很强的组间平等的假设。我们已经探索了以5而不是10为增量的比例的抽样分布,因为我们允许从一只手臂估计这一可能性。由于统计理论预测,当真实比例为0.5时抽样变异最大,并随着真实比例与0.5的差异越来越大而减小,我们展示了考虑的两个最极端比例的结果,即0.1和0.5(图)6).当真实比例为0.1时,抽样分布有轻微的偏态,甚至当不均匀的导频臂尺寸被使用时,抽样分布也有低估真实值的倾向。然而,当真实比例为0.5时,不存在系统偏差,不存在低估或高估试验参数的情况。大多数波动是由于从真实比例不是可能结果的样本量推导出的估计(例如,如果真实比例是0.5,但样本量是25,那么你能观察到的最接近真实值的值是12/25或13/25)。一旦试点样本量达到60或更多,这些波动就会稳定下来。图中正式显示了估计精度的相对百分比增益7,其中比例95%置信区间的平均宽度与样本中增加5名受试者时的平均置信区间宽度进行比较。这个相对百分比的精度增益显示了真实比例0.1和0.5。对于连续结果,我们建议以10%作为临界值。对于二元结果,我们使用5%阈值,因为我们以5步而不是10步移动。当样本量为55 ~ 60时,精度图中的相对百分比增益越过5%的阈值,当样本量为100时,相对百分比增益越过3%的阈值。数字8显示随着样本量的增加,真实比例的覆盖率为5的概率。这显示了95%置信区间包含真值的频率。这张图表显示了相当大的波动。一旦样本量为100,这里所考虑的真实比例的覆盖概率几乎没有什么可察觉的改进。

图6
figure6

随样本量增加而估计事件率的分布。真实事件率为0.1的分布(一)真实事件发生率为0.5(b)

图7
figure7

随着试点研究规模的增加,二元结果相对精度增益的分布。这个图比较了置信区间的宽度n+ 5科目及n科目。这是按间隔的宽度缩放的n科目。

图8
figure8

按真比例和试点样本量的平均覆盖概率分布。

结论

我们的模拟数据直观地表明,在小样本容量下估计关键参数时,大样本变化是主要的弱点。小样本容量确实会导致有偏差估计,但偏差与抽样变化相比可以忽略不计。当我们检查相对比例增益精度通过添加更多的受试者的样本,我们的数据表明,共有至少70可能是必要的估算一个正态分布变量的标准差具有良好的精度,在单个组和60到100科目估计事件率似乎是合理的。治疗独立的参数可以通过合并两组来估计,因此在许多情况下,我们推荐的样本量将是总样本量。平均而言,当确定的随机对照试验计划使用初步研究的估计时,计划的研究往往动力不足。然而,如果确定的随机对照试验是为一个持续的结果而规划的,需要90%的能力,那么真正的能力将是80%,至少有76%的保证,前提是估计来自一个至少有20名受试者的试点。在计算计划的随机对照试验样本量时,我们考虑了标准偏差的0.2、0.35和0.5三个现实效应量,以评估调整从试点估计的预期不确定性的影响,正如最近建议的[18].对于所有考虑的效应量,使用小规模试点和应用通胀调整是无效的,因为这将导致更大的样本量(试点加主研究)。此外,我们只考虑了需要90%电量时计划的样本量,并假设我们知道真正的替代方案来检验条件功率。平均而言,使用不精确的估计,但需要高功率,将得到可接受的功率,而以总样本量衡量的“成本”要低得多。因此,在确定的随机对照试验中,使用大型外部先导研究来减少目标功率周围的变化实际上更有效。

使用来自小型试点研究的关键参数估计的含义是,过度和不足的研究都有风险。虽然过度的研究可能看起来不是一个如此严重的问题,但它们可能是一个代价高昂的错误,并可能导致研究被判定为过于庞大。这似乎是一个支持利用内部试点研究的论点,但内部试点要求修复试验的关键设计特征,因此,内部试点后治疗效果测量的任何变化都将导致分析困难。

已发表试验的一个主要的和有充分证据证明的问题是招募不足,招募的受试者往往少于目标受试者。下招聘的一个原因可能是,招聘和意愿等事件率是随机不能准确估计从小飞行员,实际上增加了每组60和100之间试点规模可能给关键招聘更可靠的数据参数。

实际上,在设计外部试点试验时,需要平衡两个相互竞争的问题:最大限度地提高精度(你希望估计的关键参数)和最小化外部试点试验的规模,这将影响资源、时间和成本。因此,在初步研究的精度(关键参数的估计)和规模(受试者的数量)之间存在一种权衡。在设计外部试点试验时,研究人员需要理解,当他们决定进行一个小样本量的外部试点研究时,他们需要权衡估计的精确度和最终研究的总样本量。

缩写

好:

国家健康和保健卓越研究所

NIHR:

国家健康研究所

个随机对照试验:

随机控制试验

SD:

标准偏差

英国:

联合王国。

参考文献

  1. 1.

    NIHR 2012/2013年度报告。[http://www.nihr.ac.uk/publications

  2. 2.

    Vickers AJ:在随机试验报告的样本量计算不足。中国临床流行病学杂志,2003,16(4):427 - 434。10.1016 / s0895 - 4356(03) 00141 - 0。

    文章PubMed谷歌学者

  3. 3.

    Charles P, Giraudeau B, decharres A, Baron G, Ravaud P:随机对照试验中样本量计算的报告:综述。亚博ag出账秒到BMJ。2009年,338:b1732 - 10.1136 / bmj.b1732。

    文章PubMed公共医学中心谷歌学者

  4. 4.

    Clark T, Berger U, Mansmann U:提交给英国研究伦理委员会的随机临床试验原始研究方案的样本量确定:综述。BMJ。2013年,346:f1135 - 10.1136 / bmj.f1135。

    文章PubMed公共医学中心谷歌学者

  5. 5.

    McDonald AM, Knight RC, Campbell MK, Entwistle VA, Grant AM, Cook JA, Elbourne DR, Francis D, Garcia J, Roberts I:是什么影响了随机对照试验的招募?亚博ag出账秒到由两个英国资助机构资助的试验的回顾。试验。2006,7(1):9-10.1186/1745-6215-7-9。

    文章PubMed公共医学中心谷歌学者

  6. 6.

    Sully BG, Julious SA, Nicholl J:对随机、对照、多中心试验招募的再调查:对两家英国资助机构资助的试验的回顾。试验。2013,14(1):166-10.1186/1745-6215-14-166。

    文章PubMed公共医学中心谷歌学者

  7. 7.

    NIHR,可行性和试点研究。[http://www.nets.nihr.ac.uk/glossary

  8. 8.

    Arnold DM, Burns KEA, Adhikari NKJ, Kho ME, Meade MO, Cook DJ:危重病临床研究试点试验的设计和解释。危重症医学,2009,37 (1):S69-S74。

    文章PubMed谷歌学者

  9. 9.

    Thabane L, Ma J, Chu R, Cheng J, Ismaila A, Rios L, Robson R, Thabane M, Giangregorio L, Goldsmith C:试点研究指南:什么,为什么和如何。中国生物医学工程学报。2010,30(1):1-10。

    文章PubMed公共医学中心谷歌学者

  10. 10.

    Lee EC, Whitehead AL, Jacques RM, Julious SA:先导试验的统计解释:是否应该重新考虑显著性阈值?中华医学杂志。2014,14:41-10.1186/1471-2288-14-41。

    文章PubMed公共医学中心谷歌学者

  11. 11.

    基于妨害参数的两阶段样本量重新估计:综述。生物危害学报,2005,15(4):559-574。10.1081 /毕普- 200062852。

    文章PubMed谷歌学者

  12. 12.

    Birkett MA, Day SJ:估计样本量的内部试点研究。中华医学杂志,1994,13(23-24):2455-2463。

    中科院文章PubMed谷歌学者

  13. 13.

    Wittes J, Brittain E:内部试点研究在提高临床试验效率中的作用。中华医学杂志,1999,13(2):65-72。

    中科院文章PubMed谷歌学者

  14. 14.

    优势与非劣势试验的盲样本量再估计:方差估计中的偏差与方差。医药科学,2013,12(3):141-146。10.1002 / pst.1564。

    文章PubMed谷歌学者

  15. 15.

    RH Browne:用于样品大小测定的中试样品。统计医学,1995,14(17):1933-1940。10.1002 / sim.4780141709。

    中科院文章PubMed谷歌学者

  16. 16.

    Julious SA:样本量为每组12人,这是一项初步研究的经验法则。制药学报,2005,4(4):287-291。10.1002 / pst.185。

    文章谷歌学者

  17. 17.

    Julious SA:设计不确定估计变异性的临床试验。制药学报,2004,3(4):261-268。10.1002 / pst.139。

    文章谷歌学者

  18. 18.

    Sim J, Lewis M:临床试验的初步研究的规模应该考虑到精度和效率。中华流行病学杂志。2012,65(3):301-308。10.1016 / j.jclinepi.2011.07.011。

    文章PubMed谷歌学者

  19. 19.

    Kieser M, Wassmer G:关于使用来自一个试点样本的方差的上置信限来确定样本量。中国海洋大学学报(自然科学版),2016,38(8):941-949。10.1002 / bimj.4710380806。

    文章谷歌学者

  20. 20.

    乏味的JM:权力的专制:有没有更好的方法来计算样本量?BMJ。2009年,339:b3985 - 10.1136 / bmj.b3985。

    文章PubMed谷歌学者

  21. 21.

    Sahu SK, Smith TMF:一种样本大小测定与实际应用的贝叶斯方法。《统计Soc Ser A -统计Soc》,2006,19(1):35- 40。10.1111 / j.1467 - 985 x.2006.00408.x。

    文章谷歌学者

  22. 22.

    O’hagan A, Stevens JW, Campbell MJ:临床试验设计的保证。制药学报,2005,4(3):187-201。10.1002 / pst.175。

    文章谷歌学者

  23. 23.

    Brutti P, De Santis F:在临床试验中避免等效范围的稳健贝叶斯样本量测定。刘志强,刘志强。基于神经网络的神经网络模型研究[J] .系统工程理论与实践,2016,35(6):1133 - 1133。10.1016 / j.jspi.2007.05.041。

    文章谷歌学者

  24. 24.

    《基本医学统计》,2003,牛津:布莱克威尔科学,第2期

    谷歌学者

  25. 25.

    《医学统计学:健康科学的教科书》,2007,奇切斯特:威利,4

    谷歌学者

  26. 26.

    Satterthwaite FE:方差分量估计的近似分布。生物计量学Bull. 1946, 2: 110-114。10.2307 / 3002019。

    中科院文章谷歌学者

  27. 27.

    韦尔奇BL:当涉及到几个不同的总体方差时,“学生”问题的泛化。生物测定学。1947,34:28-35。

    中科院PubMed谷歌学者

  28. 28.

    StataCorp:统计软件:发布12。2011年,德克萨斯:大学站

    谷歌学者

  29. 29.

    Team RC: R: A Language and Environment for Statistical Computing. 2013,奥地利维也纳:R Foundation for Statistical Computing

    谷歌学者

  30. 30.

    《行为科学的统计能力分析》,1988年第2期

    谷歌学者

  31. 31.

    对于二项比例的区间估计,近似比“精确”要好。中国统计学家。1998,52(2):119-126。

    谷歌学者

  32. 32.

    Burton A, Altman DG, Royston P, Holder RL:医学统计模拟研究的设计。医学杂志,2006,30(25):4279-4292。

    文章谷歌学者

下载参考

确认

MDT、SJW、AW和NS由谢菲尔德大学资助。医学博士由美国国家卫生研究中心全额资助,作为博士研究奖学金的一部分(DRF-2012-05-182)。AH是由NIHR-Research Design Service和谢菲尔德大学资助的。所表达的观点是作者的观点,不一定是国家卫生服务、国家卫生人力资源、卫生部或其附属或资助机构的观点。

作者感谢三位审稿人的详细评论,这些评论极大地改善了手稿。我们也感谢谢菲尔德大学健康与相关研究学院医学统计小组的成员,他们对该项目进行了建设性的讨论和投入。我们感谢谢菲尔德大学对这项研究的支持。

作者信息

从属关系

作者

相应的作者

给M Dawn Teare的信件。

额外的信息

相互竞争的利益

两位作者宣称他们没有相互竞争的利益。

作者的贡献

NS、MD和AH参与了概念设计,执行了模拟和汇总统计分析,并产生了图形输出。MDT参与了项目的设计,并起草和修改了手稿。AW参与了研究设计并起草了文献综述。SJW参与了研究设计,以及手稿的初稿和修订。所有作者阅读并批准了最终的手稿。

作者为图像提交的原始文件

权利和权限

本文由BioMed Central Ltd授权发表。这是一篇基于知识共享署名许可协议(http://creativecommons.org/licenses/by/2.0),允许在任何媒介上不受限制地使用、分发和复制,但须注明原作的出处。创作共用及公共领域专用豁免书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本条提供的数据,除非另有说明。

再版和权限

关于这篇文章

通过CrossMark验证货币和真实性

引用这篇文章

Teare, m.d., Dimairo, m.d., Shephard, N。et al。从外部试点随机对照试验估计关键设计参数的样本量要求:模拟研究。亚博ag出账秒到试用15,264(2014)。https://doi.org/10.1186/1745-6215-15-264

下载引用

关键字

  • 样本大小
  • 可行性研究
  • 试点研究
  • 二进制的结果
  • 持续的结果,相关的