跳到主要内容

大心房方法学的根本缺陷

摘要

大心房的基本方法缺陷是故意减少实验控制,以最大限度地招募和受试者的依从性。因此,典型的巨心房招募病理和预后不一致的受试者,方案通常不能排除重要的混杂因素。因此,大多数巨型医院不检验科学假设,也不提供关于个别患者的信息。大心房的正确功能是精确测量治疗干预的效果大小。只有在不显著影响实验控制的情况下实现简化,才能设计出有效的巨型心房。巨型心房试验只能在漫长的治疗发展过程结束时进行,并且必须始终在相关科学和临床信息的背景下进行设计和解释。

简介

大型试验是非常大的随机对照试验(rct)——通常招募数千名受试者,通常是多亚博ag出账秒到中心的——其方法特征是招募标准高度包容,方案最大限度地简化,终点明确(如死亡率)。“以证据为基础的医学运动”已经提出,将大医院作为证据的标准参考来源,优于任何其他衡量医疗干预有效性或效应量的方法。

这种将大国夸大到优越地位的做法是错误的。我探讨了这样一个明显荒谬的想法是如何获得如此广泛的货币,并解释了大心房方法学的一些基本缺陷,这意味着在大多数情况下,大心房非常容易误导。正确地理解,大型的、简化的、随机的试验结果是可以理解的只有在大量其他信息的背景下,特别是从更加科学严谨的研究方法中获得的信息。

为什么人们认为大城市更有优势

超级霸主的优越感是如何产生的?可能有三个主要原因——历史、管理和方法。

1.历史

当20世纪60年代中期出现大规模随机对照试验亚博ag出账秒到时,它被视为一种方法,旨在结束长期的药物开发过程。1].例如,三环和单胺氧化酶抑制剂抗抑郁药是在20世纪50年代合成的,它们的毒性、剂量、临床特性和副作用几乎完全是通过临床观察、动物研究、“开放”、无对照研究和小型、高度对照试验来阐明的[亚博ag出账秒到2].在全球临床应用了大约10年之后(按照当时的标准),安慰剂对照,比较,由英国医学研究委员会(MRC)在1965年执行的随机试验-即使在那时,单胺氧化酶抑制剂的剂量也太低了。所以,关于抗抑郁药,我们已经了解了很多之前计划了一项大型随机对照试验。人们已经知道抗抑郁药是有效的,而试验的作用仅仅是估计效果大小的大小。

如今,由于对巨型心脏的普遍高估,药物开发的进程几乎完全颠倒了过来。在积累了大量的科学信息和临床经验之后,有时有人认为,甚至不应该让患者获得药物,直到巨型建筑已经完工。例如,1999年,英国国家临床优化研究所(NICE)推迟了抗流感药物瑞乐沙(Relenza)的引进®(扎那米韦),借口是随机对照试验没有足够的证据证明临床使用是合理的,从而阻止了那种详细、实用的临床评估,而这种评估实际上是严格试验设计的先决条件。

人们没有充分认识到,只有对药物有了大量的了解,才能设计出合适的巨心房。这种先验知识是必须的,以便能够选择正确的受试者,选择最佳剂量,并创建一个控制扭曲变量的协议。如果在没有这些知识的情况下执行巨房手术,那么它将简化应该控制的地方:例如,将招募实际上不适合治疗的患者,他们将被给予不正确剂量的试验药物,服用干扰药物的患者将不会被排除在外,等等。因此,这种过早的巨心房通常会系统性地低估一种新药的效应大小。

2.管理方面——研究人员的变动

在大型研究被如此广泛而深刻地误解之前,有必要过分高估研究的统计方面。恰当地说,统计学是达到科学理解目的的一种手段。3.]——在研究医疗干预措施时,科学理解的性质可被称为"临床科学"——这是一项要求具备疾病知识和病人经验的事业[1].具有这种资格的人将为在药物和其他技术的有效性研究中发挥领导作用奠定基础。

相反,近几十年来,生物统计学家和流行病学家在医学研究的组织、资助和审查中上升到首要地位——换句话说,这些人对疾病和患者与任何特定医疗的关系的知识,往好里说是二手的,往坏里说是不存在的。

当然,数字运算者的这种霸权的原因与他们拥有的科学优势无关,甚至也与他们的成就记录无关;但与管理主义的需要有很大关系——这个话题超出了本文的范围[4].

3.方法学:用统计精度掩盖临床不适用性

在大型医院扩张的背后,也有方法论上的原因。随着治疗的进步,临床医生开始期望在已经有效的干预措施上进行增量的、定量的改进,而不是质的“突破”和全新治疗方法的开发。这导致了对治疗效果测量精度的要求不断提高,因为有人担心,新疗法的适度效益可能会被随机误差所掩盖。此外,当预期的效应值相对较小时,将主要治疗效果从混杂因素中分离出来变得越来越困难。当然,在混杂因素(如年龄、性别、疾病严重程度)已知的情况下,可以通过选择性招募来控制这些因素。但选择性招募往往会使试验规模缩小。

巨型医院似乎提供了处理这些问题的能力。与其通过严格选择受试者和严格的方案来控制混杂因素,处理混杂因素的方法是在对照组之间随机分配受试者,并使用足够多的受试者,以便任何混杂因素(包括未知因素)都可以相互平衡[5].大量的受试者也提供了前所未有的鉴别能力,以获得统计上精确的治疗结果测量[6].即使是适度的、逐步增加的治疗进展,原则上也可以通过足够大的研究来解决。

从严格的统计学意义上讲,分辨能力显然只受限于试验对象的数量,而在多个研究中心使用简单的方案就可以招募到大量的患者[6].大心房的分析需要比较每个分配组的平均结果(即“治疗意愿”),而不是接受的治疗。这是必须的,因为绝对依赖于随机化,而不是严格的协议来处理混淆[5].因此,为了追求精确,随机试验变得越来越大,越来越简单。最近,在一种称为元分析的过程中,有一种时尚是将这类试验的数据汇集起来,以进一步扩大受试者的数量[7] -这可以被认为是大心房概念的延伸,它的所有问题都成倍增加[8].例如,与RCT信息相关的荟萃分析结果本身存在差异,并且可能与药理学和生理学的科学和临床知识不同[9

问题是协议的“简化”被翻译成科学术语故意降低实验控制水平.这是出于良好的意图-为了增加招聘,一致性和合规性[5],这对于从随机受试者中创建庞大的数据库至关重要。然而,正如我在其他地方所指出的,通过减少控制来扩大规模的战略是一个方法论上的错误。10].减少实验控制不可避免地意味着减少试验中的信息内容。在荒谬的极端情况下,最终的巨型心房会招募一个未经选择的人群,并将受试者随机分配到一个方案中,然而,这个方案不一定与受试者从那时起实际发生的事情有任何关系。只要结果是根据受试者最初随机化的方案进行分析的,那么这在统计学上是可以接受的。在大型试验中故意降低实验严谨性的错误的表面基础似乎是一种想象的,但不真实的,在严谨性和规模之间的权衡——也许是由于观察到小型、严格的试验和大型、简单的试验可能有相似的“置信区间”统计数据[10].然而,这些方法是不相等的:在科学中,方案定义了实验,不同的方案意味着不同的研究,在不同的人群中检查不同的问题[5].

巨心房方法论背后的假设

大型试验可定义为以招募为主要方法学要求的随机对照试验。普遍的假设是,随着巨型心房的出现,临床医生现在有了一种仪器,可以提供临床适用和统计精确的治疗效果的估计和比较。大型试验的广泛采用是基于这样一种假设,即它们的结果可以在试验的直接环境之外进行推断,并用于确定或至少在很大程度上影响临床实践。

然而,从大心房的平均结果推广到个别患者的问题一直没有得到满意的解决。许多临床医生都意识到了一些严重的问题[1112然而,这些问题在很大程度上被倡导以试验为主导的实践方法的人所忽视。

根据几个断言,从大心房到实践的外推是合理的。有人认为(如果没有争论的话),高水平的实验严密性在随机对照试验中并不重要,因为大量受试者的随机化(以某种未定义的方式)补偿了较低水平的控制。这是一个基于统计混淆的错误论点:大型、控制不良的试验可能与小型、控制良好的试验具有相似的置信区间(大型散点除以大数的平方根可能在数值上等于较小的散点除以亚博ag出账秒到较小数的平方根)——但这并不意味着研究是等效的[5].规模更小、控制更好的研究更优越。不同的协议意味着不同的实验,低控制意味着更少的信息。毕竟,如果糟糕的控制比良好的控制更好,科学家就永远不需要做实验了——控制是实验的本质。

此外,人们通常认为,在一个大心房组的数千名患者中测量的平均效果也可以衡量干预措施在单个患者中产生相同效果的概率。换句话说,假设大心房结果及其置信区间可以作为试验结果可能适用于的个体患者中给定结果的概率的估计。

事实并非如此。即使当大心房人群是临床人群的代表(这是非常罕见的),当试验人群是异质的,平均结果不一定反映个体的概率。举一个虚构的例子:假设一种名为“Fluzap”的药物可以将疾病缩短5天如果那是流行性感冒如果病人真的服用了这种药物。然后假设试验人群中也包含有这样的患者患有流感(因为不严格的招募标准)以及(尽管被随机分配到“Fluzap”组)患有流感的患者服用药物——假设在这样的受试者中,药物“Fluzap”没有效果。然后平均根据意向治疗分析,“Fluzap”的效应值介于0到5之间,例如“Fluzap”将流感的发作缩短了大约一天。这一试验结果在统计学上可能是可以接受的,但并不适用于任何个体患者。因此,这样一个随机试验作为治疗指南的价值多少值得怀疑,通过专业媒体和非专业媒体大规模传播这样一个摘要统计数据似乎是出于政治动机,而不是科学动机。

置信区间——置信把戏?

与大型试验方法相关的科学严谨性的下降被用于表达大型试验结果的标准统计显示所掩盖。大心房医院通常引用所谓的“置信区间”(CI)作为他们对治疗结果的总结估计;或者引用每个方案的平均结果,并对平均值之间任何测量差异的“统计显著性”进行测量。

但是,尽管置信区间已被推广为显著性检验的改进[13],当用于临床目的时,它存在严重的问题,并且不是确定试验实际应用的有用汇总统计。置信区间描述了“真”的参数。的意思是一个治疗性试验可以被认为是虚假的-在引用的概率程度下,并给定某些严格的(很少满足的)统计假设[14].

临床医生需要在个别病人试验中,尤指结果变化的性质和程度置信区间并不能告诉临床医生他或她需要知道什么,以决定在临床实践中实施巨房的结果有多大用处。来自大样本的平均结果和置信区间掩盖了个体受试者结果之间的巨大差异——例如,当个体之间存在巨大差异时,药物的平均效应量是不具信息量的。

当用于总结大型数据集时,置信区间统计量不能提供容易理解的患者结果的散点指示,因为它包括患者数量的平方根作为分母(置信区间等于标准偏差除以的平方根n) [15].这造成了一种误导性的印象,即大型研究更好,因为仅仅增加患者数量就会增加分数的除数,当试验规模达到“巨型”时,这将有力地降低置信区间的大小。因此,随着研究的扩大,置信区间通常会减小,尽管结果的散点(如标准差)可能保持不变,或者更有可能由于简化的方案和较差的控制而增加。

大型试验得出的异常狭窄的“置信区间”(荟萃分析得出的置信区间更窄)经常被误解为医生可以非常“自信”地认为试验对治疗效果的估计是有效和准确的。从狭义的统计学和广义的临床意义上来说,这都是不正确的。事实上,置信区间本身并不能说明关于试验中单个受试者的估计的准确性。此外,置信区间的狭窄性与所提出的因果关系的现实没有任何必要的关系,也没有给出试验结果适用于另一个人群的任何指示。的确,由于置信区间无法指导被比较人群的等效性,试验结果之间的差异可能是由于偏差而不是因果关系。[16].

因此,狭窄的、不重叠的置信区间在统计意义上对不同方案有明显区别,但可能与受试者之间的定性差异有关,例如少数患者可能受到有利于大多数患者的治疗方法的积极损害[17].

临床解释所需的散射测量

如果随机试验以患者结果的分散而不是平均的方式显示结果,那么对临床医生来说会更有用。这可能近似于试验结果的散点图显示,每个患者的结果表示为一个点。这样的显示可以估计实验对照和统计精度,因为对照不良的研究结果非常分散,备选方案之间有大量重叠。事实上,这样的展示几乎从未在巨型动物身上看到过,这表明它们将高度揭示这类研究通常采用的科学草率方法。

如果这种所有结果的图形显示即使对于现代计算机图形来说也过于笨拙,那么给出带有散射度量的平均结果的合理数值近似值也是有用的-例如,平均值和标准偏差,或具有四分位数范围的中位数[14].这些类型的表现使临床医生一眼就能看到,或至少能迅速计算出,在试验中给定干预后的结果范围,因此(在其他条件相同的情况下,当适用适当的严谨性和代表性标准时)在单个患者中给定结果的概率。

虽然置信区间统计数据通常会给人一种误导性的清晰印象,即被比较的两种干预措施的平均值之间存在任何差异,但平均值和标准差揭示了结果的重叠程度。当置信区间与区间尺度有关时,确实可以使用置信区间来生成近似的标准差统计量。这是基于95% CI(大致)是高于和低于平均值的两个“均值标准误差”(SEM)值[15].SEM是标准差除以的平方根n.因此,如果均值与置信极限之间的差值减半,则得到SEM,如果SEM乘以的平方根n,这将产生近似的标准偏差。上述计算可能是一项有价值的练习,因为人们经常会惊讶地发现,隐藏在一个严密的置信区间内的结果非常分散。然而,大多数巨型心房医院使用比例指标(如死亡率百分比或5年生存率),这些指标不能通过上述方法或任何其他方便的方法转换为标准差。

因此,置信区间与有关结果的置信度之间没有容易理解的关系——这是临床医生感兴趣的变量。所需要的不是置信区间,而是散点的显示或数值测量,它可以帮助医生决定平均结果之间的“统计显著性”差异的临床重要性。

错误的研究方法层次导致了对随机对照试验不加批判的态度

人们普遍认为随机对照试验是临床研究的“黄金标准”(一个陈腐的短语)。人们常说,随机试验是“最好的”证据,其次是队列研究、病例对照研究、调查、病例系列,最后是单个病例研究(引用自Olkin [7])。这种方法的等级制度似乎已经达到了不容置疑的教条的地位。换句话说,我们相信随机对照试验是本质上优于其他形式的流行病学或科学研究,因此提供比替代方法更有效的结果。

对于任何有科学背景的人来说,这种等级的概念方法简直是无稽之谈,相信这种等级制度是科学无知的确凿证据。一项科学的有效性不是由它的方法决定的——好像基因测序“比”电子显微镜!例如,与等级制教条相反,个体案例研究在本质上并不不如群体研究——它们只是用途不同而已[18].伟大的生理学家克劳德·伯纳德多年前就指出,群体研究中的平均法是一种可能具有误导性的方法,必须在每个具体情况下证明这种方法是正确的。19].当个案研究作为对已有的明确而详细的假设模型的定性检验来进行时,它们体现了科学严谨的最高标准——每个个案都是对假设的独立检验[20.21].人类个案研究经常发表在顶级科学期刊上,例如自然而且科学

有效性不是由方法或技术的应用决定的,也不是由研究的规模决定的,甚至也不是由研究的难度和费用决定的,而只是由一项给定的研究能够测试一个研究问题的严格程度(即实验控制的水平)决定的。由于大型试验故意降低实验控制水平,以最大限度地招募患者,这意味着巨型心房的结果总是需要非常仔细的解释。

NNT -不一定是真的

刚才提到的假设体现在我们珍视的循证医学工具中,即根据“需要治疗的数量”(NNT)来比较两种干预措施[22].NNT表达了两个对立试验方案的结果之间的差异,即为了防止一个不良事件,有多少患者必须接受治疗多长时间。例如,在高血压治疗中比较β -受体阻滞剂和安慰剂,可能会得出13名患者接受5年治疗以预防一次中风的NNT。

然而,这一信息的简单明了取决于临床目标人群具有与随机试验人群相同的风险-收益概况。当试验人群和目标人群存在差异且试验人群不能代表目标人群时,NNT将是对正在考虑治疗的实际患者的效应量的不准确估计。例如,老年人可能更容易受到药物的不良影响,对其治疗效果的反应也更弱,以至于对年轻人平均有益的干预可能对老年人有害。

最重要的是,在大心房人群中的病人总是预测异质性,因为该方法使用了故意简化的方案,旨在优化招募,而不是控制-荟萃分析甚至更加异质性[3.8].在表现出整体效益的大心房中,很可能一些患者的结果会通过治疗得到改善,而另一些患者则会变得更糟,而另一些则不会受到影响。这意味着即使是一个具有代表性的大心房(这样的试验非常罕见)也不能提供分配相同方案的个体患者将发生什么情况的风险估计。当然,在不具代表性的人群上进行试验可能具有积极的误导性。因此,巨心房产生的NNT本身并不能为临床管理提供指导。NNT不一定是真的![22].

结论

像其他类型的流行病学研究一样,巨型心房研究应被认为是研究的主要方法精确的测量而不是产生或检验假设的科学方法10].应该尝试精确测量药物等医疗干预措施的效果大小只有当人们对药物及其临床作用了解得很多的时候。在没有足够的科学和临床背景知识的情况下进行大心房试验时,他们将主要测量人工制品。除非-例如-在病理和预后相同的人群中进行试验,并使用良好控制的管理方案,结果的表面精度是虚假的而不是真实的。

在某些领域,巨型医院已成为无懈可击的“黄金标准”。这种情况已经变成了自我延续,因为大型审判的结果实际上已经无法检验。由于巨型心房并不检验假设,因为它们只是测量一个效应的大小,所以巨型心房的结果本身并不是一个假设,不能用其他方法来检验。比如说,一种抗高血压药物的大型试验,测量了该药物在试验环境下的比较效果。假设没有计算错误,这个巨型心房的结果既不正确也不错误:它只是一个测量。

人们经常谈论巨心房,好像他们证明或推翻了药物“起作用”的假设。这远非决定一种疗法有效性的最终定论,这是一个巨大心房本质上无法回答的问题。但是,一旦错误地假设统计测量可以检验假设,这个错误就变得不可纠正,因为巨心房的统计精度水平高于其他方法所能达到的水平。

在这样一个复杂错误的环境中,统计考虑完全压倒科学知识和临床理解,我们最终会疯狂地将统计学家和流行病学家视为医疗决策的最终仲裁者,这真的不应该是一个令人惊讶的来源。医疗保健变得仅仅是管理人员提供系统来“实施”那些精通数字的技术官僚告诉他们的有“最佳证据”支持的事情。4].巨型医院的方法上的缺陷使它们非常适合为似乎就在眼前的连接点医学世界提供智力基础。

参考文献

  1. Charlton BG:新千年临床研究方法。中华临床医学杂志,1999,5:251-263。10.1046 / j.1365-2753.1999.00182.x。

    文章中科院PubMed谷歌学者

  2. 希利D:抗抑郁药时代。马萨诸塞州剑桥:哈佛大学出版社。1998

    谷歌学者

  3. Charlton BG:统计渎职。中华医学杂志,1996,30(3):344 - 344。

    中科院谷歌学者

  4. Charlton BG:科学知识的新管理:具有深远影响的方向变化。在NICE, CHI和NHS改革:促进卓越还是强制控制?编辑:迈尔斯A,汉普顿JR,赫维茨B.伦敦:埃斯库雷皮厄斯医学出版社。2000年,13-32。

    谷歌学者

  5. Charlton BG:大型试验:方法学问题和临床意义。中华医学杂志,2000,29:96-100。

    谷歌学者

  6. Yusuf S, Collins R, Peto R:为什么我们需要一些大型,简单的随机试验?中华医学杂志,1984,3:489 - 497。

    文章中科院谷歌学者

  7. 元分析:协调独立研究的结果。中华医学杂志,1995,14:457-472。

    文章中科院谷歌学者

  8. Charlton BG:元分析的使用和滥用。环境科学学报,1996,13:397-401。

    文章中科院PubMed谷歌学者

  9. JIS:哪些抗高血压药物被证明是有益的?它们的好处是什么?对高血压治疗试验的批判。心血管药物杂志。14:357-366。10.1023 /: 1007851913672。

  10. Charlton BG:巨型医院是基于一个方法上的错误。中华实用医学杂志,1996,46:429-431。

    中科院谷歌学者

  11. Julian D:考验和磨难。中华心血管病杂志,1994,28:598-603。

    文章中科院PubMed谷歌学者

  12. Hampton JR:循证医学,实践变化和临床自由。中华临床医学杂志,1997,3:123-131。10.1046 / j.1365-2753.1997.00094.x。

    文章中科院PubMed谷歌学者

  13. 加德纳MJ:有信心的统计:置信区间和统计指南。伦敦:英国医学协会。1989

    谷歌学者

  14. 布拉德福德·希尔AB,希尔ID:布拉德福德·希尔的医学统计学原理。伦敦:爱德华·阿诺德。1991

    谷歌学者

  15. Kirkwood BR:医学统计学要点。牛津:布莱克威尔,。1988

    谷歌学者

  16. Charlton BG:流行病学的范围和性质。中华流行病学杂志,1996,49:623-626。10.1016 / 0895 - 4356(96) 00038 - 8。

    文章中科院PubMed谷歌学者

  17. Horvitz RI, Singer BH, Makuch, Viscoli CM:一般情况下有益的治疗是否会对某些患者有害?临床问诊与药品监管信息需求冲突研究。中华临床流行病学杂志,1996,49:395-400。10.1016 / 0895 - 4356(95) 00058 - 5。

    文章谷歌学者

  18. Charlton BG, Walston F:临床研究中的个例研究。中华临床医学杂志,1998,4:147-155。10.1046 / j.1365-2753.1998.00011.x。

    文章中科院PubMed谷歌学者

  19. Bernard C:实验医学研究导论。纽约:多佛,1865年;1957

    谷歌学者

  20. 马歇尔·JC,纽康姆·F:神经心理学单例研究的假定问题和纯粹进展。中华临床神经精神杂志,2004,6:65-70。

    文章中科院PubMed谷歌学者

  21. Shallice T:从神经心理学到心理结构。剑桥:剑桥大学出版社。1988

    谷歌学者

  22. Charlton BG:临床研究的未来:从大心房到方法的严谨性和代表性抽样。中华临床医学杂志,1996,2:159-169。

    文章中科院谷歌学者

下载参考

作者信息

作者及隶属关系

作者

相应的作者

对应到布鲁斯·G·查尔顿

权利和权限

转载及权限

关于本文

引用本文

大心房方法学的基本缺陷。试用2, 2(2001)。https://doi.org/10.1186/cvm-2-1-002

下载引用

  • 收到了

  • 修改后的

  • 接受

  • 发表

  • DOIhttps://doi.org/10.1186/cvm-2-1-002

关键字

  • 流行病学
  • 历史
  • megatrial
  • 方法
  • 随机试验
Baidu