X 注册生物链会员

扫描二维码关注生物链
如何让生物医学类研究成果更可信?科学家呼吁科研发表改革
来源:Nature自然科研   发布者:左丽媛   日期:2017-03-22  

Jeffrey S. Mogil和Malcolm R. Macleod提议了一种将基础研究的灵活性和临床试验的严谨性结合起来的新型论文。

对于已发表的生物医学研究结果的可靠性,人们的担忧有增无减。从希望在可靠的基础之上构建自己的临床前研究的临床医生和准药物开发人员,到被迫投入更多时间和资源,以满足有关严谨性、论文报告和统计的最新要求的基础科学家,新疗法探索者们无一例外,都对这种“可重复性危机”感到沮丧。收紧所有实验的严谨性要求会减少假阳性发现的数量,但也会带来实验效率和创造性下降的风险。

大胆的假设是有必要的。我们建议,在信任已发表论文结论的需求与基础科学家探索创新的自由之间做出折衷。我们提议的是一种针对有关疾病治疗和预防方法的动物研究的新型论文,这种论文应对研究者的核心假设进行独立且统计严谨的验证。我们将这种大型验证性研究称为临床前试验(preclinical trial)。它将比典型的实验室临床前测试更加正规和严谨,并采取许多临床试验的做法。

我们认为,这项要求将促使研究人员对自己的研究持更加谨慎的态度,不再卖力说服审稿人和编辑把自己的论文发表在知名期刊上,而是反问自己的假设是否能够经得起大型验证性动物研究的检测。这种做法将会赋予早期的假设形成实验更大的灵活性,这些实验将会与验证性研究发表在同一篇论文中。如果这种观点被普遍接受,那么介绍新治疗方法的高影响力论文将会变少,但这类论文结论的可信度将会增强。

这种验证性研究将具有三个特征。第一,它将坚持最高的设计(如盲法和随机试验)、分析和报告标准。第二,它将采用更高的统计显著性阈值,如使用P<0.01代替目前的P<0.05。第三,它将由独立的实验室或联合体开展。这超出了目前的各种规范和资助机构所提出的要求,但只应用于最后阶段的关键验证性实验

与临床研究不同,大部分临床前研究论文都会包括大量实验,为同一个假设积累支持。这种论文一般包含了十几项独立的体外实验和动物实验,每一个都必须达到统计显著性要求。我们认为,只要存在一个能证实假设的完善的最终研究,一些较早期的实验就不必遵守同样严格的统计标准。

这意味着科学家论文写作方式的重大转变,但我们认为,这种转变将会有益于生物医学研究的诚信度。

终极验证

对于具有明显临床意义的假设,合理的验证性实验几乎都需要进行动物研究,也即在小鼠或大鼠身上评估某种治疗方法或遗传突变的影响。这些研究的执行通常都是有问题的。以行为测试为例(比如衡量疼痛或瘫痪的程度),大部分分子生物学实验室都不具备这种执行能力。较大的变化率或可疑的基准线测量也会让结果存疑。此外,当下的大部分研究的统计功效都偏低,而偏差风险较高。包括《自然》在内的许多期刊一直在提倡ARRIVE计划等科研指导原则。目前,人们仍在研究这些发表政策的影响,但尚未得到明确的结果。

根据我们的提议,验证性研究的试验方案应提前指定,明确说明假设、关键的结果测量指标和统计分析计划。研究中的动物数量必须足够多,这样,阳性的统计结果才意味着假设很有可能为真(参见“预测值的计算”)。关键实验的样本量还需增加,我们估计要增加6倍左右。但整体而言,这样做很有可能在日后节省大量动物和资金,在薄弱论文上继续浪费资源的人将会减少,还能加快新药上市。

预测值的计算

一个假设为真的可能性有多大?最适合回答这一问题的统计量是阳性预测值(PPV),而不是人们一般认为的P值。PPV反映了一个阳性结果确为阳性的可能性。它由P值(在收集结果之后计算)和统计功效(应在研究开始之前计算)决定。统计功效描述的是一项研究检测到一些先决(且假定有意义的)效应值(effect size)的可能性,这些效应值包括治疗组和对照组之间的差异。

在本例中,假设有250个潜在疗法接受了临床前测试。之后,结果显示50个疗法有效(以绿色表示),200个无效(以红色表示)。PPV随真正有效的疗法所占比例的变化而变化。

付诸实践

谁来开展这些假设检验实验,他们又凭什么这么做呢?临床前试验应由在相关动物模型方面具有过硬专业背景的研究人员进行。我们相信,一些研究人员将会决定专门从事为同僚开展验证性实验的工作。另一个选择是建立专门的动物测试设施,类似于基因组学和生物信息学的核心设施。这些设施提供了优质的服务,已经成为了科研界的重要组成部分。此外,也可以建立联合体来开展此类研究,并开发和深化研究中所使用的方法。

专业化的验证性实验室将会提高动物研究的质量,使开展初步实验的实验室能够专注于自身的专业核心领域。政府资助机构和业界合作伙伴已经在临床试验上花费了数十亿美元,但结果令人失望,我们认为,这些机构会愿意将资源转投在支持这种经过改进的试验体系上,或许是通过专项拨款的方式。验证性实验室对阳性结果的依赖性低于原创研究者,这种情况应该能增加无效和阴性结果的发表。这些实验室可获得的报酬包括已发表论文的作者资格或服务费,或者二者兼而有之。他们也会更有动力打造质量和竞争力方面的声誉,而不是专注于取得某个特定发现。

对于具有直接临床意义的发现(即有望进入人体试验阶段的潜在疗法),我们建议在验证性阶段再额外进行“可推广性研究”(见“验证后发表”),以评估疗法潜在的应用范围,并提高人们对于该疗法适用于各种情况的信心。一种做法是在设置了生物内在多样性的情况下,在多个地点进行重复验证性研究。通过增加验证假设的情景(动物年龄、品种、性别、健康状况、共患性、具体采用的试验方法、给药,以及评估结果的时间等),这类研究将更有可能提供具有临床意义的信息,并经受住重复试验的考验。

验证后发表

根据我们的提议,只有包括了遵照最佳临床研究实践开展的“临床前试验”的论文才会被期刊接受。对于今后有望进行人体试验的疗法,我们建议开展以下全部三种研究。

开展可推广性研究可能并不是单个实验室力所能及的,它需要多中心联合体的共同努力,但支持可推广性研究的原理和工具都已经到位。Multi-PART联合体已经建立了一个基于Web的系统,支持在数量不限的中心设计、执行和评估研究。它的研究计划包括对旨在增加受中风影响的脑区供氧的干预手段进行多中心检验。通过与国际抗癫痫联盟合作,它还计划测试可能的抗癫痫新药。

享受科研

有了严谨的假设检验体系,其它形式手续就变得不那么必要了。探索阶段的任何实验都可以在没有正式的统计假设检验的情况下开展,没有必须达到的P值阈值,在结果部分,可以仅给出一个核心预估值(比如平均数或中位数)和某个数据分布指标,在理想的情况下,最好能给出单个数据点。这与美国统计协会去年提出的建议相符,即单独的P值并不是证明假设的优质标准。

样本大小应适当,一方面要足够大,使研究者能对效果的方向产生信心,另一方面也要足够小,以节约时间和资金。完整报告和注意混淆变量仍然十分重要;研究人员不能从结果中排除一些动物而不报告这一点,也应避免可能会带来偏差或批次效应的方法。

这样降低标准会增加假阳性发现的数量吗?我们认为不会。因为研究人员将被要求“要么行动,要么闭嘴”,接受临床前试验的检验,因此,他们会更加全面谨慎地对待自己的探索性工作,有动力开展早期就有可能证明自己的假设为假的实验。反过来说,与当下常常发生的情况不同,研究者也不会觉得有义务开展自认为没有意义的实验。更重要的是,他们不需要一直增加样本大小,直到每一个P值都降至0.05以下。这种转变带来的效率提升应将远远超过开展临床前试验所需的资源。

重要的是,我们的提议能将从事探索性科学的乐趣保留下来。在这种新体系下,劣质科研(比如被不实发现迷惑,或者对实验设计过于随意)的成本将由初始研究人员承担。如果他们在实验中走捷径、挑选数据或不使用盲法,他们的假设通过临床前试验中的严格测试的可能性就会降低。

我们预计,数据造假也会减少,因为不再要求每一个实验都达到武断的统计阈值标准。评审将重点关注验证性研究中的统计数据。对于研究生和博士后而言,梦寐以求的论文发表将不再那么依赖早期实验中的特定结果,而更依赖于整体假设的可靠性。最终,激励体系将逐渐转为奖励结论更可信更严谨的论文:研究人员将为“马拉松”而非“短跑冲刺”获得更多的奖励。

这样的体系会放缓发表的速度,但不会放慢发现的脚步。科研的先后顺序可以按照原创研究人员与验证性研究人员达成(也就是登记)实验计划的日期确定。更进一步而言,如果能让发表的研究更加可靠,提升公众对科研的信心,那么发表流程放缓似乎也是可以接受的。我们相信,评议者和终身教职评定委员会将会找到合适的方法来认可和奖励包含验证性研究的论文。

下一步?

这个提议没法解决转化医学领域目前存在的所有问题,包括从不适当的动物模型中得出错误的结论、未受记录的变量(如动物的微生物组或实验人员的性别)以及发表偏见。但我们仍然认为它值得一试。

期望科研界万众一心、一步到位地实现这种改变是不切实际的。不过,以下四件事能促成这种转变:期刊应该为包含验证性实验和探索性研究的论文留出空间(最终还可以优先发表这类论文,甚至将验证性实验设为必要条件)。终身职位和教师评审委员会也应寻找奖励此类研究的方法。资助机构可以制定试行方案,临床试验的执行者也应对人体研究背后的假设提出更高的可信度要求。有了这些激励机制,科学家们将会带头引领这场改变。

相关新闻