下面是丁香园论坛网友关于“病例-对照研究中,是样本量重要还是匹配重要?”的讨论。
网友[wwangfeng]:
在病例-对照研究中,一个问题始终困扰着我,就是对照不好收集。要收集到足够的对照,就必须放宽对照的入选标准。这样做的直接后果就是在一些基本统计量上, 病例与对照有差异。比如性别,或者年龄等。如果要发表档次高一些的文章,就必须有一定的样本量。虽然可以用统计方法来校正,但我始终有一个困惑,这样做对吗?
网友[luxiangfeng]:
首先阐明一下本人的观点——样本量较配比更重要。原因如下:
病例对照研究的功效也叫做把握度,可以解释为拒绝无效假设的能力,一般认为一项研究中其应在75%以上。样本量如果过小就会降低把握度,即功效降低,如果达不到标准结果也就不可信。因此样本量是进行病例对照研究设计中必须考虑的问题。当然样本量也不是越大越好,样本量过大常会影响调查工作的质量,增加负担、费用。
病例对照研究中的配比主要出于研究效率的考虑,配比不能直接控制混杂因素,但提高了控制混杂因素的效率,即使得分层分析更有效率。然而,如果配比因素与暴露有联系,配比不仅没有控制混杂作用,还能引入新的混杂。配比因素若与暴露无关,则会导致配比过头,降低研究效率。
wwangfeng 之所以会产生这样的困惑,是因认为必须对某些因素进行配比,仅仅觉得应当如此,即使知道配比可能损伤研究效率(例如有些病例找不到合适的配比对照不得不舍弃掉;配比带来的每个研究对象统计效率的提高有时可能抵不过实施配比设计所需的花费),但是还是怕没有配比会削弱研究的可信度。其实,有偏倚的或严重无效率的设计还谈得上什么可信度呢。
网友[wzh0522] :
1、可比性问题,是流行病学研究中的重要问题。在病例-对照研究中,确实对照的选择往往比病历的选择更复杂、更困难,可以考虑选用同一或多个医疗机构中诊断的其他病历,或社区人口中的非病例或健康人群,或病例的配偶、同胞、亲戚、同学或同事等。这样就可扩大对照的入选范围,控制非研究因素的影响,增强两组的可比性。
2、关于匹配的问题。控制非研究因素的影响,可以在设计时应用限制和匹配的方法。如非研究因素很多,难以一一匹配可在资料分析阶段用分层分析或多因素分析模型处理。而且病例-对照研究的突出的优点就是它可同时研究多个研究因素,这是队列研究所做不到的,所以对一些可能影响的非研究因素不但不一定要匹配掉,而且也可以把它当为研究因素来分析。但是设计时应用限制和匹配的方法或在资料分析阶段用分层分析或多因素分析模型处理,都只是用与控制混杂偏倚。对于病例-对照研究,更应注意选择偏倚中的入院率偏倚。
3、关于样本量的问题。这方面楼上已经阐述很多,我想说的就是样本量应根据你研究设计的方案,考虑研究因素在对照组中的暴露比例、估计该因素引起的相对危险度或暴露的比值比、希望达到的检验显著水平很检验把握度,来选用计算公式估算样本量。当然估算出的样本量也并非是绝对精确的数值。另外也要纠正样本量越大越好的错误看法。
网友[wwangfeng] :
举个例子说吧,我们曾经做的一个研究,是冠心病的。病例有300例多一点,对照有接近400例。病例组中男性占到了65%,而对照组中男性仅40%。由于我们的实验要抽取6ml血,所以很难再补充一些男性的对照。如果要匹配的话,势必要去掉对照中的大部分女性,对照将只剩下200例左右。
最终我们是用统计来校正了性别的差异。给我们指导的哈佛大学的教授也赞成我们的做法。但是投到JACC(J AM COLL CARDIOL)的时候就遇到了麻烦。
网友[天堂鸟108 ]:
1、在研究中,往往可以设多组对照,如既选医院的病人,又选亲属或邻居作为对照。这不仅扩大了对照的来源,而且减少了偏倚,增强代表性,同时还可以看出疾病与被研究因素在不同水平之间的关系或发现另外一些线索。应注意被研究的因素 ,即可疑病因,不能作为配比因素。病例与对照比例,一般为1:1,也可以1:2,但不宜超过1:4。配比的因素不能过多,否则容易发生“配比过度”,使病例组与对照组某些研究因素分布的差异变小或消失。
2、样本量的估计要掌握四种变量,即病例组和对照组各自对被研究的可疑病因的暴露率;两组间的相对危险度(RR)或优势比(OR),容许的I型错误及II型错误水平。掌握了这四种变量则可查阅有关统计学专著、查表或应用相应的计算公式估算样本量。假设暴露率及(OR)无法估计,则可用经验的累积法处理,即先调查病例和对照各100例,然后作统计学处理,如果不能获得相应的结论,则可再增加适当的样本量,按经验如1:1配比总数100对往往可以达到统计学的要求。
网友[wzh0522] :
1、象你所说的问题,在冠心病的研究中,年龄、性别已经不是单纯的一般特征的描述性统计量的问题。它们是研究中的一个重要的混杂因素。这一点在实验设计上就首先应该充分考虑到。虽然也可以用分层分析或多因素分析模型处理,但只能适当控制混杂的影响,最好在设计阶段进行限制和匹配,况且你们只用统计来校正了性别的差异,那年龄的混杂呢?
2、由于不清楚你所做的分子流行病学的指标,也不清楚你的研究方法是什么,所以也不能提供特别的意见,但是相应的预实验对分子流行病学特别重要,不同的研究方法对样本的选择也是不同的——由于分子流行病学受实验条件标本采集的限制,因此在横断面研究中一般用小样本,在分析研究中多为病历对照或巢式病历对照研究,实验性研究多用小样本随机对照。这也是我以前做过的一个分子流行病学研究的体会。
网友[helloer]:
本人认为样本量和匹配不能简单的说那个重要的问题。
首先关于匹配,要根据你的研究目的来定,如果你是深入验证某个因素与某个疾病的关系,那么就应该匹配掉所有的混杂因素,这不叫匹配过头。因为你不用关系其它的因素,只要关心你所需要证实的因素就可以。比如研究冠心病的病因,除了研究因素以外其它的研究因素特别是混杂因素是一定要匹配的。
其次关于样本量,做某项研究就必需有一定的样本量,不能说有困难就牺牲匹配,那样是达不到研究目的的。所以在一个研究之前应该严密的进行设计,要看你的研究对象是否符合你的研究需要,不能盲目的动手就干,往往会出现“出力不讨好”的恶果。
编辑:蓝色幻想
作者: 丁香园集体创作
以下网友留言只代表网友个人观点,不代表网站观点 | |||