中文

English

新葡萄8883官网AMG全基因组关联分析数据质控探讨

发布时间:2025-07-24   信息来源:尊龙凯时官方编辑

在之前的分享中,我们讨论了GWAS分析中所需的数据格式以及不同格式之间的转换。现在,如果我们已经准备好了表型数据和基因数据,是否迫不及待想要进行关联分析呢?然而,为了确保关联分析结果的准确性,必须先对数据进行质控,去除不合格的样本和变异数据。

新葡萄8883官网AMG全基因组关联分析数据质控探讨

1. SNP及个体缺失过滤

人工收集的数据可能存在位点基因型和个体基因数据缺失(直接去掉表型缺失的样本),这些缺失数据会影响关联分析的准确性。因此,建议对缺失率进行控制。首先,使用较宽松的阈值(如0.2;20%)进行SNP和个体过滤,以去除缺失程度较高的样本;接着,使用更严格的标准(如0.02;2%)进行后续过滤。

# SNP缺失过滤plink --noweb --bfile ${project}rawmark --geno 0.2 --allow-no-sex --make-bed --out ${project}filtermds1# 个体缺失过滤plink --noweb --bfile ${project}filtermds1 --mind 0.2 --allow-no-sex --make-bed --out ${project}filtermds2

2. 性别和亲缘关系检测(可选)

性别检测通过X染色体近交系(纯合子性)进行估计,一般情况下,女性受试者的F值应<0.2,男性受试者的F值应>0.8,未满足要求的样本将被标记为“PROBLEM”。

# 性别检测plink --noweb --bfile ${project}rawmark --check-sex# 提取性别异常个体grep "PROBLEM" plinksexcheck | awk '{print $1, $2}' > sex_removelist.txt# 删除性别异常个体(不建议删除,除非确认样本数据存在问题)plink --noweb --bfile ${project}rawmark --remove sex_removelist.txt --make-bed --out ${project}rawmark2

3. 哈迪-温伯格平衡过滤

哈迪-温伯格法则是群体遗传学中的基本原理,表明在没有突变、迁移和选择的理想化群体中,基因频率和基因型频率将保持不变。通过过滤不符合哈迪-温伯格平衡的SNP,可提高数据质量。

# 哈迪-温伯格平衡过滤plink --noweb --bfile ${project}rawmark --hwe 1e-10 --hwe-all --make-bed --out ${project}filterhaw

4. 最小等位基因频率过滤

最小等位基因频率(MAF)代表在人群中不常见等位基因的发生频率。当MAF非常低(如低于0.02),表明大多数位点的基因型是相同的,信息贡献甚少,甚至可能增加假阳性。因此,应根据MAF进行过滤。

# 最小等位基因频率过滤(这里MAF阈值设为0.05)plink --noweb --bfile ${project}rawmark --maf 0.05 --allow-no-sex --make-bed --out ${project}filtermaf

5. 群体分层

群体分层是导致差异的常见来源,指case/control组样本来自不同祖先群体,其分型结果可能存在差异。不同群体的SNP频率不同,这会在关联分析时引起假阳性。因此,在进行关联分析之前,需要对群体分层进行校正。

# 主成分分析plink --noweb --bfile ${project}rawmark --pca 10 --out pca# 提取离群样本并生成图形展示,写入pca_removelist.txt文件# 删除离群个体(可选)plink --noweb --bfile ${project}rawmark --remove pca_removelist.txt --make-bed --out ${project}filterpc

6. 杂合性过滤

杂合性是指个体在某一位点上含有不同的等位基因。作为群体遗传多态性的量度,杂合度是样本的基本属性之一。对样本的杂合性进行过滤,有助于提升分析的精度。

# 连锁过滤,得到不连锁的SNPplink --noweb --bfile ${project}rawmark --indep-pairwise 50 50 0.2 --out indepSNP# 提取不连锁的SNP进行杂合性分析plink --noweb --bfile ${project}rawmark --extract indepSNP.prune.in --het --out hetSNP# 提取杂合度较高的个体sed 's/^\s\+//' hetSNP.het | sed 's/\s\+/\t/g' | awk -v f=0.35 'NR==1 {if(($5-$3)/$5 > f) {print $1, $2}}' > hetSNP_removelist.txt# 删除杂合度高的个体(可选)plink --noweb --bfile ${project}rawmark --remove hetSNP_removelist.txt --make-bed --out ${project}filterhet

以上内容是本期分享的全部,下一期将重点介绍新葡萄8883官网AMG在GWAS关联分析中的应用与实践,敬请期待!