发布网友 发布时间:2024-10-23 22:32
共1个回答
热心网友 时间:2024-10-23 23:39
为了确保GWAS分析的可靠性,质量控制中需剔除杂合度异常样本。异常杂合度通常指示样本污染或近亲交配。PLINK的het选项能通过距离估计计算F统计量。F统计量由亲缘系数/近交系数/血缘系数推导出。估计杂合度公式为F = (O-E) / (N-E),其中O为观测纯合基因型数,E为期望值,N为总数。计算前推荐LD-pruning以避免SNP间的关联影响。合理杂合度范围通常在平均值正负3个标准差内,数据来源可靠时可放宽至4个标准差或更多。PLINK的ibc选项提供三种基于不同方法的F系数估计。使用-het选项进行杂合度估计,通过绘制分布图并使用Python剔除异常样本。利用--remove选项从后续分析中剔除异常样本。参考文献包括Clarke等人的基本遗传案例控制研究,以及Am J Hum Genet和cog-genomics.org/plink的分析指南。