CHISQ
CHISQ
2021-11-8|最后更新: 2024-11-9
password
Created by
type
status
date
CHISQ 卡方统计量:用于评估特定 SNP 与表型之间的关联性

CHISQ 的计算

一旦得到 Z 统计量,CHISQ 通常可以用 Z 值的平方来计算:
这个公式基于假设检验的原理。Z 统计量的平方服从卡方分布(在自由度为 1 的情况下)。通过平方 Z 统计量,我们可以获得卡方检验的统计量,即 CHISQ。这样可以评估 SNP 是否显著关联目标性状:
CHISQ 值较大:表明该 SNP 与性状具有显著关联。
CHISQ 值较小:表明该 SNP 与性状之间没有显著关联。
 

1. Z 统计量的计算

Z 统计量反映了某个SNP与性状关联的方向和强度,通常由效应值和标准误差得到:
它代表效应系数估计值 ( )与其标准误差 ( ) 之间的关系,反映 相对于的距离。
Z-score 是待检验的观测值。 是总体的均值。 是总体的标准差。

效应值 系数的计算

计算效应估计值的方法通常使用回归模型,具体步骤如下:

1. 构建回归模型

线性回归(用于连续性状):
逻辑回归(用于二分类性状):
是性状或疾病状态(如疾病状态 1 表示患病,0 表示不患病)。 • 是截距。 • 是 SNP 基因型(例如,0, 1, 2 表示不同的等位基因拷贝数)。 • 是效应估计值,表示 SNP 对性状的贡献。

2. 估计

在回归模型中,通过最大似然估计法( MLE )或最小二乘法( OLS )来拟合模型,从而得到 的估计值。
线性回归(最小二乘法): 最小化预测值和实际观测值之间的差异平方和,求出最优的
逻辑回归(最大似然估计法): 通过最大化观测值的对数似然函数来估计 值。

3. 解读

正值( > 0:表示效应等位基因(A1)对性状有正向影响,即该等位基因增加了该性状的风险或值。
负值( < 0:表示效应等位基因对性状有负向影响,即该等位基因降低了该性状的风险或值。
绝对值大小: 的绝对值越大,说明 SNP 对性状的影响越显著。
要计算某个 SNP 对性状的实际贡献(例如百分比贡献),通常需要进行进一步的效应解释分析,例如计算 方差解释率(Variance Explained)或 遗传力(Heritability),这超出了 Z-score 的直接含义。

遗传力(Heritability)与遗传效应(Genetic Effect)

遗传力(Heritability)
遗传力是一种统计概念,用来衡量某个性状在一个群体中有多少变异是由基因差异决定的,而不是由环境因素引起的。遗传力并不是一个人的遗传概率,而是对群体的测量。它告诉我们在一个特定的环境下,遗传因素对性状变异的影响有多大。
  • 符号:遗传力通常用  h^2  表示。
  • 例子: 假设在一个群体中,身高的遗传力为 0.8,这意味着在这个群体中,身高的差异有 80% 是由基因差异引起的,20% 是由环境差异引起的。 如果同一个群体生活在不同的环境中,遗传力可能会改变。例如,在营养不良的环境中,身高的遗传力可能会降低,因为环境对身高的影响更大。
遗传效应(Genetic Effect)
遗传效应指的是单个基因或多个基因对某个性状的具体影响。遗传效应描述了基因如何影响性状,以及这种影响的方式。遗传效应可以是简单的,也可以是复杂的(如基因间的相互作用)。
  • 类型: 1. 加性效应:每个基因等位基因的效应是可以相加的。比如,高个基因有“+5cm”的效应,那么有两个高个基因的人会比有一个高个基因的人高10cm。 2. 显性效应:一种基因的效应掩盖了另一种基因的效应。比如,棕色眼睛基因对蓝色眼睛基因具有显性效应。 3. 基因间相互作用(上位效应):多个基因相互作用,共同影响一个性状。
随机游走算法如何用服务器环境运行本地Notebook或脚本