❗ 细胞注释方法和常用数据库

基本概念

目的

  • 单细胞: 注释每个细胞的类型
  • 空间: 注释每个spot的细胞类型占比(由于现阶段分辨率低)

原理

  • 相同的细胞类型具有相似的表达谱
  • 根据方法分类
    • 手动
    • 自动

细胞注释方法

单细胞注释方法

基于相似性与统计学

SingleR1
  • 步骤
    • 选择高变基因作为feature
    • 计算ref(参考数据集)和qry(查询数据集)的Spearman相关系数
    • 80%分位数作为每个细胞类型的得分
    • 排除法循环注释
  • 创新性
    • 循环排除法(LOOCV)注释
      • 排除一个细胞类型:在每次迭代中,从参考数据集中排除一个细胞类型,剩下的细胞类型用作训练数据。
      • 计算相关性:用排除后的参考数据集中的细胞类型的表达谱计算与查询数据集中细胞的相关性。
      • 注释:根据计算出的相关性,为查询数据集中每个细胞分配一个最匹配的细胞类型。
      • 验证:将被排除的细胞类型作为验证集,以检查该类型的细胞在查询数据集中的注释结果是否准确。
      • 重复:对参考数据集中所有细胞类型进行上述步骤,每次排除不同的细胞类型,最终汇总所有迭代的结果,以提高整体的注释准确性。

        阈值的设定: 最高得分类 - 0.05

基于机器学习与深度学习

scPred2
  • 步骤
    • 选择能够区分细胞类型的主成分, 去除批次效应
    • SVM分类器训练校验调整超参
    • 预测
  • 创新点
    • 可以区分细胞类型的主成分

基于半机器学习

Seurat v43
  • 步骤
    • sPCA把qry投影到效用的低维嵌入中
    • 互临近的点作为anchor
    • Anchor和qry之间的相似性

多细胞分辨率的空间组注释

基于非负矩阵分解的方法

SPO Tlight 4

基于一个种子的非负矩阵因子分解回归(Seeded NMF regression)及非负最小二乘法(NNLS)
W: $\text{gene} \times \text{topic}$
H: $\text{topic}\times\text{cell}$

  • Step1: 根据单细胞(参考转录组)初始化W, H

    • W: marker gene $1-p_value$, 描述了每个细胞类型有哪些marker基因
    • H: celltype 的 one-hot coding,

      参考转录组中:$W\times H = V$
      $V$代表细胞表达谱

  • Step2: 非负矩阵分解获得W, H

    • 此时H不是celltype的比例
  • Step3: 利用$W$和ST数据(计数矩阵 $V′$)进行NNLS(非负最小二乘法)映射以获得系数矩阵$H′$
    • $H′$:列表示空间转录组学数据中每个点的主题特征。
SpatialDWLS

基于统计模型的方法

Cell2location5
  1. 首先使用贝叶斯模型估计单细胞数据集中细胞类型的表达特征
  2. 把空间组数据集分解到特征空间, 获得每个spot的细胞类型

    基因 g 在位置 s 的表达水平 $μ{s,g}$ 被建模为参考细胞类型特征 $g{f,g}$ (从单细胞数据中总结而来, f为细胞类型)的线性函数:

其中 $m_{g}$, $s_{e,g}$, $y_{s}$ 为修正项, 使用数学分布进行估计, 较为复杂不做展开。关键部分 $\sum_{f} w_{s,f} g_{f,g}$ 表示在 s 处细胞类型矩阵点乘细胞类型 f 每种基因的表达特征矩阵之和

代码中的两个关键参数:

  • N_cells_per_location: 每个location中估计的细胞数, 对cellbin来说为1
  • detection_alpha: 玄学参数, 默认为20, 可选200
    RCTD
    STdeconvolve
    Stereoscope

    基于深度学习

    CellDART
    DSTG
    Tangram6

    TODO

    代码实现

    网上一堆, 略

    常用数据库

    Marker gene 数据库

  • SCSig
  • PanglaoDB
  • CellMarker

物种和组织特异性数据库

  • GEO
  • Express Atlas

大型Atlas

  • Human Cell Atlas
  • Tabula Muris
  • Mouse Cell Atlas
1. singleR link
2. scPred
3. seurat
4. SPOTlight link
5. cell2location link
6. tangram link