文献解析:生物信息学部分(2)- Harmony算法

2024-05-16 10:56

文献解析:生物信息学部分(2)- Harmony算法


       近期发表于Science上的科研论文《癌症免疫学-人类肿瘤浸润性B细胞的蓝图》文献中提到:

We also integrated diverse published datasets containing TIBs, corrected the batch effects using the Harmony algorithm (25), and finally established a single-cell transcriptional atlas in 477 samples from 269 donors across 20 cancer types.


文献来源:

Ma J, Wu Y, Ma L, Yang X, Zhang T, Song G,Li T, Gao K, Shen X, Lin J, Chen Y, Liu X, Fu Y, Gu X, Chen Z, Jiang S, Rao D,Pan J, Zhang S, Zhou J, Huang C, Shi S, Fan J, Guo G, Zhang X, Gao Q. Ablueprint for tumor-infiltrating B cells across human cancers. Science. 2024May 3;384(6695):eadj4857. doi: 10.1126/science.adj4857. Epub 2024 May 3. PMID:38696569.


那么,Harmony算法是什么呢?


Harmony算法

Harmony算法是一种用于整合多组单细胞RNA测序(scRNA-seq)数据的算法,主要解决批次效应(batch effect)问题。批次效应是指不同实验批次之间的数据差异,这种差异可能由实验条件、技术差异或其他非生物学因素引起。Harmony通过消除这些批次效应,生成一致的转录组图谱,使得不同数据集之间可以进行可靠的比较和整合。以下是Harmony算法的详细解释:

工作原理           

1. 输入数据:

   -Harmony接受多个批次的单细胞RNA测序数据,每个批次的数据通常会有批次标签(batch labels)和细胞类型标签(cell type labels)。

2. 高维数据嵌入:

   - 使用如PCA(主成分分析)或t-SNE(t分布邻域嵌入)等方法,将高维的基因表达数据嵌入到低维空间中。这个低维空间中的数据点反映了细胞之间的相似性。

3. 批次效应校正:

   -Harmony通过迭代的方式调整嵌入空间中的细胞位置,以减少批次效应的影响。具体步骤如下:

    1. 初始化:根据原始嵌入空间,计算每个细胞的初始位置。

    2. 批次调整:对于每个批次的细胞,计算它们在低维空间中的重心(centroid)。

    3. 细胞位置更新:将每个细胞的位置调整到与其所属批次的重心更接近的位置,以减少不同批次之间的差异。

    4. 重复迭代:重复批次调整和细胞位置更新的过程,直到嵌入空间中的批次效应最小化。

4. 输出校正后的嵌入空间:

   - 在完成迭代后,Harmony输出一个校正后的嵌入空间,其中批次效应已经被显著减少,细胞之间的相似性主要反映生物学上的相似性。

优点               

1. 有效的批次效应消除:

   -Harmony能够高效地消除多组数据之间的批次效应,使得不同批次的数据可以进行可靠的整合和比较。

2. 适用于大规模数据集:

   -Harmony算法设计为能够处理大规模的单细胞RNA测序数据集,具有良好的扩展性。

3. 保留生物学差异:

   - 在消除批次效应的同时,Harmony尽可能保留细胞之间的生物学差异,确保分析结果的生物学意义。

不足和局限性:   

1.     对参数选择敏感:

Harmony算法的效果在一定程度上依赖于参数的选择,特别是嵌入空间的初始维度和迭代次数。如果参数选择不当,可能会导致校正效果不佳或过度校正。

2.     可能会导致过度校正:

在某些情况下,Harmony可能会过度校正批次效应,导致真正的生物学差异被消除。这在批次效应与生物学差异难以区分时尤其显著。

3.     对稀有细胞类型的处理:

Harmony在处理稀有细胞类型时可能不如其他方法有效,因为稀有细胞类型在嵌入空间中的位置调整可能不准确,导致这些细胞类型的特征被稀释或丢失。

4.     依赖于初始嵌入空间的质量:

Harmony算法依赖于初始嵌入空间(例如PCA或t-SNE)的质量。如果初始嵌入空间不能很好地表示细胞之间的生物学差异,那么Harmony的校正效果也会受到影响。

5.     无法完全解决所有类型的批次效应:

尽管Harmony能够显著减少批次效应,但在某些复杂的情况下,例如批次效应与生物学差异高度交织在一起,Harmony可能无法完全消除这些效应。

应用           

Harmony算法广泛应用于单细胞RNA测序数据的整合分析,特别是在涉及多个实验批次或多个实验条件的数据集时。例如,研究人员可以使用Harmony将来自不同实验室或不同实验条件的单细胞数据进行整合,以创建一个统一的细胞图谱,从而更全面地理解细胞类型和状态的多样性。

总之,Harmony算法是一个强大的工具,通过有效消除批次效应,帮助研究人员整合和分析多组单细胞RNA测序数据,为深入理解细胞异质性和生物学机制提供了重要支持。


昵称:
内容:
验证码:
提交评论
评论一下