文献解析:生物信息学部分(1)-DoubletFinder
近期发表于Science上的科研论文《癌症免疫学-人类肿瘤浸润性B细胞的蓝图》文献中提到:
We applied CellRanger V7 for read alignmentand gene-count matrix generation and BCR sequence assembly. Potential doubletswere identified and removed using DoubletFinder (v2.0.3).
文献来源:
Ma J, Wu Y, Ma L, Yang X, Zhang T, Song G,Li T, Gao K, Shen X, Lin J, Chen Y, Liu X, Fu Y, Gu X, Chen Z, Jiang S, Rao D,Pan J, Zhang S, Zhou J, Huang C, Shi S, Fan J, Guo G, Zhang X, Gao Q. Ablueprint for tumor-infiltrating B cells across human cancers. Science. 2024May 3;384(6695):eadj4857. doi: 10.1126/science.adj4857. Epub 2024 May 3. PMID:38696569.
那么,DoubletFinder是什么呢?
DoubletFinder是一种用于单细胞RNA测序(scRNA-seq)数据的双胞体(doublet)检测方法。双胞体是指在单细胞测序过程中,由于技术误差,将两个或多个细胞的RNA混合在一起,导致单个测序样本中包含多个细胞的RNA。这种混合会干扰数据分析,特别是在细胞类型鉴定和基因表达模式分析中。DoubletFinder通过识别和去除这些双胞体来提高单细胞RNA测序数据的准确性。以下是DoubletFinder的详细介绍:
工作原理
DoubletFinder通过以下几个步骤来检测和识别双胞体:
1. 预处理数据:首先,对单细胞RNA测序数据进行预处理,包括过滤低质量的细胞和标准化数据。
2. 生成双胞体预测模型:
仿真双胞体生成:根据实际数据,通过混合现有细胞的基因表达数据来仿真生成双胞体。这些仿真双胞体用于训练模型。
PCA降维:对实际数据和仿真双胞体进行主成分分析(PCA),将高维基因表达数据降维到低维空间。
K-邻近(KNN)分类器:使用KNN分类器,在降维后的数据中,将每个细胞和其邻近细胞进行比较,以识别潜在的双胞体。
3. 优化双胞体预测:
参数调优:调整DoubletFinder中的参数,如双胞体比例和邻近细胞数,以优化双胞体检测的准确性。
计算双胞体得分:为每个细胞计算双胞体得分,该得分反映了细胞作为双胞体的可能性。
4. 双胞体过滤:
阈值选择:根据双胞体得分,选择一个阈值来区分双胞体和单细胞。
去除双胞体:将得分超过阈值的细胞标记为双胞体,并从数据集中去除。
优点
精确性高:通过仿真双胞体和优化参数,提高了双胞体检测的精确性。
适应性强:适用于多种单细胞RNA测序平台和实验设计。
易于集成:可以与其他单细胞RNA测序分析工具(如Seurat和Scanpy)无缝集成。
缺点
依赖参数选择:
DoubletFinder需要用户设定一些关键参数,例如双胞体比例(nExp)、近邻参数(pK)等。这些参数的选择对结果有很大影响,但通常需要用户通过实验和经验来确定**参数值。
双胞体仿真可能不够精确:
虽然DoubletFinder通过混合现有细胞的基因表达数据来仿真生成双胞体,但这些仿真双胞体可能无法完全代表实际双胞体的复杂性,从而影响检测的准确性。
数据特异性:
DoubletFinder的性能可能依赖于特定的数据集特征和实验条件。在某些情况下,其检测效果可能不如其他专门针对某些数据类型或实验设计的方法。