admin管理员组

文章数量:1030982

单细胞数据重新挖掘会有什么意外惊喜吗?(IF=12.4/Q1)

自从前面分享了一篇关于中性粒细胞的文章后:中性粒细胞的质量值到底是多低呢?这篇帖子我虽然只是留下了对这个细胞亚群的第一印象:细胞中的基因表达数,UMI count数相比其他亚群都低得多,但是总在脑海里如幽灵般时而浮现,为什么呢?后面万能的网友在留言区告诉我,是因为中性粒细胞的半衰期短(细胞死得快),短到什么程度呢?你去查一下肯定吓一跳!

今天分享的一篇文章,本来是看看肾脏组织中的各种上皮细胞的分类,但是注释的时候却有个小插曲,下面来看看~

文章背景

这篇文献于2023年10月4号发表在Mol Ther(12.4/Q1),文献标题为:《Single-cell dissection of cellular and molecular features underlying mesenchymal stem cell therapy in ischemic acute kidney injury》。

文献中注释到了九种不同的细胞:

  • TECs:Lrp2,tubular epithelial cells,肾小管上皮细胞:是肾小管的内衬细胞,位于肾单位的各个部分,包括近曲小管、髓袢和远曲小管等。这些细胞在肾脏的结构和功能中起着关键作用;
  • DT:Slc12a3,distal tubular cells,远曲小管细胞,是肾小管远曲小管(Distal Convoluted Tubule,DCT)的内衬细胞。远曲小管位于肾小管的远端,紧接在致密斑(macula densa)之后,是肾单位的重要组成部分;
  • IC/PC:Aqp2,Atp6v1g3,intercalated cells/principal cells,闰细胞/主细胞,闰细胞是肾小管集合管中的上皮细胞,主要分布在集合管的皮质和外髓层。它们在调节酸碱平衡、钾和氨的转运中起重要作用;主细胞是肾小管集合管中的主要上皮细胞类型,主要负责钠和水的重吸收;
  • LOH:Slc12a1,loop of Henle,Henle袢是肾单位(nephron)的一部分,呈U形结构;
  • ENDO:Emcn,endothelial cells;
  • MES:Pdgfrb,mesangial cells,系膜细胞,是肾小球中的基质细胞,位于毛细血管袢之间,与肾小球基底膜紧密相连;系膜细胞通常呈星形或梭形,具有丰富的细胞器,如线粒体和内质网;
  • T cells:Cd3d;
  • B cells:Cd79a;
  • myeloid cells:Cd68。

其中,TECs亚群细分结果如下:

  • normal TECs:高表达 Slc34a1 ;
  • injured TECs:高表达 Havcr1 (此基因编码 编码肾损伤分子 , KIM-1);
  • pro-fibrotic TECs:高表达Pdgfb、Zeb2 (纤维化的标记markers)、Nfkb1, C3, Cxcl1, Il34 (炎症标记物markers);
  • renal stem/progenitor epithelial cells:Pcna (增殖标记marker), Prom1 (编码干细胞标记CD133), and Epcam (编码上皮细胞粘附分子)。

数据读取与质控

数据总共为13个样本,可以在这里下载:

数据读取见之前的推文,这里还可以学到一个技巧:创建Seurat对象时忽略的两个参数竟然有这样的功能?

然后经过简单的质控、降维聚类分群以及harmony去批次,umap结果如下:

代码语言:javascript代码运行次数:0运行复制
rm(list=ls())
library(Seurat)
library(ggplot2)
library(SCP) # .html
# /vignettes/plotting
library(Scillus) # 
# /
library(scCustomize)
library(qs)
library(stringr)

###### step4:  看标记基因库 ######
# 原则上分辨率是需要自己肉眼判断,取决于个人经验
sce.all.int <- qread("2-harmony/sce.all_int.qs")
sce.all.int
table(Idents(sce.all.int))
table(sce.all.int$seurat_clusters)
table(sce.all.int$RNA_snn_res.0.1) 
table(sce.all.int$RNA_snn_res.0.3) 

dir.create('3-check-by-0.3')
select_idet <- "RNA_snn_res.0.3"
sce.all.int$RNA_snn_res.0.3
sce.all.int <- SetIdent(sce.all.int, value = select_idet)
table(sce.all.int@active.ident) 
head(sce.all.int@meta.data)

# 美化版
p <- CellDimPlot(sce.all.int, group.by = select_idet, reduction = "UMAP", label = T,label.size = 4, label_repel = T, label_insitu = T,label_point_size = 1, label_point_color =NA ,label_segment_color = NA)
ggsave(plot=p, filename="3-check-by-0.3/Dimplot_resolution_0.3.pdf",width = 6.5, height = 6.5)

细胞注释

文献中的marker:

代码语言:javascript代码运行次数:0运行复制
################################ 本数据marker:OMIX004421
cell_types <- list(
  TECs = c("Lrp2"),
  LOH = c("Slc12a1"),
  DT = c("Slc12a3"),
  IC_PC = c("Aqp2","Atp6v1g3"),
  MES = c("Pdgfrb"),
  ENDO = c("Emcn"),
  T = c("Cd3d"),
  B = c("Cd79a"),
  Myeloid = c("Cd68")
)

# Print the list to verify
print(cell_types)

p <- DotPlot(sce.all.int, features = cell_types, assay='RNA',group.by = select_idet,cols = c("grey", "red") ) + 
  ggtitle(paste0(select_idet, ": OMIX004421")) + 
  xlab("") + 
  theme(axis.text.x = element_text(angle = 45, hjust = 1))  # 更改x轴标签角度
p[["theme"]][["strip.text"]]$angle <- 90
p[["theme"]][["strip.text"]]$hjust <- 0
p
ggsave(filename = "3-check-by-0.3/Markers_OMIX004421_dotplot.pdf", plot=p, width=15, height = 8,bg="white")

其他marker:

中性粒细胞的质量值到底是多低呢?里面的marker全画一遍,但是有一群细胞没有注释出来 cluster 9,但是可以肯定的是这群是免疫细胞,看一下top10基因:

"S100a8,S100a9,Il1b,Hdc,Csf3r,Clec4d,Mmp9,Il1r2,Cxcr2,Tyrobp"

代码语言:javascript代码运行次数:0运行复制
table(Idents(sce.all.int))

# 差异分析
sce.markers <- FindAllMarkers(sce.all.int, only.pos = TRUE, min.pct = 0.2, return.thresh = 0.01)
head(sce.markers)
save(sce.markers, file = "3-check-by-0.3/sce.markers.RData")

# 查看top10
top10 <- sce.markers %>%
  group_by(cluster) %>%
  dplyr::filter(avg_log2FC > 1) %>%
  slice_head(n = 10) %>%
  ungroup() %>% 
  as.data.frame()

paste0(as.character(top10[top10$cluster==9, 'gene']), collapse = ",")

高表达以下基因的细胞类型主要是中性粒细胞(Neutrophils),这些基因的高表达与中性粒细胞的激活、炎症反应和免疫调节密切相关:

  • S100a8S100a9:这两个基因编码的蛋白质主要形成异二聚体(S100A8/A9,也称为钙卫蛋白),是中性粒细胞中最丰富的细胞内蛋白之一。它们在脓毒症等炎症状态下高表达,并且与中性粒细胞的激活和功能密切相关。
  • Il1b:白细胞介素-1β(IL-1β)是一种促炎细胞因子,中性粒细胞在炎症反应中可以释放IL-1β。
  • Hdc:组氨酸脱羧酶(HDC)参与组胺的合成,中性粒细胞在某些炎症条件下可以表达HDC。
  • Csf3r:粒细胞集落刺激因子3受体(CSF3R)是中性粒细胞的表面受体,参与中性粒细胞的增殖和分化。
  • Clec4d:C型凝集素受体4D(CLEC4D)在中性粒细胞上表达,参与识别和结合糖基化的病原体。
  • Mmp9:基质金属蛋白酶9(MMP9)在中性粒细胞中高表达,参与细胞外基质的降解和炎症反应。
  • Il1r2:白细胞介素-1受体2(IL-1R2)是IL-1β的受体,中性粒细胞可以表达IL-1R2以调节炎症反应。
  • Cxcr2:趋化因子受体2(CXCR2)在中性粒细胞上高表达,参与中性粒细胞的趋化和迁移。
  • Tyrobp:酪氨酸激酶结合蛋白(TYROBP)在中性粒细胞中表达,参与信号传导。

最终结果注释如下:

那再来验证一下看看中性粒细胞是不是质量QC指标还是很低:

代码语言:javascript代码运行次数:0运行复制
#######################################
sce.all <- sce.all.int
# 1.计算线粒体基因比例
mito_genes <- grep("^MT-", rownames(sce.all),ignore.case = T, value = T) 
# 可能是13个线粒体基因
print(mito_genes)
sce.all <- PercentageFeatureSet(sce.all, features = mito_genes, col.name = "percent_mito")
fivenum(sce.all@meta.data$percent_mito)

# 2.计算核糖体基因比例
ribo_genes <- grep("^Rp[sl]", rownames(sce.all),ignore.case = T, value = T)
print(ribo_genes)
sce.all <- PercentageFeatureSet(sce.all,  features = ribo_genes, col.name = "percent_ribo")
fivenum(sce.all@meta.data$percent_ribo)

# 3.计算红血细胞基因比例
Hb_genes <- grep("^Hb[^(p)]", rownames(sce.all),ignore.case = T,value = T)
print(Hb_genes)
sce.all <- PercentageFeatureSet(sce.all, features=Hb_genes, col.name="percent_hb")
fivenum(sce.all@meta.data$percent_hb)

# 可视化细胞的上述比例情况
# pic2
p2 <- VlnPlot(sce.all, group.by = "celltype", features = c("nFeature_RNA", "nCount_RNA","percent_mito", "percent_ribo", "percent_hb"), pt.size = 0, ncol = 5) + NoLegend()
p2 
w <- length(unique(sce.all$orig.ident))/1.5+10;w
ggsave(filename="3-check-by-0.3//Vlnplot2.pdf",plot=p2,width = w,height = 5)
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-04-13,如有侵权请联系 cloudcommunity@tencent 删除int编码集合技巧数据

单细胞数据重新挖掘会有什么意外惊喜吗?(IF=12.4/Q1)

自从前面分享了一篇关于中性粒细胞的文章后:中性粒细胞的质量值到底是多低呢?这篇帖子我虽然只是留下了对这个细胞亚群的第一印象:细胞中的基因表达数,UMI count数相比其他亚群都低得多,但是总在脑海里如幽灵般时而浮现,为什么呢?后面万能的网友在留言区告诉我,是因为中性粒细胞的半衰期短(细胞死得快),短到什么程度呢?你去查一下肯定吓一跳!

今天分享的一篇文章,本来是看看肾脏组织中的各种上皮细胞的分类,但是注释的时候却有个小插曲,下面来看看~

文章背景

这篇文献于2023年10月4号发表在Mol Ther(12.4/Q1),文献标题为:《Single-cell dissection of cellular and molecular features underlying mesenchymal stem cell therapy in ischemic acute kidney injury》。

文献中注释到了九种不同的细胞:

  • TECs:Lrp2,tubular epithelial cells,肾小管上皮细胞:是肾小管的内衬细胞,位于肾单位的各个部分,包括近曲小管、髓袢和远曲小管等。这些细胞在肾脏的结构和功能中起着关键作用;
  • DT:Slc12a3,distal tubular cells,远曲小管细胞,是肾小管远曲小管(Distal Convoluted Tubule,DCT)的内衬细胞。远曲小管位于肾小管的远端,紧接在致密斑(macula densa)之后,是肾单位的重要组成部分;
  • IC/PC:Aqp2,Atp6v1g3,intercalated cells/principal cells,闰细胞/主细胞,闰细胞是肾小管集合管中的上皮细胞,主要分布在集合管的皮质和外髓层。它们在调节酸碱平衡、钾和氨的转运中起重要作用;主细胞是肾小管集合管中的主要上皮细胞类型,主要负责钠和水的重吸收;
  • LOH:Slc12a1,loop of Henle,Henle袢是肾单位(nephron)的一部分,呈U形结构;
  • ENDO:Emcn,endothelial cells;
  • MES:Pdgfrb,mesangial cells,系膜细胞,是肾小球中的基质细胞,位于毛细血管袢之间,与肾小球基底膜紧密相连;系膜细胞通常呈星形或梭形,具有丰富的细胞器,如线粒体和内质网;
  • T cells:Cd3d;
  • B cells:Cd79a;
  • myeloid cells:Cd68。

其中,TECs亚群细分结果如下:

  • normal TECs:高表达 Slc34a1 ;
  • injured TECs:高表达 Havcr1 (此基因编码 编码肾损伤分子 , KIM-1);
  • pro-fibrotic TECs:高表达Pdgfb、Zeb2 (纤维化的标记markers)、Nfkb1, C3, Cxcl1, Il34 (炎症标记物markers);
  • renal stem/progenitor epithelial cells:Pcna (增殖标记marker), Prom1 (编码干细胞标记CD133), and Epcam (编码上皮细胞粘附分子)。

数据读取与质控

数据总共为13个样本,可以在这里下载:

数据读取见之前的推文,这里还可以学到一个技巧:创建Seurat对象时忽略的两个参数竟然有这样的功能?

然后经过简单的质控、降维聚类分群以及harmony去批次,umap结果如下:

代码语言:javascript代码运行次数:0运行复制
rm(list=ls())
library(Seurat)
library(ggplot2)
library(SCP) # .html
# /vignettes/plotting
library(Scillus) # 
# /
library(scCustomize)
library(qs)
library(stringr)

###### step4:  看标记基因库 ######
# 原则上分辨率是需要自己肉眼判断,取决于个人经验
sce.all.int <- qread("2-harmony/sce.all_int.qs")
sce.all.int
table(Idents(sce.all.int))
table(sce.all.int$seurat_clusters)
table(sce.all.int$RNA_snn_res.0.1) 
table(sce.all.int$RNA_snn_res.0.3) 

dir.create('3-check-by-0.3')
select_idet <- "RNA_snn_res.0.3"
sce.all.int$RNA_snn_res.0.3
sce.all.int <- SetIdent(sce.all.int, value = select_idet)
table(sce.all.int@active.ident) 
head(sce.all.int@meta.data)

# 美化版
p <- CellDimPlot(sce.all.int, group.by = select_idet, reduction = "UMAP", label = T,label.size = 4, label_repel = T, label_insitu = T,label_point_size = 1, label_point_color =NA ,label_segment_color = NA)
ggsave(plot=p, filename="3-check-by-0.3/Dimplot_resolution_0.3.pdf",width = 6.5, height = 6.5)

细胞注释

文献中的marker:

代码语言:javascript代码运行次数:0运行复制
################################ 本数据marker:OMIX004421
cell_types <- list(
  TECs = c("Lrp2"),
  LOH = c("Slc12a1"),
  DT = c("Slc12a3"),
  IC_PC = c("Aqp2","Atp6v1g3"),
  MES = c("Pdgfrb"),
  ENDO = c("Emcn"),
  T = c("Cd3d"),
  B = c("Cd79a"),
  Myeloid = c("Cd68")
)

# Print the list to verify
print(cell_types)

p <- DotPlot(sce.all.int, features = cell_types, assay='RNA',group.by = select_idet,cols = c("grey", "red") ) + 
  ggtitle(paste0(select_idet, ": OMIX004421")) + 
  xlab("") + 
  theme(axis.text.x = element_text(angle = 45, hjust = 1))  # 更改x轴标签角度
p[["theme"]][["strip.text"]]$angle <- 90
p[["theme"]][["strip.text"]]$hjust <- 0
p
ggsave(filename = "3-check-by-0.3/Markers_OMIX004421_dotplot.pdf", plot=p, width=15, height = 8,bg="white")

其他marker:

中性粒细胞的质量值到底是多低呢?里面的marker全画一遍,但是有一群细胞没有注释出来 cluster 9,但是可以肯定的是这群是免疫细胞,看一下top10基因:

"S100a8,S100a9,Il1b,Hdc,Csf3r,Clec4d,Mmp9,Il1r2,Cxcr2,Tyrobp"

代码语言:javascript代码运行次数:0运行复制
table(Idents(sce.all.int))

# 差异分析
sce.markers <- FindAllMarkers(sce.all.int, only.pos = TRUE, min.pct = 0.2, return.thresh = 0.01)
head(sce.markers)
save(sce.markers, file = "3-check-by-0.3/sce.markers.RData")

# 查看top10
top10 <- sce.markers %>%
  group_by(cluster) %>%
  dplyr::filter(avg_log2FC > 1) %>%
  slice_head(n = 10) %>%
  ungroup() %>% 
  as.data.frame()

paste0(as.character(top10[top10$cluster==9, 'gene']), collapse = ",")

高表达以下基因的细胞类型主要是中性粒细胞(Neutrophils),这些基因的高表达与中性粒细胞的激活、炎症反应和免疫调节密切相关:

  • S100a8S100a9:这两个基因编码的蛋白质主要形成异二聚体(S100A8/A9,也称为钙卫蛋白),是中性粒细胞中最丰富的细胞内蛋白之一。它们在脓毒症等炎症状态下高表达,并且与中性粒细胞的激活和功能密切相关。
  • Il1b:白细胞介素-1β(IL-1β)是一种促炎细胞因子,中性粒细胞在炎症反应中可以释放IL-1β。
  • Hdc:组氨酸脱羧酶(HDC)参与组胺的合成,中性粒细胞在某些炎症条件下可以表达HDC。
  • Csf3r:粒细胞集落刺激因子3受体(CSF3R)是中性粒细胞的表面受体,参与中性粒细胞的增殖和分化。
  • Clec4d:C型凝集素受体4D(CLEC4D)在中性粒细胞上表达,参与识别和结合糖基化的病原体。
  • Mmp9:基质金属蛋白酶9(MMP9)在中性粒细胞中高表达,参与细胞外基质的降解和炎症反应。
  • Il1r2:白细胞介素-1受体2(IL-1R2)是IL-1β的受体,中性粒细胞可以表达IL-1R2以调节炎症反应。
  • Cxcr2:趋化因子受体2(CXCR2)在中性粒细胞上高表达,参与中性粒细胞的趋化和迁移。
  • Tyrobp:酪氨酸激酶结合蛋白(TYROBP)在中性粒细胞中表达,参与信号传导。

最终结果注释如下:

那再来验证一下看看中性粒细胞是不是质量QC指标还是很低:

代码语言:javascript代码运行次数:0运行复制
#######################################
sce.all <- sce.all.int
# 1.计算线粒体基因比例
mito_genes <- grep("^MT-", rownames(sce.all),ignore.case = T, value = T) 
# 可能是13个线粒体基因
print(mito_genes)
sce.all <- PercentageFeatureSet(sce.all, features = mito_genes, col.name = "percent_mito")
fivenum(sce.all@meta.data$percent_mito)

# 2.计算核糖体基因比例
ribo_genes <- grep("^Rp[sl]", rownames(sce.all),ignore.case = T, value = T)
print(ribo_genes)
sce.all <- PercentageFeatureSet(sce.all,  features = ribo_genes, col.name = "percent_ribo")
fivenum(sce.all@meta.data$percent_ribo)

# 3.计算红血细胞基因比例
Hb_genes <- grep("^Hb[^(p)]", rownames(sce.all),ignore.case = T,value = T)
print(Hb_genes)
sce.all <- PercentageFeatureSet(sce.all, features=Hb_genes, col.name="percent_hb")
fivenum(sce.all@meta.data$percent_hb)

# 可视化细胞的上述比例情况
# pic2
p2 <- VlnPlot(sce.all, group.by = "celltype", features = c("nFeature_RNA", "nCount_RNA","percent_mito", "percent_ribo", "percent_hb"), pt.size = 0, ncol = 5) + NoLegend()
p2 
w <- length(unique(sce.all$orig.ident))/1.5+10;w
ggsave(filename="3-check-by-0.3//Vlnplot2.pdf",plot=p2,width = w,height = 5)
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-04-13,如有侵权请联系 cloudcommunity@tencent 删除int编码集合技巧数据

本文标签: 单细胞数据重新挖掘会有什么意外惊喜吗(IF124Q1)