SAM/BAM文件中的MD标签
我用bowtie比对了序列,想查看reads的错配情况。SAM flag中的M包含了比对上的碱基和错位的碱基,不能区分错配。
参考bowtie的文档,可以看到XM的标签可以指示mismatch的个数,MD标签可以查看具体的错配情况。
XN:i:<N> |
The number of ambiguous bases in the reference covering this alignment. Only present if SAM record is for an aligned read. |
XM:i:<N> |
The number of mismatches in the alignment. Only present if SAM record is for an aligned read. |
MD:Z:<S> |
A string representation of the mismatched reference bases in the alignment. See SAM Tags format specification for details. Only present if SAM record is for an aligned read. |
SAM手册对与MD的介绍
|
|
JC-单细胞转录组分析揭示人类子宫内膜癌的起源和病理过程
Single-cell transcriptomic analysis highlights origin and pathological process of human endometrioid endometrial carcinoma
https://www.nature.com/articles/s41467-022-33982-7
背景
子宫内膜癌(Endometrial cancer, EC)是妇科最常见的恶性肿瘤之一,子宫内膜样子宫内膜癌(endometrioid endomecancer, EEC)是EC的主要病理类型。
在雌激素依赖性EEC肿瘤发生过程中,子宫内膜在没有孕激素保护的情况下长期暴露于雌激素中,表现出不受控制的增殖,并且可以从正常子宫内膜发展到非典型子宫内膜增生(AEH, EEC癌前阶段),然后逐步发展到EEC。关于ECC的起源过往研究推测包括子宫内膜上皮和基质干成分在内的多种谱系可能是EEC的起源,但证据不足以支持明确起源。
肿瘤微环境由免疫细胞、成纤维细胞、周细胞等组成,在肿瘤的发生、预后和转移中起重要作用,尽管先前的研究已经提示肿瘤微环境在预后和治疗耐药的潜在作用,但从正常子宫内膜到EEC形成的过程仍不明确。
|
|
非编码小RNA的fasta序列下载资源
recount3超大规模可用转录组数据集
随着测序数据的积累,如何复用这些数据是一个挑战。recount项目,目前是recount3,共收集了8,679人和10,088小鼠的数据集,超过750,000个样本,经过统一处理(uniformly processed),得到gene或exon的表达以及exon-exon junction的数据。好多年前,我就了解过recount项目,很奇怪很少有介绍的。
一,recount对所有属于进行了uniformly processed,避免了分析流程的bias;
二,recount提供了超大规模的预处理之后的数据,直接拿来用,避免研究人员从原始数据分析;
三,recount提供了简单易用的工具,方便研究人员下载和处理数据。
方法1:下载TCGA-OV为例,检索过滤然后下载
|
|
方法2:直接选中数据集,生成下载code
在这个网站选中想要下载的数据集,https://jhubiostatistics.shinyapps.io/recount3-study-explorer/,网站下方会显示下载的code。注释不一定是26,还可以是RefSeq v109,Gencode v29等。
|
|