wget命令小结

下载文件夹 $ wget -c -r -nd -np -k -L -p -A c,h www.xxx.org/pub/path/

-c 断点续传 -r 递归下载,下载指定网页某一目录下(包括子目录)的所有文件 -nd 递归下载时不创建一层一层的目录,把所有的文件下载到当前目录 -np 递归下载时不搜索上层目录,如wget -c -r www.xxx.org/pub/path/ 没有加参数-np,就会同时下载path的上一级目录pub下的其它文件 -k 将绝对链接转为相对链接,下载整个站点后脱机浏览网页,最好加上这个参数 -L 递归时不进入其它主机,如wget -c -r www.xxx.org/ 如果网站内有一个这样的链接: www.yyy.org,不加参数-L,就会像大火烧山一样,会递归下载www.yyy.org网站 -p 下载网页所需的所有文件,如图片等 -A 指定要下载的文件样式列表,多个样式用逗号分隔

利用wordcloud R包绘制词云

根据词的频率,以词云的形式展示,更加具有表现力。词在’词云’图中字号越大,重要性也就越高。主要涉及数据的挖掘,和数据的展示(可视化)。

下面的代码为利用wordcloud包绘制上面词云图

1
2
3
4
5
install.packages("wordcloud")
> library(wordcloud)
> mydata mycolors  png("wordcloud_packages.png", width=400,height=400, units='in', res=900)
> wordcloud(mydata$词汇,mydata$词频,random.order=FALSE,random.color=T,colors=mycolors,family="myFont3",min.freq=0)
> dev.off()

测试文件下载:TXT

microRNA数据库与预测、功能分析软件大全

1.miRBase: http://www.mirbase.org

miRBase序列数据库是一个提供包括已发表的miRNA 序列数据、注释、预测基因靶标等信息的全方位数据库,是存储miRNA信息最主要的公共数据库之一。miRBase提供便捷的网上查询服务,允许用户使用关键词或序列在线搜索已知的miRNA和靶标信息。

2.miRecords: http://mirecords.biolead.org/

动物 miRNA 的靶相互作用的数据库, 包括人工收集实验验证的, 预测的 miRNA的靶目标. 靶标预测工具DIANA-microT, MicroInspector, miRanda, MirTarget2, miTarget, NBmiRTar, PicTar, PITA, RNA22, RNAhybrid, and TargetScan/TargertScanS.

3.PMRD: http://bioinformatics.cau.edu.cn/PMRD/

PMRD是一个关于植物MicroRNA 数据库,包括了microRNA序列和它们的靶基因、二级结构、表达谱、基因组搜索等等,并且该数据库尝试着整合大量的关于植物microRNA的数据。

FPKM,RPKM,TPM 转载

FPKM:Fragmentsper Kilobase Million,FPKM意义与RPKM极为相近。二者区别仅在于,Fragment 与Read。RPKM的诞生是针对早期的SE测序,FPKM则是在PE测序上对RPKM的校正。只要明确​Reads 和Fragments的区别,RPKM和FPKM的概念便易于区分。Reads即是指下机后fastq数据中的每一条Reads,Fragments则是指每一段用于测序的核酸片段,在SE中,一个Fragments只测一条Reads,所以,Reads数与Fragments数目相等;在PE中,一个Fragments测两端,会得到2条Reads,但由于后期质量或比对的过滤,有可能一个Fragments的2条Reads最后只有一条进入最后的表达量分析。总之,对某一对Reads而言,这2条Reads只能算一个Fragments,所以,Fragment的最终数目是Reads的1到2倍之间。

在衡量基因表现量时,若是单纯以map到的read数来计算基因的表现 量,在统计上是一件相当不合理事,因为在随机抽样的情况下,序列较长的基因被抽到的机率本来就会比序列短的基因较高,如此一来,序列长的基因永远会被认为 表现量较高,而错估基因真正的表现量,所以Ali Mortazavi等人在2008年提出以RPKM在估计基因的表现量。

“Reads Per Kilobase Per Million Reads"​,即"每一百万条Reads中,对基因的每1000个Base而言,比对到该1000个base的Reads数”

It used to be when you did RNA-seq, you reported your results in RPKM (Reads Per Kilobase Million) or FPKM (Fragments Per Kilobase Million). However, TPM (Transcripts Per Million) is now becoming quite popular. Since there seems to be a lot of confusion about these terms, I thought I’d use a StatQuest to clear everything up.

These three metrics attempt to normalize for sequencing depth and gene length. Here’s how you do it for RPKM: Count up the total reads in a sample and divide that number by 1,000,000 - this is our “per million” scaling factor. Divide the read counts by the “per million” scaling factor. This normalizes for sequencing depth, giving you reads per million (RPM) Divide the RPM values by the length of the gene, in kilobases. This gives you RPKM.