高通量测序领域PPT中常用的两张图cost_per_genome_megabase

When I in senior high school, the Human Genome Project (HGP) was comparable with Project Apollo for human beings.

我上高中的时候,生物课本上有关于人类基因组计划的介绍。那个时候人们以为将人类的基因组序列搞清楚之后,就可以破译生命的奥秘。人类基因组计划耗费了很长时间很多年,但人类还是无法掌握生命的奥秘,更不知道这项工程还有多大价值。

但正是因为这项计划,促使科技的进步使得高通量测序技术出现,发展,普及。现在的生物学研究,已经离不开高通量测序,测序带来的信息量是前所未有的。正是这前所未有的信息和数据,才显得那么迷人。

Python抓取动态网页

生物信息学中,David(the Database for Annotation,Visualization and Integrated Discovery)是常用的注视工具,可以对基因进行GO注释,KEGG pathway注释等,David提供接口供批量注释调用。

David的网址https://david.ncifcrf.gov/,api介绍https://david.ncifcrf.gov/content.jsp?file=DAVID_API.html

不是生物信息学的朋友,可以重点关注分析思路。 以Entrez gene id为1002的基因为例,返回GO,interpro等注释信息的api格式为

http://david.abcc.ncifcrf.gov/api.jsp?type=ENTREZ_GENE_ID&ids=1002,&tool=annotationReport&annot=GOTERM_BP_FAT,GOTERM_CC_FAT,GOTERM_MF_FAT,INTERPRO,PIR_SUPERFAMILY,SMART,BBID,BIOCARTA,KEGG_PATHWAY,COG_ONTOLOGY,SP_PIR_KEYWORDS,UP_SEQ_FEATURE,GENETIC_ASSOCIATION_DB_DISEASE,OMIM_DISEASE

用python应用urllib2的包,抓取上述网页的结果为

三代测序组拼接组装工具Falcon

基因组装配工具Falcon工作流程

1 Falcon简介

Falcon (Fast Alignment and CONsensus),是由PacBio(太平洋生物科技公司)新开发的二倍体基因组从头拼接组装工具,由HGAP(Hierarchical Genome Assembly Process)扩展而来,但拥有更快的拼接组装效率。 Falcon的正常运行,需要DAZZ_DB模块用来构建序列的数据库,DALIGNER模块进行序列比对寻找序列之间的重叠和pypeFLOW模块记录和追踪流程进度。