摘要: 数据可视化是什么? The main goal of data visualization is its ability tovisualize data, communicating information clearly and effectively.— Vitaly Friedman 数据可 阅读全文
posted @ 2018-12-08 02:39 SamYangBio 阅读(4183) 评论(0) 推荐(0) 编辑
摘要: 人类基因组包含22条染色体和1条X或者Y染色体,这些染色体长度为45~279Mb,加起来共为3286Mb。 基于染色体的结构,全部基因可被分为常染色质(euchromatin)区域(通常包含活性基因)和异质染色质(heterochromatin)区域,后者携带低密度的活性基因。常染色质组成了基因组的 阅读全文
posted @ 2018-12-05 00:22 SamYangBio 阅读(1900) 评论(0) 推荐(0) 编辑
摘要: 1.ChIP-seq简介 染色质免疫共沉淀技术(Chromatin-immunoprecipitation)也称结合位点分析法,被用于蛋白质与DNA的交互作用。该技术将染色质免疫沉淀与大规模并行DNA测序相结合起来鉴定与DNA相关蛋白结合部位。其可被用于精确绘制任意目的蛋白在全基因组上的结合位点。 阅读全文
posted @ 2018-11-21 23:40 SamYangBio 阅读(1240) 评论(0) 推荐(0) 编辑
摘要: 技术人普遍缺乏沟通能力,了解一些心理模型,有助于提高我们的沟通能力。 心智模型是解释我们看待世界的一种方法假设。它会影响到产品设计从概念构思到体验感知的每一个环节。 在《日常生活中的设计》一书中,唐纳德·A·诺曼(DonNorman)写道,不论设计师们对他们的产品有怎样的设想(即设计师的概念模型), 阅读全文
posted @ 2018-11-20 14:02 SamYangBio 阅读(2904) 评论(0) 推荐(0) 编辑
摘要: 1.Keras:Keras是一个高层神经网络API,Keras由纯Python编写而成并基Tensorflow、Theano以及CNTK后端。https://keras-cn.readthedocs.io/en/latest/ 2.TensorFlow:TensorFlow是一个基于数据流编程(da 阅读全文
posted @ 2018-11-10 22:57 SamYangBio 阅读(720) 评论(0) 推荐(0) 编辑
摘要: 1、锌手指蛋白最早发现于非洲爪蟾的细胞,它们被用来定位基因组序列并启动特定基因的转录和蛋白质合成; 2、TALEN蛋白来自一类特殊的植物细菌——黄单胞菌,其功能也是被用来定位基因组序列——只不过这回是被细菌用来偷梁换柱启动它所寄居的植物细胞的基因转录。 3、CRISPR(Clustered Regu 阅读全文
posted @ 2016-02-03 17:04 SamYangBio 阅读(677) 评论(0) 推荐(0) 编辑
摘要: 表达序列标签(expressed sequence tags,ESTs)是指从不同组织来源的cDNA序列。这一概念首次由Adams 等于1991年提出。近年来由此形成的技术路线被广泛应用于基因识别、绘制基因表达图谱、寻找新基因等研究领域,并且取得了显著成效。在通过mRNA差异显示、代表性差异分析等方... 阅读全文
posted @ 2016-01-25 16:21 SamYangBio 阅读(305) 评论(0) 推荐(0) 编辑
摘要: Blastn是将给定的核酸序列与核酸数据库中的序列进行比较;Blastp是使用蛋白质序列与蛋白质数据库中的序列进行比较,可以寻找较远的关系;Blastx将给定的核酸序列按照六种阅读框架将其翻译成蛋白质与蛋白质数据库中的序列进行比对,对分析新序列和EST很有用;Tblastn将给定的氨基酸序列与核酸数... 阅读全文
posted @ 2016-01-25 11:31 SamYangBio 阅读(418) 评论(0) 推荐(0) 编辑
摘要: GFF3是GFF注释文件的新标准。文件中每一行为基因组的一个属性,分为9列,以TAB分开。依次是:1. reference sequence:参照序列指出注释的对象。如一个染色体,克隆或片段。可以有多个参照序列。该id的取名不能以’>’开头,不能包含空格。2. source:来源注释的来源。如果未知... 阅读全文
posted @ 2016-01-22 10:38 SamYangBio 阅读(1410) 评论(0) 推荐(0) 编辑
摘要: Transcriptome assembly and differential expression analysis for RNA-Seq.Cufflinks assembles transcripts, estimates their abundances, and tests for dif... 阅读全文
posted @ 2016-01-20 17:55 SamYangBio 阅读(377) 评论(0) 推荐(0) 编辑
摘要: What is TopHat?TopHat is a program that aligns RNA-Seq reads to a genome in order to identify exon-exon splice junctions. It is built on the ultrafast... 阅读全文
posted @ 2016-01-20 17:46 SamYangBio 阅读(464) 评论(0) 推荐(0) 编辑
摘要: 1.对于长度大于50bp的reads,bowtie2更精确;而小于50bp的reads,bowtie1更精确更快速2.bowtie2支持的reads长度没有上限,当然reads长度在50~1000bp为宜;而bowtie1支持reads长度最长约为1000bp3.bowtie2的对比支持gap,而b... 阅读全文
posted @ 2016-01-20 17:08 SamYangBio 阅读(1153) 评论(0) 推荐(0) 编辑
摘要: 基因表达谱数据基因表达谱可以用一个矩阵来表示,每一行代表一个基因,每一列代表一个样本(如图1)。所有基因的表达谱数据在“gene_exp.txt”文件中存储,第一列为基因的entrez geneid,第2~61列是疾病样本的表达,第62~76列是正常样本的表达。图1 基因表达谱的矩阵表示寻找差异表达... 阅读全文
posted @ 2016-01-18 16:36 SamYangBio 阅读(20467) 评论(0) 推荐(0) 编辑
摘要: KEGG数据库的使用方法与介绍KEGG的数据KEGG中的pathway是根据相关知识手绘的,这里的手绘的意思可能是指人工以特定的语言格式来确定通路各组件的联系;基因组信息主要是从NCBI等数据库中得到的,除了有完整的基因序列外,还有没完成的草图;另外KEGG中有一个“专有名词”KO(KEGGOrth... 阅读全文
posted @ 2016-01-12 16:10 SamYangBio 阅读(3313) 评论(0) 推荐(2) 编辑
摘要: 基因组注释主要包括四个研究方向:重复序列的识别;非编码RNA的预测;基因结构预测和基因功能注释。我们将分别对这四个领域进行阐述。1 重复序列的识别。1.1重复序列的研究背景和意义:重复序列可分为串联重复序列(Tendam repeat)和散在重复序列(Interpersed repeat)两大类。其... 阅读全文
posted @ 2016-01-11 11:48 SamYangBio 阅读(5577) 评论(0) 推荐(0) 编辑
摘要: NR(non-redundant,非冗余)数据库文献:Deng YY, Li JQ, Wu S F, Zhu YP, et al. Integrated NR Database in Protein Annotation System and Its Localization. Computer E... 阅读全文
posted @ 2016-01-04 11:47 SamYangBio 阅读(2032) 评论(0) 推荐(0) 编辑
摘要: 基于边合成边测序(Sequencing By Synthesis,SBS)技术,Illumina HiSeq2500高通量测序平台对cDNA文库进行测序,能够产出大量的高质量Reads,测序平台产出的这些Reads或碱基称为原始数据(Raw Data),其大部分碱基质量打分能达到或超过Q30。R... 阅读全文
posted @ 2015-12-31 17:23 SamYangBio 阅读(14454) 评论(0) 推荐(2) 编辑
摘要: 它支持各种各样的数据类型,包括基于芯片测序、二代测序数据和基因组注释数据等。整合基因组浏览器(IGV,Integrative Genomics Viewer)进行可视化浏览,它支持各种各式的数据类型,包括基于芯片测序、二代测序数据和基因。IGV具有以下特点: (1) 能在不同尺度下显示单个或多个R... 阅读全文
posted @ 2015-12-31 17:06 SamYangBio 阅读(2550) 评论(0) 推荐(0) 编辑
摘要: 常规转录组测序 样品类型:去蛋白并进行DNase处理后的完整总RNA样品需求量(单次): 植物和真菌样品:≥20 μg; 人、大鼠、小鼠样品:≥5 μg; 其他类型动物:≥10 μg; 原核生物样品:≥5μg。样品浓度: 植物和真菌样品:≥250 ng/μL; 人、大鼠、小鼠样品:≥6... 阅读全文
posted @ 2015-12-31 11:03 SamYangBio 阅读(1078) 评论(0) 推荐(0) 编辑
摘要: 一、使用GATK前须知事项:(1)对GATK的测试主要使用的是人类全基因组和外显子组的测序数据,而且全部是基于illumina数据格式,目前还没有提供其他格式文件(如Ion Torrent)或者实验设计(RNA-Seq)的分析方法。(2)GATK是一个应用于前沿科学研究的软件,不断在更新和修正,因此... 阅读全文
posted @ 2015-12-30 16:45 SamYangBio 阅读(9808) 评论(0) 推荐(1) 编辑
摘要: BSA(Bulked Segregant Analysis)又称混合群体分离分析法,是利用极端性状进行功能基因挖掘的一种方法。主要思想是将两个具有极端性状的群体进行混池测序,比较两个群体在多态位点(SNP)的Allele Frequency(AF)是否具有显著差异。以植物株高性状为例,收集株高处于两 阅读全文
posted @ 2015-12-30 16:15 SamYangBio 阅读(4140) 评论(0) 推荐(0) 编辑
摘要: 背景介绍GATK全称是The Genome Analysis Toolkit,是BroadInstitute(The Broad Institute, formerly the Broad Institute of MIT and Harvard, evolved from a decade of ... 阅读全文
posted @ 2015-12-28 10:44 SamYangBio 阅读(2102) 评论(0) 推荐(0) 编辑
摘要: 参考文章:http://weibo.com/p/23041883f77c940102vbkd?sudaref=passport.weibo.com软件连接:https://github.com/alexdobin/STAR/因为不连续的转录本结构,相对短的片段长度,和测序技术持续增加的通量,高通量R... 阅读全文
posted @ 2015-12-28 09:56 SamYangBio 阅读(3047) 评论(0) 推荐(0) 编辑
摘要: 什么是基因的可变剪切?有些基因的前体mRNA(pre-mRNA)通过不同的剪接方式(选择不同的剪接位点)产生不同的mRNA剪接异构体,这一过程称为可变剪接(或者选择性剪切)(Alternative Splicing)。常见的可变剪切可以分成6类:1、外显子跳跃(Exon Skipping)2、内含子... 阅读全文
posted @ 2015-12-27 11:04 SamYangBio 阅读(19859) 评论(0) 推荐(1) 编辑
摘要: 1、什么是高通量测序?高通量测序技术(High-throughput sequencing,HTS)是对传统Sanger测序(称为一代测序技术)革命性的改变, 一次对几十万到几百万条核酸分子进行序列测定, 因此在有些文献中称其为下一代测序技术(next generation sequencing,N... 阅读全文
posted @ 2015-12-25 12:45 SamYangBio 阅读(7142) 评论(0) 推荐(0) 编辑
摘要: 文章来源:http://www.cnblogs.com/emanlee/p/4562064.htmlVCF文件示例(VCFv4.2)##fileformat=VCFv4.2##fileDate=20090805##source=myImputationProgramV3.1##reference=f... 阅读全文
posted @ 2015-12-18 13:44 SamYangBio 阅读(1969) 评论(0) 推荐(0) 编辑
摘要: MMTx(MetaMap Transfer)是美国国家医学图书馆建立的用于文本数据挖掘的一种工具。下面以Medine格式数据为例介绍使用方法1、在PubMed数据库检索相关的文献。2、将数据结果保存为Medine格式数据。(Medine数据格式是医学上用于记录患者的患病机理等的方式)。保存过程如图。... 阅读全文
posted @ 2015-12-17 09:44 SamYangBio 阅读(949) 评论(0) 推荐(0) 编辑