2014年6月11日

细胞自动机【转】

摘要: 另类科学的核心技术是细胞自动机。乌尔姆(Stanislaw M. Ulam)和冯·诺伊曼(John von Neumann)为了研究机器人自我复制的可能性,在上个世纪50年代提出一种叫做细胞自动机(Cellular Automaton)的离散型动力系统(Discrete Dynamical Syst... 阅读全文

posted @ 2014-06-11 17:45 EasonCheng 阅读(7099) 评论(0) 推荐(0) 编辑

2014年5月8日

Clustering coefficient [转]

摘要: Clustering coefficient的定义有两种;全局的和局部的。全局的算法基于triplet。首先解释triplet。triplet 包含 open triplet 和 closed triplet 两种(A triplet is three nodes that are connecte... 阅读全文

posted @ 2014-05-08 13:24 EasonCheng 阅读(1308) 评论(0) 推荐(0) 编辑

2014年1月2日

Association Rule Mining【转】

摘要: Association rule mining 是数据挖掘中最活跃的研究方法之一,可以用来发现事情之间的联系,最早是为了发现超市交易数据库中不同的商品之间的关系。这里有一则沃尔玛超市的趣闻。沃尔玛曾今对数据仓库中一年多的原始交易数据进行了详细的分析,发现与尿布一起被购买最多的商品竟然是啤酒。借助数据仓库和关联规则,发现了这个隐藏在背后的事实:美国的妇女经常会嘱咐丈夫下班后为孩子买尿布,而30%~40%的丈夫在买完尿布之后又要顺便购买自己爱喝的啤酒。根据这个发现,沃尔玛调整了货架的位置,把尿布和啤酒放在一起销售,大大增加了销量。这里借用一个引例来介绍关联规则挖掘[1]。 表1 某超市的交易数据库 阅读全文

posted @ 2014-01-02 14:06 EasonCheng 阅读(1208) 评论(0) 推荐(0) 编辑

2013年2月28日

cufflinks

摘要: 在转录组高通量测序数据分析过程中,主要就是转录本的构建(拼接)及表达水平的衡量,其次还包括可变剪接之类的转录后修饰等研究分析。因此,做过RNA-seq转录组测序数据分析的童鞋们一定使用过或至少听说过Cufflinks这个软件。Cufflinks 利用TopHat比对的结果(alignments)来组装转录本,估计这些转录本的丰度,并且检测样本间的差异表达及可变剪接。这个软件其实是个套装,包括四个部分分别命名为:cufflinks、cuffcompare、cuffmerge及cuffdiff。TopHat-->Cufflinks-->cuffdiff转录组分析大致流程如下:第一步,m 阅读全文

posted @ 2013-02-28 14:39 EasonCheng 阅读(2462) 评论(0) 推荐(0) 编辑

TopHat

摘要: TopHat 是将 RNA-Seq 数据允许 gap 的 mapping 到 ref seq 上!是转录组分析的必备工具之一!此帖的内容涵盖了tophat的介绍,安装、使用、异常处理等,是tophat使用的完全手册!1,介绍转录组数据分析之tophat篇 http://seq.cn/1650-79TopHat是一个快速的寻找可变剪接的回贴工具。http://seq.cn/318-79适合打印:自己排版整理的PDF版Tophat Manual http://seq.cn/6365-792,安装部署二代测序数据分析流程系列贴(2)-- 安装tophat http://seq.cn/678-79to 阅读全文

posted @ 2013-02-28 14:35 EasonCheng 阅读(1360) 评论(0) 推荐(0) 编辑

RPKM

摘要: RNA-seq是透过次世代定序的技术来侦测基因表现量的方法,在衡量基因表现量时,若是单纯以map到的read数来计算基因的表现量,在统计上是一件相当不合理事,因为在随机抽样的情况下,序列较长的基因被抽到的机率本来就会比序列短的基因较高,如此一来,序列长的基因永远会被认为表现量较高,而错估基因真正的表现量,所以Ali Mortazavi等人在2008年提出以RPKM在估计基因的表现量。RPKM是将map到基因的read数除以map到genome的所有read数(以million为单位)与RNA的长度(以KB为单位)。其公式为:其中,total exon reads / mapped reads 阅读全文

posted @ 2013-02-28 14:26 EasonCheng 阅读(9200) 评论(0) 推荐(0) 编辑

2013年2月26日

RNA-seq 基本分析流程

摘要: 高通量测序技术,就是二代测序,已经成为现代生物学研究的一个较为常规的实验手段。这一技术的发展极大地推动了基因组学,表观基因组学以及翻译组学的研究。RNA-seq 通过测定稳定状态下的RNA样品的序列来对RNA样品进行研究,从而避免了许多之前研究手段的不足,比如象基因芯片或者 PCR 就需要背景知识。而且 RNA-seq 还可以触及以前无法研究的领域,比如复杂结构的转录体。RNA-seq可以应用于以下几个方面的研究,1. SNPs;2. novel transcripts;3. alternative splicing;4. RNA editing。但归根结底,RNA-seq最主要的分析还是筛选 阅读全文

posted @ 2013-02-26 18:20 EasonCheng 阅读(20645) 评论(2) 推荐(3) 编辑

2012年11月30日

NGS 常用名词 [转]

摘要: 什么是高通量测序?高通量测序技术(High-throughput sequencing,HTS)是对传统Sanger测序(称为一代测序技术)革命性的改变, 一次对几十万到几百万条核酸分子进行序列测定, 因此在有些文献中称其为下一代测序技术(next generation sequencing,NGS )足见其划时代的改变, 同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能, 所以又被称为深度测序(Deep sequencing)。什么是Sanger法测序(一代测序)Sanger法测序利用一种DNA聚合酶来延伸结合在待定序列模板上的引物。直到掺入一种链终止核苷酸为止。每一次 阅读全文

posted @ 2012-11-30 11:20 EasonCheng 阅读(1448) 评论(0) 推荐(1) 编辑

2012年11月22日

GPA的算法

摘要: In China, for most of the universities and colleges, and most of the high schools, the grading system is divided into five categories:A: Excellent (85-100%, 优秀) A :90-100% A-:85-89%B: Good (75-84%, 良好) B :80-84% B-:75-79%C: Satisfactory (65-74%,中等) C :70-74% C-:65-69%D: Pass (60-64%, ji-ge, "及. 阅读全文

posted @ 2012-11-22 09:20 EasonCheng 阅读(546) 评论(0) 推荐(0) 编辑

2012年11月8日

最大后验估计(Maximum-a-Posteriori (MAP) Estimation) 【转】

摘要: 最大后验估计是根据经验数据获得对难以观察的量的点估计。与最大似然估计类似,但是最大的不同时,最大后验估计的融入了要估计量的先验分布在其中。故最大后验估计可以看做规则化的最大似然估计。 首先,我们回顾上篇文章中的最大似然估计,假设x为独立同分布的采样,θ为模型参数,f为我们所使用的模型。那么最大似然估计可以表示为: 现在,假设θ的先验分布为g。通过贝叶斯理论,对于θ的后验分布如下式所示: 最后验分布的目标为: 注:最大后验估计可以看做贝叶斯估计的一种特定形式。 举例来说: 假设有五个袋子,各袋中都有无限量的饼干(樱桃口味或柠檬口味),已知五个袋子中两种口味的比例分别是 樱桃 1... 阅读全文

posted @ 2012-11-08 16:48 EasonCheng 阅读(18963) 评论(0) 推荐(2) 编辑

导航