Fixation index
摘要::或者1、简单介绍 固定指数(FST)是一种由遗传结构决定的种群分化指标。它通常是由遗传多态性数据,如单核苷酸多态性(SNP)或微卫星估计。作为莱特f统计的一个特例,它是种群遗传学中最常用的统计方法之一。 2、Definition 两个最常用的FST定义是基于群体间等位基因频率的方差,以及由血统决定
阅读全文
GO注释
摘要:1、GO资源简介 由于生物系统的惊人复杂性和需要分析的数据集的不断增加,生物医学研究越来越依赖于以可计算的形式存储的知识。基因本体论(GO)项目为基因功能和基因产物的可计算知识提供了目前最全面的资源。GO知识库由两个主要部分组成: 基因本体论Gene Ontology (GO),提供了生物功能(“术
阅读全文
beebase
摘要:1、简单介绍 BeeBase是一个在线生物信息学数据库,显示与Apis mellifera、欧洲蜜蜂以及一些病原体和其他物种有关的数据。它是与蜜蜂基因组测序联盟合作开发的。BeeBase是蜜蜂研究社区的一个综合序列数据源。目前寄主的基因组有蜜原Apis及其三种病原菌,以及Bombus terreli
阅读全文
awk
摘要:1、基本操作模式 awk 'BEGIN{ print "start" } pattern{ commands } END{ print "end" }' file 一个awk脚本通常由:BEGIN语句块、能够使用模式匹配的通用语句块、END语句块3部分组成,这三个部分是可选的。任意一个部分都可以不出
阅读全文
ggplot2
摘要:应用与: http://www.cnblogs.com/batteryhp/p/5232353.html 由于python中matplotlib包的画图功能比较基本,不怎么炫酷,所以想用R中的ggplot2来作图。用mysql作为数据中介,可以让python和R共享数据,这样数据处理起来能发挥各自优
阅读全文
NCB之taxonomy系列
摘要:1、taxonomy之简介 生物分类学是研究生物系统的一种强有力的组织原则。遗传、共同遗传的同源性以及在确定功能时保护序列和结构,这些都是生物学的中心思想,直接关系到任何一组生物体的进化史。因此,分类法在许多NCBI工具和数据库中扮演着重要的交联角色。NCBI分类法数据库是对GenBank中表示的所
阅读全文
NCBI之gene系列
摘要:1、基因系列中的data索引 2、基因ID之间的转换 对于生信,依托于别人的工具不如自己动手,由于研究发表的滞后性,往往很多工具提供的转换并不是最新的,况且开发者水平也参差不齐,理解原理才能让你来去自如。 今天主要记录几个ID转换的方式: 以果蝇为例 详细的了解阅读下面:ftp://ftp.ncbi
阅读全文
notepad++查看二进制文件
摘要:1、进入以下网址去下载 https://sourceforge.net/projects/npp-plugins/files/Hex%20Editor/Hex%20Editor%20Plugin%20v0.9.5/ 2、
阅读全文
orthodb
摘要:1、数据库 orthodb数据: 2、odb10v0_levels.tab: 1. level NCBI taxonomy id 2. scientific name 3. total non-redundant count of genes in all underneath clustered
阅读全文
昆虫
摘要:http://www.tolweb.org/Arthropoda Hexapoda(六足类) Crustacea(甲壳类) Pauropoda(少脚纲) Myriapoda(多足类) Diplopoda(倍足纲) Chilopoda(唇足亚纲) Symphyla(综合纲) Arachnida(蛛形纲
阅读全文
用R理解统计学
摘要:1、随机变量( random variable)概念的引入 该数据来自杰克逊实验室。2组数据,每组12只老鼠,一组普通食物,另一组高脂肪(hf)饮食。几周后,科学家们称了每只老鼠的体重,得到了这个数据: 因此,食用hf的小鼠体重增加了10%我们做了什么?为什么我们需要p值和置信区间?原因是这些平均值
阅读全文
Maximum Likelihood及Maximum Likelihood Estimation
摘要:1、What is Maximum Likelihood? 极大似然是一种找到最可能解释一组观测数据的函数的方法。 在基本统计学中,通常给你一个模型来计算概率。例如,你可能被要求找出X大于2的概率,给定如下泊松分布:X ~ Poisson (2.4)。在这个例子中,已经给定了你泊松分布的参数 λ(2
阅读全文
R包和python对应的库
摘要:数据库 IO类 统计类 描述性统计 回归(包括统计和机器学习) 假设检验 时间序列 生存分析 机器学习类 分类器 LDA、QDA SVM(支持向量机) 基于临近 贝叶斯 决策树 Assemble方法 聚类 关联规则 神经网络 概率图模型 文本、NLP 基本操作 主题模型 与其他分析/可视化/挖掘/报
阅读全文
Wilcoxon Signed Rank Test
摘要:1、Wilcoxon Signed Rank Test Wilcoxon有符号秩检验(也称为Wilcoxon有符号秩和检验)是一种非参数检验。当统计数据中使用“非参数”一词时,并不意味着您对总体一无所知。这通常意味着总体数据没有正态分布。如果两个数据样本来自重复观察,那么它们是匹配的。利用Wilco
阅读全文
Parametric Statistics
摘要:1、What are “Parametric Statistics”? 统计中的参数指的是总体的一个方面,而不是统计中的一个方面,后者指的是样本的一个方面。例如,总体均值是一个参数,而样本均值是一个统计量。参数统计检验对总体参数和数据的分布进行假设。这些类型的测试包括学生的T测试和方差分析测试,假设
阅读全文
Chi-Square Statistic/Distribution
摘要:、 1、What is a Chi Square Test? 卡方检验有两种类型。两者使用卡方统计量和分布的目的不同。 第一种:卡方拟合优度检验确定样本数据是否与总体匹配。(这里不介绍) 第二种:独立性的卡方检验比较列联表中的两个变量,看看它们是否相关。在更一般的意义上,它测试分类变量的分布是否不同
阅读全文
Z-Score
摘要:1、 What is a Z-Score? 简单地说,z分数就是数据距离均值有多少个标准差。但更严格地说,它衡量的是一个数值偏离总体均值以上或以下多少个标准差。z分数也称为标准分数,可以放在正态分布曲线上。z分数范围从-3个标准差(落在正态分布曲线的最左边)到+3个标准差(落在正态分布曲线的最右边)
阅读全文
T分布(T-Distribution)
摘要:1、What is the T Distribution? T分布(也叫Student 's T分布)是一组与正态分布曲线几乎相同的分布,只是更短更胖一点。当有小样本时,使用t分布而不是正态分布。样本容量越大,t分布越接近正态分布。事实上,对于大于20的样本容量(如自由度),其分布与正态分布几乎完全
阅读全文
Confidence Interval
摘要:1、what is the Definition of a Confidence Interval? 置信区间是特定统计量的不确定性。置信区间通常有误差范围。它告诉你,你有多大的信心,从民意调查或调查的结果,反映出你会发现什么,如果有可能调查整个群体。置信区间与置信水平(confidence lev
阅读全文