h指数|JCR|ORCID|CCC|Research ID|BKCI|
摘要:h指数有如下缺点: 年龄大且平庸的学者比杰出的青年学者的h-index大。学科之间h指数的评价标准不同。有时候,审稿人暗示作者引用自己文章。 再此处可找到相关信息: JCR上可以查询到影响因子,以下是计算公式: 分母是所有出版物的数量,分子是Article review letter三大类文献的引用
阅读全文
MIAME|Highwire press
摘要:生物信息学 GEO可存储基因芯片数据,支持MIAME。MIAME是minimum information about a microarry experiment。这之中存储研究原始数据+标准化之后的数据+样本注释信息+实验设计信息+芯片注释信息+样本制备和数据处理信息,即所有证明研究流程可信度的信
阅读全文
Protein interaction|insight QUANTA|SYBYL COMPOSER|MODELLER|SWISS_MODEL|WHAT IF|3D-JIGSAW|CPH-ModelGPCRs|Membrane protein|
摘要:生命组学 蛋白质之间的互作可以有以下应用: Eg:改变蛋白质基因,从而组改变结构,削弱蛋白质之间的相互作用。 Eg:数据模拟出蛋白质的靶点,即结合腔,将此数据存入结合化合物的dataset,用于制药 结构预测: 通用方法:首先将得到序列采用Fasta(全局序列比对)&blast(局部序列比对)在PD
阅读全文
t分布|F分布|点估计与区间估计联系|
摘要:应用统计学 推断统计需要样本形容总体,就要有统计量。注意必须总体是正态分布,否则统计量的分布不能得到。卡方分布和t分布只要样本大于30都近似于正态分布。 t分布和F分布推导及应用(图): 总体比例是π,样本比例是p比例可用于计算患病率。近似就是均值和方差不发生改变,但是分布形式改变了,其实形状没发生
阅读全文
列表分析|卡方检验|适应性检验|独立性检验|
摘要:基于样本分布与理论分布之间的偏离程度构建统计量,得到一个统计量的抽样分布。 判断样本分布与理论分布之间的偏离程度是抽样误差还是实质性变化,具体而言就是样本值与理论值之间的差值是抽样误差造成的还是本身就这样。令样本统计量(O)与总体真值(E)之间的差值作为统计量,用平方(O-E)来表现样本分布与理论分
阅读全文
参数估计|无偏性|有效性|一致性|
摘要:生物统计学-参数估计 参数估计需要未知参数的估计量和一定置信度 估计方法:用点估计估计一个值;用区间估计估计值的可能区间和是该值的可能性。 对估计值的评价标准: 无偏性是估计量(不一定是样本均值)抽样分布的数学期望等与总体参数的真值。 有效是有时几组数据都是无偏的,但是此时有效数是方差最小的。 一致
阅读全文
署名|单位地址|Abstract
摘要:科研论文写作 如何署名单位地址 署名的作者要研究结果负责,其署名作为对所作贡献的认可。 参与设计实验想法,参与实验过程,参与起草论文或重大修改论文,或对论文定稿的学者拥有署名权。而资金资助&基金则放在致谢部分。 一作学者做出本研究90%的工作,主要参与者和实际主要制作者。最后一个作者是课题负责人,通
阅读全文
HHP|HPLC-MS/MS|PMT|PST|de novo|
摘要:生物医学大数据 Protein 应用 人类蛋白质组计划 Gene的存在要依靠在蛋白水平确认基因真实存在。 蛋白质组是确定时间地点的研究单元的蛋白质总体,因为时间、地点和研究单元的相互组合存在多种变化,所以蛋白质组是复杂功能和结构的基础。蛋白质组十分复杂,质谱中的高丰度易于分离所以易于研究,但其中低丰
阅读全文
两类错误
摘要:两类错误基于小概率事件仍可能发生,如下图所示: 例如:当H0成立时,p=0.03时,对于0.01来说,就是接受,此时正确概率为0.99;对于0.05就是拒绝,此时犯错误概率是0.05。 为什么α和β是此消彼长的关系???? 可以通过增大样本量减少一类二类错误,样本量不够要靠实验设计。
阅读全文
接受H0的坏处|试验误差|置信度由来|
摘要:生物统计与实验设计 置信度(0.05 0.01)是通过实验次数估计值的分布得到的,它是整个分布的期望,这个值的确立需要具体情况具体分析。 肯定很难,因为否定一次很容易。虽然如果没有否定(eg:得到p=0.03即服从0.01下的H0成立),但是仍存在0.01下H0不成立,从而在该置信度下接受H1假设。
阅读全文
化学键|甘氨酸|谷氨酸|半胱胺酸|motif|domain|疏水相互作用|序列相似性|clustering analysis|Chou and Fasman|GOR|PHD|穿线法|first-principle ab initio folding|
摘要:化学键|甘氨酸|谷氨酸|半胱胺酸|motif|domain|疏水相互作用|序列相似性|clustering analysis|Chou and Fasman|GOR|PHD|穿线法|first-principle ab initio folding| 生命组学 对Protein的分析可以从Seque
阅读全文
reduced penetrance|COPE-PCG
摘要:生物医学大数据 Case study 由Human genome project提出之后,提出的精准医学。它的初衷是将数据standard后easy应用,我国重要重在疾病预警和疗效评价。 在疾病预警上的案例包括新生儿筛查和致癌基因检测,安杰利娜朱莉做了一个乳腺癌早期诊断并去除风险的推动者。但是因为早
阅读全文
申请人资格|外国人申请|分类申请|申请在先|显著性
摘要:知识产权 商标法 申请人资格:申请人必须以使用为目的,因为很多自然人注册了商标,却用于圈地运动。多个主体申请同一个商标要明确。 外国人在国内申请商标相关政策与巴黎和会中的国民待遇标准有关系,即非国民不歧视。落实到具体条款,为三点:1.不使用与祖国有关的词汇2.外国有关词汇,但是如果外国同意,则可以使
阅读全文
group compare vs pair compare
摘要:成对总体检验是令y1=x11-x12;y2=x21-x22等,令新的随机变量y去做假设检验。此方法适用于排除物理因素影响,对差异更敏感,所以适用于小样本。而使用两个总体均值比较的方法适用于大样本。
阅读全文
两个总体的参数关系
摘要:区间估计 有偏或无偏是可以估计出来的,直接用公式计算得到。Eg:样本均值的均值是总体均值的无偏估计。总体离均差的均值是总体方差,但是样本离均差的均值不是总体方差的无偏估计,而样本方差是总体方差的无偏估计,所以采用样本方差计算总体方差。 当知道方差时,估计出的均值区间小,当不知道方差时,估计出的均值区
阅读全文
纳伪|去真
摘要:H0 真实正确却接受H1,即弃真的概率是α。因为设定小于α概率即是小概率事件,则小概率事件发生的概率是α,所以弃真的概率则是α。 H0 真实错误却接受H0;纳伪β 除非增大样本量,否则二者此消彼长。
阅读全文
Ho|H1|p-value|p值与U值|单侧检验
摘要:生物统计学 统计推断的过程: Ho:XXXX会发生 H1:XXXX不会发生 p:XXXX会发生的概率(概率计算过程),如果是小概率,则H0不可能发生,所以拒绝H0接受H1。 概率计算过程:先设定小概率事件发生概率α,计算得到p值(使用变量分布来计算),将α与p相比较,如果小于α则认定p是小概率,此事
阅读全文
统计分布近似转化
摘要:正态分布 两个变量独立与非独立情况下均值和方差不同: 独立则相关系数为0 近似条件图:
阅读全文
样本均值的标准误差|样本均值的标准差|总体标准差|样本标准差|简单随机抽样|样本均值估计|样本方差估计|
摘要:应用统计学 统计量与抽样分布 精确估计:当总体满足正态分布时。一个样本参数估计,估计总体均值时。 总体方差已知时,用样本均值满足抽样分布来估计,(其中,抽样分布是正态分布,抽样分布均值是总体均值,抽样分布方差是总体方差与样本数的比值)来估计,即如下式: 此方法的进阶版就是将样本均值写成Z分布形式,z
阅读全文
快速进入课题研究|最新进展|期刊情况|
摘要:应用 如何了解关于XXX研究方面的总体发展趋势? 找到引文分析,得到: 如何快速进入关于XXX的课题研究? 查询综述 如何快速定位关于XXX研究方面的研究论文?Web of science 类别 如何查找“Data Mining”(Pieter Adriaans and Dolf Zantinge,
阅读全文
basecalling|vector mark|Assembly的难题|
摘要:生物信息学 染色体可以据染色图谱判断染色体号码,1-22号染色体依次变短,它们影响机体发育,23号染色体决定性别。肿瘤是由于遗传密码变异造成的。因此,遗传密码的解读非常重要,但是因为遗传密码长度非常长,所以虽然已经全部测出来,但是破译它们依然存在很多难题。 生物信息学是一个学科领域,它的研究对象基因
阅读全文
Web of science|SCIE|影响因子|SSCI|高被引论文|领域中热点论文|
摘要:信息检索: 数据库 Web of science 影响因子只是针对期刊打分,并不是对文章打分。所以对文章评价可以看引用次数。 SCIE (Science Citation Index Expanded), 顾名思义为SCI索引的扩张版本。然而两者的期刊评选和期刊收录皆采用一致的标准,两者的主要不同在
阅读全文
数据检索|文献检索|事实检索|yandex|Title vs topic|检索技术|检索技巧|
摘要:信息检索: 信息检索原理是,将书写不规范的原始数据先存储,再通过归纳化or标准化手段进行拆分,便于用户搜索。 信息检索类型可依据数据内容进行分类,文献检索是通过输入关键字进入搜索引擎,搜索仅找到含有关键字符的文字,最后选择哪些文献由学者本身确定。数据检索是在相应数据库中直接找到准确数据,该检索的结果
阅读全文
mode|平均数|方差|标准差|变异系数|四分位数|几何平均数|异众比率|偏态|峰态
摘要:应用统计学 数据的概括性度量 集中趋势 Mode众数是唯一描述无序类别数据,由图可知众数便是图形中的峰。 对于类别变量,众数就是某一种类别。 中位数和平均数都可能不是样本中的值。 中位数不受极值影响,对于类别数据来说,中位数是某一类别(同mode),各变量值与中位数的离差绝对值之和最小,与均数不同。
阅读全文
radar chart
摘要:多变量数据 雷达图radar chart 如上图可知,雷达图的缺点是看不清,此时可采用线性变换(相差小)or对数变换(相差大)的方法使得图像展开。 但是第一幅图用于比价种类比较鲜明,而第二幅图虽然比较个体很清楚却不能比较种类,所以图像服务于研究的问题。 同样的,对于不同坐标变量的选择使得图形有不同,
阅读全文
植物基因组|注释版本问题|重测序vs泛基因组
摘要:生命组学: 细菌和其他物种比,容易发生基因漂移,duplication和重排。 泛基因组学研究的一般思路是通过comparison找到特殊基因区域orspecific gene,研究其调控机制(即通过一维发现特殊三维结构,再利用一维结构解释特殊结构的形成机制eg:基因保守与保守空间结构vs非保守空间
阅读全文
signals function|KNN|SVM|average linkage|Complete linkage|single linkage
摘要:生物医疗大数据 存在系统误差使得估计量有偏,如下图红色和蓝色图形,存在随机误差使得估计量并不是同一个值,如图中除去期望之外的曲线值,为了控制随机抽样造成的误差,可以使用p-value决定是否服从假设检验,判断两个变量之间相关性的有无。 相关系数:该系数广泛用于度量两个变量之间的线性相关程度。 建立模
阅读全文
supervised learning|unsupervised learning
摘要:监督学习即是supervised learning,原始数据中有每个数据有自己的数据结构同时有标签,用于classify,机器learn的是判定规则,通过已成熟的数据training model达到判断新点类型的目的。 非监督学习即是unsupervised learning,原始数据中没有附加标签
阅读全文
基金课题|论文字数
摘要:科研写作-论文标题 对于读者来说,阅读文献的一般顺序是从标题到摘要到图表,所以写好标题是至关重要的。 标题中所要包含的内容有研究对象、文章类型和研究价值,最好包含关键词,便于查询,从而便于阅读。 标题的要求有以下四点。 第一点,要求用词准确,能够准确描述研究范围,不夸大范围,也不缩小范围,重点是将关
阅读全文
无偏性|有效性|相合性|有方差的区间估计|无方差的区间估计|
摘要:生物统计与实验设计 三种评价标准 无偏性用来定性,保证估计量无方向性错误。即估计出的统计量的期望与该总体参数一致。 对于总体均值,矩估计和最大似然估计这两种方法得到的估计均值的期望与总体参数一致,是无偏的。对于总体方差,通过矩估计和最大似然估计这两种方法得到的估计出的参数方差的期望与总体方差不一致,
阅读全文
OA|开放获取期刊|掠夺性期刊|DOI|ORCID|图书馆服务|零次文献|信息素质|
摘要:OA|开放获取期刊|掠夺性期刊|DOI|ORCID|图书馆服务|零次文献| 信息检索 信息素质是什么? 信息素质是指一个人的信息需求、信息意识、信息知识、信息道德、信息能力方面的基本素质。 Some questions: OA是什么? OA:open access获取不用花费 在信息化时代,随着数据
阅读全文
知识产权|发明专利|商业秘密|知识产权年限|著作人身权|损害商标权|商号|商标|未注册商标
摘要:知识产权|发明专利|商业秘密|知识产权年限|著作人身权|损害商标权|商号|商标|未注册商标 知识产权的保护方式有两种,一是发明专利,二是商业秘密,知识产权的选择因不同需求各异。发明专利有保护期限问题20,过20年之后便会解密,成为公共知识产权,但是在保密期内保护力度大。商业秘密需要产生者或单位自己保
阅读全文
bubble chart|Matrix Scatter|Overlay Scatter|Scatterplots|drop-line|box plot|Stem-and-leaf plot|Histogram|Bar chart|Pareto chart|Pie chart|doughnut chart|
摘要:应用统计学 对类别数据要分类处理: Bar chart复式条形图便于对比: Pareto chart:对类别变量依据频数高低排列: Pie chart:饼图用于一个样本,可以区分类别数据 doughnut chart:环形图用于多个样本,可以区别类别数据 顺序数据:通过计算cumulative pe
阅读全文
中心极限定理|z分布|t分布|卡方分布
摘要:生物统计学 抽样分布:n个样本会得到n个统计量,将这n个统计量作为总体,该总体的分布即是抽样分布 根据辛钦大数定律,从一个非正态分布的总体中抽取的含量主n的样本,当n充分大时,样本平均数渐近服从正态分布。因此平均数的抽样分布对正态性的要求并不是十分严格,但方差的抽样分布,对总体的正态性的要求是十分严
阅读全文
伯努利大数定律|辛钦大数定律|全概率公式|贝叶斯公式|
摘要:恢复内容开始 生物统计学 古典概型: 理论上,在未得到试验结果之前可以根据实验条件,预先估计出来的所有可能结果称为样本空间,即为集合Ω。样本点w是Ω的一个元素。这是概率的古典定义,即依据事件本身特性,直接得到概率。这里得到的往往是先验概率。 随机事件是一个集合,是样本空间的一个子集。 必然事件是一个
阅读全文
链终止法|边合成边测序|Bowtie|TopHat|Cufflinks|RPKM|FASTX-Toolkit|fastaQC|基因芯片|桥式扩增|
摘要:生物信息学 Sanger采用链终止法进行测序 带有荧光基团的ddXTP+其他四种普通的脱氧核苷酸放入同一个培养皿中,例如带有荧光基团的ddATP+普通的脱氧核苷酸A、T、C、G放入同一个培养皿,以此类推,存在4种不同类型碱基的识别机制,同时,该ddXTP一旦结合在互补链上则会迫使复制停止。 高通量测
阅读全文
CPU|MICGPU|FPGA|超算|Meta-data|
摘要:生物医学大数据: 收集数据后对数据的分析,如同看相,而对数据信息的挖掘可以看作是算命。这两个过程是基于算法和软件这类工具之上的。 在存储方面:在硬件上,为了Parallel computing的目的,刚开始选择的处理器是multiple core,之后选择many integrated core a
阅读全文
CRISPR/Cas9|InParanoid|orthoMCL|PanOCT|pan genome|meta genome|Core gene|CVTree3|
摘要:生命组学: 泛基因组学:用于描述一个物种基因组,据细菌基因组动力学,因为细菌的基因漂移使得各个细菌之间的基因组差异很大,(单个细菌之间的基因组差异是以基因为单位的gain&loss,而人类基因组,在个体角度两个人之间基因组差异不到1%,主要是SNP,所以CRISPR/Cas9也由细菌得来),所以转而
阅读全文
SRA|GEO|Taxonomy|Pubmed|MeSH|EBI|Uniprot|Human project|Ensembl|UCSC
摘要:生物医学大数据: SRA:Sequence Read Archive (SRA) makes biological sequence data available to the research community to enhance reproducibility and allow for n
阅读全文
h-index|IF|Good story|IPS
摘要:科研论文写作 科研论文写作的关键在于写出研究的重要性。 对科研工作者的评价标准主要以论文为主,可以从论文的定性和定量角度评价。论文的外部评价,包括科学院分区(包括123类);影响因子IF,可以通过web of science查找影响因子;h-index,可以通过eigenfactor或者Google
阅读全文
optogenetics|
摘要:Bird &optogenetics&day&night 光遗传学(optogenetics)——结合遗传工程与光来操作个别神经细胞的活性,发现脑部如何产生γ波(gamma oscillations),并为它们在调控脑部功能中的角色提供新证据,这将有助于发展一系列脑相关失调的新疗法。 referen
阅读全文
抽样分布|t分布|中心极限定理|点估计|矩估计|最大似然法|
摘要:生物统计与实验设计-统计学基础-2&区间估计-1 正态分布参数:均值和方差 其中,选择1d是因为好算;通常,95%区分大概率事件和小概率事件, 当总体是正态分布时,可以利用常用抽样分布估计出样本参数: 抽样分布是样本估计量是样本的一个函数,在统计学中称作统计量(这就是说,统计量由样本值计算得到),因
阅读全文
数据挖掘|统计的艺术
摘要:生物统计预实验设计-主要概念和内容 统计(statistics)一词来源于State政府,因为最早通常是政府利用统计学来统计数据。 我们在使用统计学工具时,需要从科学和艺术的角度思考它和研究内容的契合度。 统计学不仅仅是科学还是艺术,它是科学这一点毋庸置疑,它的艺术体现在数据和人的不确定上,数据永远
阅读全文
变量类型|数据类型|统计特征|
摘要:生物统计学-描述统计 首先必须明确:生物实验的总体是无穷个,而研究人员做生物实验得到的数据永远是样本。因为不同类别的变量指向不同的统计方法,所以必须首先明确变量类型。 变量类型有: 其中,类别变量的本质是字符串,数值变量的本质是数值型,所以,虽然有些类别变量表现为数字,但将它们做运算的结果是没有任何
阅读全文
RNA sequence单分子直测技术
摘要:生命组学 按照功能分类遗传物质,可能的分类有系统流、操作流、平衡流等等。下面是使用该理论解释DNA与RNA的关系: DNA和RNA有很大不同,DNA存储遗传信息,作为生命活动的最内核物质,如同操作系统内核一样,因而被称为系统流。依据中心法则得到的翻译得到RNA,RNA再翻译成蛋白质,蛋白质用于生命活
阅读全文
一次数据库|二次数据库|
摘要:生物医学大数据-组学数据资源 困境: 经过human genome project之后得到了Book of life,但是测得base仅仅是生物信息学分析的开始,因为发现了数据的几个重要特点。首先是数据量过大,虽然科学家想通过不同组学角度(组学也随着数据量的增多层层细化和深入)来简化和系统解读过程,
阅读全文
SAGE|DNA微阵列|RNA-seq|lncRNA|scripture|tophat|cufflinks|NONCODE|MA|LOWESS|qualitile归一化|permutation test|SAM|FDR|The Bonferroni|Tukey's|BH|FWER|Holm's step-down|q-value|
摘要:生物信息学-基因表达分析 为了丰富中心法则,研究人员使用不断更新的技术研究lncRNA的方方面面,其中技术主要是生物学上的微阵列芯片技术和表达数据分析方法,方方面面是指lncRNA的位置特征。 Background:根据中心法则,发现DNA与RNA与protein之间的关系,此时认为找到的RNA全部
阅读全文
统计学推荐书目
摘要:生物统计与实验设计-绪论 重点在于理解统计学含义而非掌握各种处理方法的细节,同时加入各种视角,无论在统计学还是生物学方面。 除统计学教材外,推荐了以下书籍: 其中, 女士品茶:经典统计学历史(客观),可以通过历史明白如今的统计学框架的来源,以此从人的角度理解它。 数理化通俗演义:故事格局和横向视角
阅读全文
残差|分布与模型相对应
摘要:生物统计学-绪论 统计学是利用有效方法(简单和包含最多信息)来计划和分析带有随机影响(eg1:局部数据;eg2:残差:不能解释的误差)的数据的方法。其中有效方式是指实验设计和抽样理论。首先必须明确实验设计,它先明确问题(考虑影响和适用方法(eg,抽样理论)),再讨论(全面考虑相关因素),最后明确实验
阅读全文
研究流程|相关非因果|概率论与统计的关系
摘要:应用统计学-绪论 为什么要统计? 因为事物存在随机性,没有随机性便没有统计。 统计学是对收集到的数据分析并解释的学科,具体流程如下图: 按照做研究的流程来看: 1.数据收集阶段,最为重要的是结合你所要研究的问题寻找统计学方法,在确定了这两点之后,再制定收集数据的方案。需要注意的是,统计数据量不可以过
阅读全文