上一页 1 ··· 20 21 22 23 24 25 26 27 28 ··· 38 下一页
摘要: What Ensembl genome version should I use for alignments? (e.g. toplevel.fa vs. primary_assembly.fa) 这是一个很细节也很实际的问题,到底用哪个版本? 参考: What Ensembl genome ve 阅读全文
posted @ 2018-03-25 19:40 Life·Intelligence 阅读(4642) 评论(0) 推荐(0) 编辑
摘要: 常见的ORF预测工具 Open Reading Frame Finder - NCBI ORF Finder - SMS OrfPredictor - YSU 基本概念 开放阅读框(英语:Open reading frame;缩写:ORF;其他译名:开放阅读框架、开放读架等)是指在给定的阅读框架中, 阅读全文
posted @ 2018-03-25 17:52 Life·Intelligence 阅读(9342) 评论(0) 推荐(0) 编辑
摘要: fai示例: http://www.htslib.org/doc/faidx.html offset比较让人费解,其实就是 bytes starting from zero,文件层次的属性,一般不需要关注。 有时需要将fasta转为bed,就是统计长度就好了,但是利用samtools faidx这个 阅读全文
posted @ 2018-03-25 16:12 Life·Intelligence 阅读(3986) 评论(0) 推荐(0) 编辑
摘要: 我们生信技能书有一篇介绍bedtools的文章,可以在微信里搜着看下,非常有用。 bedtools 用法大全 http://bedtools.readthedocs.io/en/latest/ gtf转bed用Linux命令完全可以实现,因为gtf每一行比较规律,不像fasta和fastq。 后面发 阅读全文
posted @ 2018-03-25 04:16 Life·Intelligence 阅读(13846) 评论(0) 推荐(0) 编辑
摘要: 做生物信息的一定要会利用常识的力量。 1. 对自己分析结果的把握 普通生物信息最大的弊端就是太依赖工具、算法这些东西,大部分的人平时其实都不知道自己用的工具到底是干嘛的,它能产生什么结果,更别说评价不同工具的优劣了。(主要也是工具太多了,有些也比较复杂)(建议有空还是看看工具的原理,大致了解就行,这 阅读全文
posted @ 2018-03-24 19:03 Life·Intelligence 阅读(461) 评论(0) 推荐(0) 编辑
摘要: 原文:Introduction to dnorm, pnorm, qnorm, and rnorm for new biostatisticians Today I was in Dan’s office hours and someone asked, “what is the equivalen 阅读全文
posted @ 2018-03-23 22:38 Life·Intelligence 阅读(783) 评论(0) 推荐(0) 编辑
摘要: 参考:Fitting a Model by Maximum Likelihood 最大似然估计是用于估计模型参数的,首先我们必须选定一个模型,然后比对有给定的数据集,然后构建一个联合概率函数,因为给定了数据集,所以该函数就是以模型参数为自变量的函数,通过求导我们就能得到使得该函数值(似然值)最大的模 阅读全文
posted @ 2018-03-23 22:02 Life·Intelligence 阅读(2047) 评论(0) 推荐(0) 编辑
摘要: 良心教程,非常通俗。 原文链接:https://www.jiqizhixin.com/articles/2018-01-09-6 什么是参数? 在机器学习中,我们经常使用一个模型来描述生成观察数据的过程。例如,我们可以使用一个随机森林模型来分类客户是否会取消订阅服务(称为流失建模),或者我们可以用线 阅读全文
posted @ 2018-03-23 19:43 Life·Intelligence 阅读(3268) 评论(0) 推荐(1) 编辑
摘要: 在做单细胞的时候,有很多基因属于noise,就是变化没有规律,或者无显著变化的基因。在后续分析之前,我们需要把它们去掉。 以下是一种找出highly variable gene的方法: The feature selection procedure is based on the largest d 阅读全文
posted @ 2018-03-23 17:54 Life·Intelligence 阅读(2772) 评论(0) 推荐(0) 编辑
摘要: igraph语法简单,画图快速。 Cytoscape专业,个性定制。 最终效果图: 当然也可以用Cytoscape来画。 参考:Network visualization with R Cytoscape http://www.360doc.com/content/17/0305/22/199137 阅读全文
posted @ 2018-03-22 14:15 Life·Intelligence 阅读(6481) 评论(0) 推荐(0) 编辑
摘要: Google了一下,现成的工具不多。 自己写代码也可以,就是速度肯定不快,而且每次写也很麻烦。 偶然看到QIIME的filter_fasta.py有这个功能,从name list中提取多个序列。 60w条序列瞬间就处理完了。 阅读全文
posted @ 2018-03-21 19:19 Life·Intelligence 阅读(2848) 评论(0) 推荐(0) 编辑
摘要: https://github.com/PacificBiosciences/GenomicConsensus GenomicConsensus 是pacbio开发的,我个人非常不喜欢pacbio开发的工具,很难用。 安装这个GenomicConsensus也是废了我快半条老命。 这个工具的目的:Co 阅读全文
posted @ 2018-03-20 01:07 Life·Intelligence 阅读(1345) 评论(0) 推荐(0) 编辑
摘要: 之前的文章:构建NCBI本地BLAST数据库 (NR NT等) | blastx/diamond使用方法 | blast构建索引 | makeblastdb 本地运行blast时,需要指定out format。 常见的网页版blast结果可以参照:Blast结果的详细解析 默认是0,也就是会输出比对 阅读全文
posted @ 2018-03-19 16:53 Life·Intelligence 阅读(16990) 评论(0) 推荐(0) 编辑
摘要: 工具推荐:https://github.com/openvax/gtfparse 真不敢相信,Linux自带的命令会这么强大,从gtf中提取出需要的transcript,看起来复杂,其实一个grep就搞定了。 本文出自于http://www.bioinfo-scrounger.com转载请注明出处 阅读全文
posted @ 2018-03-19 06:07 Life·Intelligence 阅读(5923) 评论(0) 推荐(0) 编辑
摘要: 注:这些工具的应用都是受限的,有些本来就是只能用于预测动物,在使用之前务必用ground truth数据来测试一些。我想预测某一个植物的转录本,所以可以拿已经注释得比较好的拟南芥来测试一下。(测试的结果还是比较惊人的) CPC (熟悉的名字,原来是北京大学的高歌、魏丽萍开发的) 搜文章时才发现201 阅读全文
posted @ 2018-03-18 04:42 Life·Intelligence 阅读(8231) 评论(0) 推荐(1) 编辑
摘要: EST:表达序列标签,expressed sequence tags 。 顾名思义,很好理解,就是表达出来的序列,即从基因组DNA上表达出来的RNA,但是我们没法测序RNA,所以我们最终测的是表达序列的cDNA片段。 “标签”:就是指这些序列可能比较短,但是可以用来标定一个物种。 常见下载方式有两种 阅读全文
posted @ 2018-03-16 16:54 Life·Intelligence 阅读(2760) 评论(0) 推荐(0) 编辑
摘要: RNA-seq数据的比对结果怎么解读?网上有很多人问,这里做一个大致的总结。 Hisat2和bowtie2比对后产生的Alignment summary的格式是一样的,如下: Alignment summary When HISAT2 finishes running, it prints mess 阅读全文
posted @ 2018-03-10 17:34 Life·Intelligence 阅读(16504) 评论(0) 推荐(1) 编辑
摘要: 转自:测序中国 由测序中国发起的“NGS十周年接龙”活动春节前的最后一波正在来袭。受华中科技大学生命科学与技术学院教授薛宇邀请,今天,由哈佛大学教授刘小乐来分享她与生物信息学的故事。 从北大到斯坦福,生物与计算机相遇 和很多人一样,在少年时期我就有了自己的梦想。我的哥哥比我大七岁,他进入中国农业大学的时候,我上五年级,是他把我带到了神奇的生物世界。在初中阶段,我的班主任是生物老师,我的生物学家梦想... 阅读全文
posted @ 2017-09-28 17:44 Life·Intelligence 阅读(4187) 评论(0) 推荐(1) 编辑
摘要: 转自:http://blog.csdn.net/abcjennifer/article/details/7359370 ROC曲线指受试者工作特征曲线 / 接收器操作特性曲线(receiver operating characteristic curve), 是反映敏感性和特异性连续变量的综合指标,是用构图法揭示敏感性和特异性的相互关系,它通过将连续变量设定出多个不同的临界值,从而计算出一系列敏感... 阅读全文
posted @ 2017-09-12 17:16 Life·Intelligence 阅读(9458) 评论(0) 推荐(0) 编辑
摘要: 之前一直对软件包的报错没有认识,因为用的都是一些软件工程设计非常好的软件(BWA、Numpy等)。就算是用Python、Perl、R也都是用一些非常常见的包,所以很难碰到奇葩的报错,你随便怎么用都不会卡住,因为设计者早就料想到了各种情况。 但现在开始研究单细胞,大家都自立门户开发自己的包,实际情况是 阅读全文
posted @ 2017-08-29 21:47 Life·Intelligence 阅读(915) 评论(0) 推荐(0) 编辑
上一页 1 ··· 20 21 22 23 24 25 26 27 28 ··· 38 下一页
TOP