摘要: 虽然现在能在Linux系统下生存,但是自觉效率太低,和高手有很大的差距。 这就是关于Linux的知识太过匮乏,有很多事情知道该怎么做,但是就是没法在Linux下实现,为了提升工作效率,必须要接触Linux高级技巧 Linux的东西比较深,没法一下学完,所以只要能掌握生信必备的基础就好了。 一些主要的 阅读全文
posted @ 2016-10-20 11:08 Life·Intelligence 阅读(645) 评论(0) 推荐(0) 编辑
摘要: 之前学过perl,深知perl在模式匹配方面的强大,现在想完全转到python,虽说python的模式匹配没有perl那么强大,但还是可以用的,只是需要一个熟悉的过程。 参考资料: Python正则表达式指南 cnblog - 非常详细 阅读全文
posted @ 2016-10-20 11:03 Life·Intelligence 阅读(2041) 评论(0) 推荐(0) 编辑
摘要: python的一个核心优势就是模块多,有了模块你的编程工作就轻松了,不必从头开始造轮子,直接使用模块就能成为高手。 系统模块(sys) 操作系统接口模块(os) 数学模块(math) 正则匹配模块(re)参照:Python正则表达式指南 读文件模块(fileinput)参照:Python中fileinput模块介绍 读写压缩文件模块(gzip)参照:gzip — Suppo... 阅读全文
posted @ 2016-10-20 10:50 Life·Intelligence 阅读(546) 评论(0) 推荐(0) 编辑
摘要: sam格式很精炼,几乎包含了比对的所有信息,我们平常用到的信息很少,但特殊情况下,我们会用到一些较为生僻的信息,关于这些信息sam官方文档的介绍比较精简,直接看估计很难看懂。 今天要介绍的是如何通过bam文件统计比对的indel和mismatch信息 首先要介绍一个非常重要的概念--编辑距离 定义:从字符串a变到字符串b,所需要的最少的操作步骤(插入,删除,更改)为两个字符串之间的编辑距离。... 阅读全文
posted @ 2016-10-19 17:12 Life·Intelligence 阅读(3357) 评论(0) 推荐(0) 编辑
摘要: 视频地址: 《开讲啦》 20160910 颜宁:女科学家去哪儿了? 果然是女神科学家,讲了一些我很感兴趣的东西,让我也体会到了女神的气质,有点感触,这个节目不错,可以追。 颜宁教授于2016年5月中旬应央视之邀,在《开讲啦》节目中为我们描述了从结构生物学角度看到的世界,分享了她的科研经历和科研心得, 阅读全文
posted @ 2016-10-07 21:18 Life·Intelligence 阅读(1886) 评论(0) 推荐(0) 编辑
摘要: 2023年02月04日 现在又回头来处理fasta,读取可以用pysam,可以很省力,输出就用python,因为结构很简单。 import pysam all_fasta = pysam.FastaFile("all.human.protein.fasta") all_fasta.reference 阅读全文
posted @ 2016-09-26 12:58 Life·Intelligence 阅读(11227) 评论(0) 推荐(1) 编辑
摘要: 编程只有不断练习才能掌握其精髓,多练练网上的习题和项目,才能掌握python的精髓。 Python的模块和包是出了名的多,因此你不必自己从底层开始写起,只需要看懂模块和包的使用文档就可以了,因此掌握一些模块的基本使用方法是非常有必要的,举一反三,到最后无师自通。 参考链接: Python 的练手项目有哪些值得推荐? show-me-the-code 第 0000 题:将你的 QQ 头像(或... 阅读全文
posted @ 2016-09-10 21:57 Life·Intelligence 阅读(5549) 评论(0) 推荐(0) 编辑
摘要: 先不要想其他的,首先要在大脑里形成概念! 最大似然估计是什么意思?呵呵,完全不懂字面意思,似然是个啥啊?其实似然是likelihood的文言翻译,就是可能性的意思,所以Maximum Likelihood可以直接叫做最大可能性估计,这就好理解了,就是要求出最大的可能性(下的那个参数)。 一些最基本的概念:总体X,样本x,分布P(x;θ),随机变量(连续、离散),模型参数,联合分布,条件分布 ... 阅读全文
posted @ 2016-08-30 15:32 Life·Intelligence 阅读(1744) 评论(0) 推荐(0) 编辑
摘要: 看起来名字很陌生,但其实做机器学习的时候经常用到这个统计方法。 这个就是做回归时,用来拟合最优线性模型的方法。 参考链接: 最小二乘法 - CSDN 最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用于曲线拟合。其他一些优化问题也可通过最小... 阅读全文
posted @ 2016-08-30 15:32 Life·Intelligence 阅读(1327) 评论(0) 推荐(0) 编辑
摘要: 看一个通俗的解释: HMM模型就是这样一个系统——它有一个会随时间改变的隐藏的状态,在持续地影响它的外在表现。 A tutorial on Hidden Markov Models and selected applications in Speech recognition python包: hm 阅读全文
posted @ 2016-08-30 15:28 Life·Intelligence 阅读(778) 评论(0) 推荐(0) 编辑
摘要: 近期,由于项目需求,需要用到贝叶斯定理及其相关知识,于是又系统的学习了一下,顺便做一下笔记。 参考资料: 概率论与数理统计的基础知识,这个PPT讲得非常通俗易懂,复习大学学过的知识 算法杂货铺——分类算法之朴素贝叶斯分类(Naive Bayesian classification) 理论讲的非常详细清楚 朴素贝叶斯的学习与分类 讲的非常精炼,代码用python实现得比较好 代码(非常详细的注... 阅读全文
posted @ 2016-08-30 11:00 Life·Intelligence 阅读(537) 评论(0) 推荐(0) 编辑
摘要: 参考链接:数据结构探险之图篇 阅读全文
posted @ 2016-08-24 00:06 Life·Intelligence 阅读(174) 评论(0) 推荐(0) 编辑
摘要: 参考链接:数据结构探险之树篇 阅读全文
posted @ 2016-08-24 00:05 Life·Intelligence 阅读(169) 评论(0) 推荐(0) 编辑
摘要: 参考链接:数据结构探险之线性表篇 线性表 阅读全文
posted @ 2016-08-23 23:48 Life·Intelligence 阅读(241) 评论(0) 推荐(0) 编辑
摘要: 参考链接:数据结构探险—栈篇 学了队列之后,栈就很简单了,换汤不换药。 栈 栈的模型 后进先出(电梯,进制转换,括号的匹配检测) 栈的基本元素 栈顶,栈底(一般很少用到),栈容量,栈长度 注意:栈顶一般指向栈最后一个元素的下一位 标准C++代码 //MyStack.h #pragma once class MyStack { public: M... 阅读全文
posted @ 2016-08-23 22:24 Life·Intelligence 阅读(624) 评论(0) 推荐(0) 编辑
摘要: 参考链接:数据结构探险—队列篇 数据结构太重要了,不学好是没法进行软件开发的。 C++写数据结构基本套路:一个.h文件写该数据结构类的接口;一个.cpp文件写接口的具体实现;一个main.cpp用于测试。 队列 队列的模型 想象一下现实生活中的队列,排队先入先出,不允许插队,队头先出,队尾进入。(应 阅读全文
posted @ 2016-08-23 15:47 Life·Intelligence 阅读(2280) 评论(0) 推荐(1) 编辑
摘要: 索引 1.统计fasta、fa和fastq文件的长度,统计fastq的reads个数,单个reads长度,reads总长度;统计fasta文件中contig的个数,列出名称,单条的长度,以及总长度。 2.1局部组装:创建目录,将比对好的reads按100k为单位,用samtools切,并用awk工具提起reads,分别存放在对应文件夹内 2.2局部组装:用得到的reads_name,去原始的下... 阅读全文
posted @ 2016-08-11 16:17 Life·Intelligence 阅读(5253) 评论(0) 推荐(0) 编辑
摘要: 学生信,Linux是最最基本的技能,要尽量将自己的工作平台转移到Linux,编程写脚本,这样会极大的提升工作效率,找工作时也不会太怂。Linux所有的任务都是通过命令来完成的,具有高度的统一性。Linux命令多,不可能都会,根据具体需求掌握部分即可。 awk文本处理利器,可以结合for进行批量处理。 阅读全文
posted @ 2016-08-11 11:04 Life·Intelligence 阅读(721) 评论(0) 推荐(0) 编辑
摘要: install Bio::SeqIO 或者直接perl -MCPAN -e 'install Excel::Writer::XLSX' 用cpan装不上,编译有问题,尝试用conda,成功安装。 然后还需要导出perllib,让perl能找到指定的pm包。 同时学perl、python和shell脚 阅读全文
posted @ 2016-08-10 01:39 Life·Intelligence 阅读(2397) 评论(0) 推荐(0) 编辑
摘要: Falcon Falcon: a set of tools for fast aligning long reads for consensus and assembly The Falcon tool kit is a set of simple code collection which I use for studying efficient assembly algorithm f... 阅读全文
posted @ 2016-08-01 09:23 Life·Intelligence 阅读(1736) 评论(0) 推荐(0) 编辑
TOP