Life·Intelligence

2017年7月27日

摘要： C/C++的速度是Python和perl所无法比拟的，尤其对于处理超大的生物信息学文件来说。最近在写一个最简单的fastq cut工具，Python简直慢到不能忍，8G的fastq.gz文件的cut需要6-7个小时，而C++则只需要15-20min，简直就不在一个量级。当然，听说Python有个cpython机制，可以加快速度，但和纯C++还是有差距的。 C++的编译比较复杂，这里只能做个... 阅读全文

posted @ 2017-07-27 15:15 Life·Intelligence 阅读(597) 评论(0) 推荐(0)

2017年7月26日

Linux crontab定时执行任务命令格式与详细例子（转）

摘要：基本格式 : * * * * * command 分　时　日　月　周　命令第1列表示分钟1～59 每分钟用*或者 */1表示第2列表示小时1～23（0表示0点）第3列表示日期1～31 第4列表示月份1～12 第5列标识号星期0～6（0表示星期天）第6列要运行的命令 crontab文件的一些例子： 30 21 * * * /usr/local/etc/rc.d/lightt... 阅读全文

posted @ 2017-07-26 14:56 Life·Intelligence 阅读(390) 评论(0) 推荐(0)

2017年7月25日

Python获取脚本所在目录的正确方法（转）

摘要： 1.以前的方法如果是要获得程序运行的当前目录所在位置，那么可以使用os模块的os.getcwd()函数。如果是要获得当前执行的脚本的所在目录位置，那么需要使用sys模块的sys.path[0]变量或者sys.argv[0]来获得。实际上sys.path是Python会去寻找模块的搜索路径列表，sys.path[0]和sys.argv[0]是一回事因为Python会自动把sys.argv[0]加入s... 阅读全文

posted @ 2017-07-25 17:39 Life·Intelligence 阅读(605) 评论(0) 推荐(0)

2017年7月21日

摘要： 2023年03月31日 cellranger pipeline基本是对的，但想要更原始的数据还是得自己手动count。这两批perturb-seq的问题在于，Plasmid的设计，无法区分原始的和编辑后的Plasmid，长度一样，于是做cell sorting的时候一大堆dummy cells就被阅读全文

posted @ 2017-07-21 16:19 Life·Intelligence 阅读(3883) 评论(0) 推荐(0)

2017年7月19日

Linux 替换^M字符方法

摘要：转自：http://blog.csdn.net/lhf_tiger/article/details/8203013 真恶心，10X流程产生的csv文件的行位居然有^M字符，害我一直在找报错原因，真是坑，还好最后我找出来了。一直在用Python，perl是越来越不熟练了。调试花了好久。替换^M字符在Linux下使用vi来查看一些在Windows下创建的文本文件，有时会发现在行尾有一些“^M”。有几... 阅读全文

posted @ 2017-07-19 22:02 Life·Intelligence 阅读(9879) 评论(0) 推荐(0)

2017年7月13日

Analysis of single cell RNA-seq data（单细胞终极课程）

摘要：业界良心啊，开源的单细胞课程。随便看了几章，课程写得非常用心，非常适合新手。课程地址：Analysis of single cell RNA-seq data 源码地址：hemberg-lab/scRNA.seq.course 阅读全文

posted @ 2017-07-13 10:56 Life·Intelligence 阅读(2067) 评论(0) 推荐(1)

2017年7月12日

scRNA-seq单细胞测序数据分析工具汇总

摘要：本文总结自一篇综述： Computational approaches for interpreting scRNA-seq data 单细胞分析分为两个层次： cell level gene level Tools for the visualization and clustering of cells. Tools for the ordering of cells & bifurca... 阅读全文

posted @ 2017-07-12 18:13 Life·Intelligence 阅读(8200) 评论(0) 推荐(0)

illumina phix

摘要： PhiX Control v3 is a reliable, adapter-ligated library used as a control for Illumina sequencing runs. The library is derived from the small, well-characterized PhiX genome, offering several benefits ... 阅读全文

posted @ 2017-07-12 09:56 Life·Intelligence 阅读(781) 评论(0) 推荐(0)

2017年7月11日

小提琴图解读 - 统计学

摘要：小提琴图现在比较流行，在文章里很常见。【小提琴图】其实是【箱线图】与【核密度图】的结合，【箱线图】展示了分位数的位置，【小提琴图】则展示了任意位置的密度，通过【小提琴图】可以知道哪些位置的密度较高。实例解析在上图中，白点是中位数，黑色盒型的范围是下四分位点到上四分位点，细黑线表示须。外部形状即为核密度估计（在概率论中用来估计未知的密度函数，属于非参数检验方法之一）。数据化分析解读：... 阅读全文

posted @ 2017-07-11 17:28 Life·Intelligence 阅读(17336) 评论(0) 推荐(0)

External RNA Controls Consortium (ERCC)

摘要： ERCC是啥？外部RNA控制联盟，就是一套RNA-seq，基因表达检测过程中的控制系统，使得结果具有可重复性。 RNA Spike-in Controls for Gene Expression While early gene expression measurements with DNA microarrays were groundbreaking in their ability to... 阅读全文

posted @ 2017-07-11 17:14 Life·Intelligence 阅读(1971) 评论(0) 推荐(0)

mRNA基本概念

摘要： mRNA是由DNA的一条链转录而来的（可以是正链，也可以是反链），DNA是由非编码区和编码区组成，编码区也有其特殊的结构，主要有外显子和内含子组成。 mRNA的一个重要性质就是可变剪切，也就是同一个编码区，可能会有不同的外显子组合。 mRNA的结构：5’端的帽子结构和3’端的polyA尾巴。 polyA和oligo（dT）是什么？它在mRNA纯化和反转录中有什么作用？传统mRNA差异显示技术（D... 阅读全文

posted @ 2017-07-11 15:01 Life·Intelligence 阅读(2524) 评论(0) 推荐(0)

2017年7月10日

生信算法实践

摘要：最近在搞16S，发现了一个实践算法的最佳机会。见文章： A Bayesian taxonomic classification method for 16S rRNA gene sequences with improved species-level accuracy. 文章利用了贝叶斯模型，调用了blast和muscle来对OTU进行taxonomy assignment。可以看一下源代... 阅读全文

posted @ 2017-07-10 16:58 Life·Intelligence 阅读(1707) 评论(0) 推荐(0)

2017年7月3日

摘要：杰卡德距离(Jaccard Distance) 是用来衡量两个集合差异性的一种指标，它是杰卡德相似系数的补集，被定义为1减去Jaccard相似系数。而杰卡德相似系数(Jaccard similarity coefficient)，也称杰卡德指数(Jaccard Index)，是用来衡量两个集合相似度的一种指标。 Jaccard相似指数用来度量两个集合之间的相似性，它被定义为两个集合交集的元素个数除... 阅读全文

posted @ 2017-07-03 11:07 Life·Intelligence 阅读(1739) 评论(0) 推荐(0)

2017年6月28日

OTU rank curve（Rank Abundance 曲线）【基本概念】

摘要： 16S结题报告中都会有这么一张图：这张图是OTU Rank曲线，该曲线可以展示样品的多样性。而样品的多样性常通过以下两个方面进行解释：物种的丰富程度和均匀程度。Rank曲线中，曲线在横轴上的跨度越长，表明样品的物种含量越丰富；曲线越平坦，表示样品的物种组成越均匀。图中，横坐标按照丰度由高至低排序的OTU数量，纵坐标为OTU丰度。样本曲线的延伸终点的横坐标位置为该样本的OTU数量。若曲线越平滑... 阅读全文

posted @ 2017-06-28 19:03 Life·Intelligence 阅读(8869) 评论(0) 推荐(0)

2017年6月20日

16S 基础知识、分析工具和分析流程详解

摘要：工作中有个真理：如果你连自己所做的工作的来龙去脉都讲不清楚，那你是绝对不可能把这份工作做好的。这适用于任何行业。如果你支支吾吾，讲不清楚，那么说难听点，你在混日子，没有静下心来工作。检验标准：随时向别人解释你的工作，让别人提出尖锐的问题，看你是不是答不上来。 16S概念什么是16S？S是什么意思？ 16S分析是用来干嘛的？能分析什么？ 16S大致的分析原理是什么？有点生物学基础的... 阅读全文

posted @ 2017-06-20 10:54 Life·Intelligence 阅读(70462) 评论(0) 推荐(1)

Django MySQL数据库操作

摘要：上一篇文章写了一些基本的Django操作，下面重点介绍数据库的内容。对象之间的关系：一对一一对多多对多 1.一对多先演示一对多的关系，多个blog对应一个名字，修改blog/models.py class Entry(models.Model): name = models.CharField(max_length=30) def __unicode... 阅读全文

posted @ 2017-06-20 01:42 Life·Intelligence 阅读(428) 评论(0) 推荐(1)

2017年6月18日

认识网页：html + css + JavaScript

摘要：参考资料：爬虫课程认识网页使用chrome，右键检查，查看网页源码，左侧的html，右侧的css，底下的JavaScript。网页 = HTML（内容） + CSS（样式） + JavaScript（功能）网页的标签，标签之间可以嵌套。 wow! 其中div就是区域，p就是文本，class就是css样式。常见标签 #文字内容 #区域 #列表 #图像 ... 阅读全文

posted @ 2017-06-18 21:16 Life·Intelligence 阅读(372) 评论(0) 推荐(0)

2017年6月17日

使用Python Django在Ubuntu下搭建数据库型网站

摘要：最近想做一个数据库网站，我对Python很熟悉，也了解到Django很好用，于是说搞就搞。首先，在快云上买了一个vps，一元试用一个月，Ubuntu系统。 1.安装Django apt-get update apt-get install python-pip python-dev build-essential python -m pip install django 安装的方法很多，可以自由... 阅读全文

posted @ 2017-06-17 02:15 Life·Intelligence 阅读(1547) 评论(0) 推荐(0)

2017年6月9日

使用mothur进行OTU聚类

摘要：微生物16S的OTU聚类工具有很多，最常用的就是 usearch、cdhit-OTU、mothur。这些工具大多都是针对二代测序平台的，usearch的64bit版本是收费的。如果要跑PacBio的OTU聚类，目前就只能用 mothur 了。 mothur有着非常详细的说明文档！ General operations Sequence processing OTU-based approac... 阅读全文

posted @ 2017-06-09 15:40 Life·Intelligence 阅读(6743) 评论(0) 推荐(0)

2017年5月26日

t-SNE 聚类

摘要：一个有效的数据降维的方法 t-SNE，类似PCA的主成分降维分析。参考： t-分布邻域嵌入算法（t-SNE algorithm）简单理解 t-SNE初学很好的教程：An illustrated introduction to the t-SNE algorithm 有点复杂额阅读全文

posted @ 2017-05-26 16:40 Life·Intelligence 阅读(2074) 评论(0) 推荐(1)

Digital-LI