摘要: 一、GTF文件格式 Fields must be tab-separated. Also, all but the final field in each feature line must contain a value; "empty" columns should be denoted wit 阅读全文
posted @ 2018-07-16 16:28 1直在路上1 阅读(644) 评论(0) 推荐(0) 编辑
摘要: 一、相同点 第一,LR和SVM都是分类算法(SVM也可以用与回归) 第二,如果不考虑核函数,LR和SVM都是线性分类算法,也就是说他们的分类决策面都是线性的。 这里要先说明一点,那就是LR也是可以用核函数的。总之,原始的LR和SVM都是线性分类器,这也是为什么通常没人问你决策树和LR什么区别,你说一 阅读全文
posted @ 2018-07-12 21:58 1直在路上1 阅读(4070) 评论(0) 推荐(0) 编辑
摘要: 一、circRNA序列提取 环状RNA (circRNA)是一类不具有 5' 末端帽子和 3' 末端 poly(A)尾巴、并以共价键形成环形结构的非编码 RNA 分子。 环状RNA (circRNA) 是区别于传统线性 RNA 的一类新型 RNA,大量存在于真核转录组中且表达具有时空特异性。在调控基 阅读全文
posted @ 2018-07-11 15:17 1直在路上1 阅读(1365) 评论(0) 推荐(0) 编辑
摘要: 一、提取fasta序列 已知参考基因组合一个bed文件区间,如何将该区间内的序列提取出来,以fasta格式保存,使用bedtools getfasta 阅读全文
posted @ 2018-07-11 15:04 1直在路上1 阅读(387) 评论(0) 推荐(0) 编辑
摘要: 一、一维高斯分布 先来看看一维正态(高斯)分布的公式:\( N(x|\mu,\sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}}exp[-\frac{(x-\mu)^2}{2\sigma^2}] \) 比如对334个人的身高进行统计,如下图: 学过大学高数的同学应该还记 阅读全文
posted @ 2018-07-10 17:43 1直在路上1 阅读(1556) 评论(0) 推荐(0) 编辑
摘要: 一、多个子图画法 import numpy as np import matplotlib.pyplot as plt data = pd.read_csv('zhcw.csv', header=None) x = data.iloc[:, 2:8] y = data.iloc[:, 8] plt. 阅读全文
posted @ 2018-07-06 17:10 1直在路上1 阅读(220) 评论(0) 推荐(0) 编辑
摘要: 一、什么是N-Gram N-Gram是一种统计语言模型,用来根据前(n-1)个item来预测第n个item。在应用层面,这些item字符(输入法应用)等。一般来讲,可以从大规模文本或音频语料库生成N-Gram模型。 习惯上,1-gram称为unigram,2-gram称为bigram,3-gram是 阅读全文
posted @ 2018-07-05 13:44 1直在路上1 阅读(1138) 评论(0) 推荐(0) 编辑
摘要: 一、TF-IDF简介 TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率)。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它 阅读全文
posted @ 2018-07-04 15:43 1直在路上1 阅读(329) 评论(0) 推荐(0) 编辑
摘要: 一、模型选择之AIC和BIC 人们提出许多信息准则,通过加入模型复杂度的惩罚项来避免过拟合问题,此处我们介绍一下常用的两个模型选择方法 赤池信息准则(Akaike Information Criterion,AIC)和贝叶斯信息准则(Bayesian Information Criterion,BI 阅读全文
posted @ 2018-07-04 09:23 1直在路上1 阅读(2083) 评论(0) 推荐(0) 编辑
摘要: 一、lambda函数的语法 lambda语句中,冒号前是参数,可以有0个或多个,用逗号隔开,冒号右边是返回值。lambda语句构建的其实是一个函数对象。 1》无参数: 2》有参数,无默认值 3》有参数,有默认值 4》和map, reduce, filter连用 阅读全文
posted @ 2018-07-02 10:33 1直在路上1 阅读(4030) 评论(0) 推荐(0) 编辑