摘要:
NLTK 大概是最知名的Python自然语言处理工具了,全称"Natural Language Toolkit", 诞生于宾夕法尼亚大学,以研究和教学为目的而生,因此也特别适合入门学习。NLTK虽然主要面向英文,但是它的很多NLP模型或者模块是语言无关的,因此如果某种语言有了初步的Tokenizat 阅读全文
摘要:
从 python 第三方库列表下载安装包 https://www.lfd.uci.edu/~gohlke/pythonlibs/ 然后使用 pip 进行安装 软件会自动安装到 python 安装路径的 scripts 目录下 使用 方法一 双击这两个应用程序 方法二 python -m IPytho 阅读全文
摘要:
在pypi中搜索相应的模块 直接使用 pip install 包名 的方法安装 下载第三方安装包 下载地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/ 根据系统 python版本下载相应的安装包 进入安装包的存放路径 然后使用 pip 进行安装 测试 阅读全文
摘要:
Sevlet 下载pdf文件 支持中文文件名 部署描述符 阅读全文
摘要:
第一步 下载并安装 Python 并将Python 添加到环境变量中 第二步 下载并安装 VSCode 官网下载即可 第三步 安装插件 第四步 选择一个Python解释器 在 VSCode 中,通过打开命令选项板(Ctrl+Shift+P)选择Python3解释器。 开始键入 python,选择 I 阅读全文
摘要:
以安装pandas为例: 如:pip install scrapy 时出现: error: Microsoft Visual C++ 14.0 is required. Get it with “Microsoft Visual C++ Build Tools”: http://landinghub 阅读全文
摘要:
调用库 获取 Path 的文件名 Path.name 参考 https://blog.csdn.net/amanfromearth/article/details/80265843 阅读全文
摘要:
参考下面教程 有空再整理 https://jingyan.baidu.com/article/7082dc1cd77899e40b89bd5a.html http://www.360doc.com/content/19/0614/23/7669533_842507326.shtml 【科研猫·绘图】 阅读全文
摘要:
下载 AI 的破解版 我这里用的是 Adobe_Illustrator CC 2019 Lite 精简特别版 V23.0.2 简体中文版 64位 安装略 新建文档 通常是 A4 图形绘制 选择 矩形工具,新建一个矩形,然后使用 移动工具 移动这个矩形 使用 文字工具,在这张图上新建文字,命名为 Fi 阅读全文
摘要:
jinja2 是 Flask 作者开发的一个模板系统,起初是仿 django 模板的一个模板引擎,为Flask提供模板支持,由于其灵活、快速、安全等优点被广泛使用。 官网:https://pypi.org/project/Jinja2/ 下载安装:pip install Jinja2 jinja2 阅读全文
摘要:
package test_java; import java.io.BufferedReader; import java.io.File; import java.io.FileOutputStream; import java.io.FileReader; import java.io.IOException; import java.util.Arrays; import jav... 阅读全文
摘要:
GEOquery 是 bioconductor 项目下的一个R包 官网:http://www.bioconductor.org/packages/release/bioc/html/GEOquery.html 下载安装: GEO 是由NCBI负责维护的一个数据库,期初是有芯片数据,后来增加了甲基化芯 阅读全文
摘要:
下载安装 affy 包为 Bioconductor 之中一个用于数据预处理的包。 affy 包的功能只有一个:读取 affymetrix 的基因表达芯片数据,即CEL格式文件,然后处理成表达矩阵。 先解释以下为什么这个包叫这个名字,这是因为affy其实是一个生产芯片的公司,这个公司做的芯片所产生的的 阅读全文
摘要:
apply() 函数算是R语言中很基础的一个函数,同时还有 sapply() lapply() tapply() 函数精简了 apply() 函数的用法。 apply() 函数是一个很R语言的函数,可以起到很好的替代冗余的for循环的作用,R语言中的循环操作for和while都是基于R语言本身来实现 阅读全文
摘要:
对于继承自己的class,父类可以认为他们都是自己的子女,而对于和自己都在同一个目录下的class,可以认为都是自己的朋友。 public:对所有用户开发,所有用户都可以直接调用 private:自己私有。除了自己之外,任何人都不可以直接使用。 protected:对于子女、朋友来说,是public 阅读全文
摘要:
何为功能富集分析? 功能富集分析是将基因或者蛋白列表分成多个部分,即将一堆基因进行分类,而这里的分类标准往往是按照基因的功能来限定的。换句话说,就是把一个基因列表中,具有相似功能的基因放到一起,并和生物学表型关联起来。 何为GO和KEGG? 为了解决将基因按照功能进行分类的问题,科学家们开发了很多基 阅读全文
摘要:
setwd("GSE29431_RAW") # 进入目录 fileNames <- list.files() # 获取目录下的所有文件sapply(fileNames, gunzip) # 进行解压操作,fileNames是一个向量,gunzip是解压缩的函数,sapply()会依次将fileNames中的元素应用gunzip函数 阅读全文
摘要:
将 html 转为 pdf :wkhtmltopdf wkhtmltopdf 是一个使用 webkit 网页渲染引擎开发的用来将 html 转成 pdf 的工具,可以跟多种脚本语言进行集成来转换文档。 官网:https://wkhtmltopdf.org/ github网址:https://gith 阅读全文
摘要:
R 语言的参数传递是按照引用传递的,二者共享内存 如果想要按值传递 使用函数 copy() 阅读全文
摘要:
使用在线绘图工具 https://bioinfogp.cnb.csic.es/tools/venny/index.html http://www.biovenn.nl/index.php http://bioinformatics.psb.ugent.be/webtools/Venn/ 使用 R 语 阅读全文
摘要:
Circos官网 http://circos.ca 在线绘图工具 http://mkweb.bcgsc.ca/tableviewer/visualize/ Circos图的诞生 Circos图诞生于2009年,当时是作为一个绘图工具类的文章发表在Genome Research(最新IF:9.944) 阅读全文
摘要:
GEO2R 是GEO数据库官方提供的一个工具,用于进行差异表达分析。 该工具实现的功能就是将GEO数据库中的数据导入到R语言中,然后进行差异分析,本质是通过以下两个bioconductor上的R包实现的。 -- GEOquery:用于自动下载GEO数据,并读取到R环境中 -- limma:一个经典的 阅读全文
摘要:
网络图(Network)看似复杂,其实构成非常简单,网络图是一种图解模型,形状如同网络,故称网络图,由节点(node)和连线(edge)两个因素组成的。其中 node 又分为 source node(源节点)和 target node(目标节点)两个因素组成的。这里的 node 就是我们的基因,ed 阅读全文
摘要:
将fasta文件线性化处理 将fastq文件线性化处理 阅读全文
摘要:
http://master.bioconductor.org/packages/3.9/bioc/html/Glimma.html 安装 阅读全文
摘要:
E-value: The E-value provides information about the likelihood that a given sequence match is purely by chance. The lower the E-value, the less likely 阅读全文
摘要:
Surrogate Variable Analysis http://www.bioconductor.org/packages/release/bioc/html/sva.html 阅读全文
摘要:
https://www.jianshu.com/p/4519d2e64a49 阅读全文
摘要:
https://www.jianshu.com/p/a3ac3568adde 阅读全文
摘要:
1. DNA测序技术 https://www.jianshu.com/p/6122cecec54a 2.FASTA和FASTQ文件格式 https://www.jianshu.com/p/50ff302d049f 3.数据质控 https://www.jianshu.com/p/36891a89ed 阅读全文
摘要:
下载地址:http://sangerbox.com/ https://shengxin.ren/article/208 Understanding TCGA mRNA Level3 analysis results files from FireBrowse http://zyxue.github. 阅读全文
摘要:
order() 的返回值是对应“排名”元素所在向量中的位置。注意返回的不是元素本身,而是元素的位置。 sort() 是直接对向量中的元素进行排序,返回的是排序后的元素组成的向量。 rank() 是求秩的函数,返回值是这个向量中对应元素的排名。 > x<-c(1,5,8,2,9,7,4)> order 阅读全文
摘要:
bioconduction 主页 http://www.bioconductor.org/packages/release/data/annotation/html/org.Hs.eg.db.html 安装 有时可能因为镜像或者网络的原因导致安装失败 我在 RStudio 使用 清华的镜像 在线文档 阅读全文
摘要:
Error in readRDS(dest) : error reading from connection 解决办法:可能是镜像设置错误,导致无法抓取文件 修改 RStudio 中的镜像地址 阅读全文
摘要:
这几个都是R语言中的特殊值,都是R的保留字, NA:Not available 表示缺失值 用 is.na() 来判断是否为缺失值 NULL:表示空值,即没有内容 用 is.null() 来判断是否为空值 NaN:Not a Number,表示非数值 用 is.nan() 来判断是否为非数值 Inf 阅读全文
摘要:
1. 少用循环多用R自带的向量化运算,R的循环效率极低。 2. 使用驼峰命名法 或者 用点号分隔 avg.cliks 3. 函数命名第一个字母大写 4. 所有的二元运算符的两侧加空格,逗号后面添加空格 5. 使用 <- 进行赋值,不用 = 赋值 用 = 进行传值 6. 函数的定义应该首先列出无默认值 阅读全文
摘要:
RPKM:Reads Per Kilobases Per Million Reads指的是每1百万个reads中比对到每1kb碱基外显子上的reads数 FPKM:Fragments Per Kilobase Per Million reads 当reads来自PE测序数据时使用FPKM TPM: 阅读全文
摘要:
Empirical Analysis of Digital Gene Expression Data in R 安装 使用 library("edgeR") edgeRUserGuide() # 查看使用文档 查看在线的使用文档 http://www.bioconductor.org/package 阅读全文