BioinformaticsMaster

当表格文件被其他已打开时，EXCEL再打开会报错

摘要： BUG: Excel 无法打开文件“研究进展报告模板202112.xlsx”，因为文件格式或文件扩展名无效。请确定文件未损坏，并且文件扩展名与文件的格式匹配。解决方法：关闭掉用其他程序打开着的此文件，再用excel打开阅读全文

posted @ 2021-12-28 11:27 BioinformaticsMaster 阅读(187) 评论(0) 推荐(0) 编辑

NCBI的gene id, ENTREZID 与Ensembl Gene ID的转换

摘要： NCBI的gene id, ENTREZID 与Ensembl Gene ID 互相转换网站：https://biodbnet-abcc.ncifcrf.gov/db/db2db.php 还有另外一个单向 ensemble 转NCBI的：https://www.biotools.fr/human/e 阅读全文

posted @ 2021-12-24 21:51 BioinformaticsMaster 阅读(5409) 评论(0) 推荐(0) 编辑

MAC iterm2 ssh显示不全解决

摘要： BUG ：解决方法：在profile 勾选unlimited scrollback 阅读全文

posted @ 2021-12-22 15:57 BioinformaticsMaster 阅读(1961) 评论(0) 推荐(0) 编辑

计数函数n() count()

摘要： n()外的计数函数还包括 n_distinct(x)取x向量中unique值的个数,等同 length(unique(x))。如： tally(x, wt = NULL, sort = FALSE, name = "n") count(x, ..., wt = NULL, sort = FALSE, 阅读全文

posted @ 2021-12-20 17:06 BioinformaticsMaster 阅读(342) 评论(0) 推荐(0) 编辑

group_by 对mutate,summary里的基础函数的适用情况

摘要： group_by的价值在于对从对整个数据框的数据处理，转换为对每个组内的数据处理。如：> not_cancelled %>%group_by(year,month,day)%>%filter(rank(desc(arr_delay))<=10) %>% select(month,year,day 阅读全文

posted @ 2021-12-18 22:19 BioinformaticsMaster 阅读(292) 评论(0) 推荐(0) 编辑

rep(）复制向量

摘要： > rep(1:4,2) 复制向量两次 > rep(1:4,each=2) 向量内每个元素复制两次 > rep(1:4,each=2,times=3) 向量内每个元素复制两次，向量复制3次。注： > rep(c("a","b","c"),each=3) #rep 字符串向量情景 [1] "a" " 阅读全文

posted @ 2021-12-18 16:22 BioinformaticsMaster 阅读(49) 评论(0) 推荐(0) 编辑

下检测单前，过滤重复数据

摘要：需求： 1）与以前存在的样本名称相同的，筛选出来，这是重复样本，做减法，不后续实验 2) 重复样本中以前检测不合格的，加上，做后续实验。准备工作： 1.unique的已存在样本列表 first_four_Sample<-read.csv("./first_four_Sample.csv") #如果阅读全文

posted @ 2021-12-17 16:14 BioinformaticsMaster 阅读(41) 评论(0) 推荐(0) 编辑

summarize() 计算摘要统计量搭配group_by()分组计算 ; 等效aggregate()

摘要： summarize() 即summarise(). 输出列包含group_by分组变量以及计算所得统计量如： > flights %>% group_by(year,month,day) %>% summarize(delay=mean(dep_delay,na.rm=T)) # na.rm=T 阅读全文

posted @ 2021-12-15 21:39 BioinformaticsMaster 阅读(897) 评论(0) 推荐(0) 编辑

常用于mutate()创建变量时的基础运算与函数

摘要： x/sum() 计算x各个分量在总数中的比例 y-mean(y) 计算y各分量与均值之间的差异 %/% 整除 %%求余数注：当一个向量中的值不够用时，这个向量会被循环使用。如1:3+1:10等价于c(1 + 1, 2 + 2, 3 + 3, 1 + 4, 2 + 5, 3 + 6, 1 + 7, 阅读全文

posted @ 2021-12-14 15:57 BioinformaticsMaster 阅读(144) 评论(0) 推荐(0) 编辑

tidyverse select() 选择列搭配mutate()增加列

摘要： $dataframe %>%select($var1,$var2,$var3) #列名，但建议用这种。 $dataframe %>%select($index1,$index2,$index3) #列的位置上述等效，但建议用列名选择。如flights%>%select(year,month,da 阅读全文

posted @ 2021-12-14 12:16 BioinformaticsMaster 阅读(950) 评论(0) 推荐(0) 编辑

tibble

摘要： tidyverse包内的新定义的数据类型，是data.frame的子类型。函数、操作上与data.frame类似。 tibble标识列类型： int integer 存储正数 dbl double 普通数值型数据，可正可复，可大可小，可含小数可不含 chr character向量或字符串。 dttm 阅读全文

posted @ 2021-12-13 17:50 BioinformaticsMaster 阅读(119) 评论(0) 推荐(0) 编辑

管道符号筛选、排序行filter()，arrange(), slice()

摘要： %>% 管道函数读"then"，即然后把左边值发送到右边的表达式，并作为右边表达式函数的第一个参数。当操作多个数据集或函数时，使用%>%会更方便，更逻辑性。 R 其他含义的管道符号用的少，包括： %<>%　在%>%基础上，把右边的最终返回值返回给左边 %T>% 把左边值传入后，不产生任何返回值（阅读全文

posted @ 2021-12-10 13:50 BioinformaticsMaster 阅读(984) 评论(0) 推荐(0) 编辑

R Debug

摘要： 1. 虽然说逗号的bug,但其实是多了个（ 2. read.csv 报： '<ca><c7>'多字节字符串有错 Error in read.table(file = file, header = header, sep = sep, quote = quote, : 输入中没有多出的行 Cause：阅读全文

posted @ 2021-12-09 19:45 BioinformaticsMaster 阅读(319) 评论(0) 推荐(0) 编辑

mutate()为入口管道符操作数据

摘要： mutate()添加新变量列，保留之前。注：如果没有赋予新值，则在原列基础操作，这种情况多在管道符。注：新增列与已有列的行数会一致，也要求一致。 transmute() 添加新变量列，并删除现有列。当与现有具相同变量名，则会覆盖现有变量名 mutate() 增加新列，可以基于现有列运算新列的值，阅读全文

posted @ 2021-12-07 13:55 BioinformaticsMaster 阅读(247) 评论(0) 推荐(0) 编辑

factor()函数

摘要：因子型（factor）表示编号或登记，是用来存储类别的数据类型，是离散的，与连续性值相对。如果把数字作为因子，那么在导入数据后，需要将向量转换为因子(factor)，而因子在整个计算过程中不再作为数值，而是作为“符号”。讲的很好的R因子 data <- c(1,2,2,3,1,2,3,3,1,2, 阅读全文

posted @ 2021-12-01 17:25 BioinformaticsMaster 阅读(1101) 评论(0) 推荐(0) 编辑

路随时间