12 2021 档案

awk场景命令
摘要:# 注 mac 要用gwak代替awk. ~/Documents/materials/linux_shell  awk 'BEGIN{FS=OFS="\t"} NR==FNR{a[$3]=$1;b[$3]=$2} NR>FNR{$2=a[$1];$3=b[$1]; {print $2,$3,$1} 阅读全文

posted @ 2021-12-31 19:57 BioinformaticsMaster 阅读(294) 评论(0) 推荐(0) 编辑

当表格文件被其他已打开时,EXCEL再打开会报错
摘要:BUG: Excel 无法打开文件“研究进展报告模板202112.xlsx”,因为文件格式或文件扩展名无效。请确定文件未损坏,并且文件扩展名与文件的格式匹配。 解决方法: 关闭掉用其他程序打开着的此文件,再用excel打开 阅读全文

posted @ 2021-12-28 11:27 BioinformaticsMaster 阅读(187) 评论(0) 推荐(0) 编辑

NCBI的gene id, ENTREZID 与Ensembl Gene ID的转换
摘要:NCBI的gene id, ENTREZID 与Ensembl Gene ID 互相转换网站:https://biodbnet-abcc.ncifcrf.gov/db/db2db.php 还有另外一个单向 ensemble 转NCBI的:https://www.biotools.fr/human/e 阅读全文

posted @ 2021-12-24 21:51 BioinformaticsMaster 阅读(5453) 评论(0) 推荐(0) 编辑

MAC iterm2 ssh显示不全 解决
摘要:BUG : 解决方法: 在profile 勾选unlimited scrollback 阅读全文

posted @ 2021-12-22 15:57 BioinformaticsMaster 阅读(1972) 评论(0) 推荐(0) 编辑

计数函数n() count()
摘要:n()外的计数函数还包括 n_distinct(x)取x向量中unique值的个数,等同 length(unique(x))。如: tally(x, wt = NULL, sort = FALSE, name = "n") count(x, ..., wt = NULL, sort = FALSE, 阅读全文

posted @ 2021-12-20 17:06 BioinformaticsMaster 阅读(343) 评论(0) 推荐(0) 编辑

group_by 对mutate,summary里的基础函数的适用情况
摘要:group_by的价值在于对 从对整个数据框的数据处理,转换为对每个组内的数据处理。 如:> not_cancelled %>%group_by(year,month,day)%>%filter(rank(desc(arr_delay))<=10) %>% select(month,year,day 阅读全文

posted @ 2021-12-18 22:19 BioinformaticsMaster 阅读(297) 评论(0) 推荐(0) 编辑

rep()复制向量
摘要:> rep(1:4,2) 复制向量两次 > rep(1:4,each=2) 向量内每个元素复制两次 > rep(1:4,each=2,times=3) 向量内每个元素复制两次,向量复制3次。 注: > rep(c("a","b","c"),each=3) #rep 字符串向量情景 [1] "a" " 阅读全文

posted @ 2021-12-18 16:22 BioinformaticsMaster 阅读(49) 评论(0) 推荐(0) 编辑

下检测单前,过滤重复数据
摘要:需求: 1)与以前存在的样本名称相同的,筛选出来,这是重复样本,做减法,不后续实验 2) 重复样本中以前检测不合格的,加上,做后续实验。 准备工作: 1.unique的已存在样本列表 first_four_Sample<-read.csv("./first_four_Sample.csv") #如果 阅读全文

posted @ 2021-12-17 16:14 BioinformaticsMaster 阅读(41) 评论(0) 推荐(0) 编辑

summarize() 计算摘要统计量 搭配group_by()分组计算 ; 等效aggregate()
摘要:summarize() 即summarise(). 输出列包含group_by分组变量以及计算所得统计量 如: > flights %>% group_by(year,month,day) %>% summarize(delay=mean(dep_delay,na.rm=T)) # na.rm=T 阅读全文

posted @ 2021-12-15 21:39 BioinformaticsMaster 阅读(901) 评论(0) 推荐(0) 编辑

常用于mutate()创建变量时的基础运算与函数
摘要:x/sum() 计算x各个分量在总数中的比例 y-mean(y) 计算y各分量与均值之间的差异 %/% 整除 %%求余数 注:当一个向量中的值不够用时,这个向量会被循环使用。如1:3+1:10等价于c(1 + 1, 2 + 2, 3 + 3, 1 + 4, 2 + 5, 3 + 6, 1 + 7, 阅读全文

posted @ 2021-12-14 15:57 BioinformaticsMaster 阅读(145) 评论(0) 推荐(0) 编辑

tidyverse select() 选择列 搭配mutate()增加列
摘要:$dataframe %>%select($var1,$var2,$var3) #列名,但建议用这种。 $dataframe %>%select($index1,$index2,$index3) #列的位置 上述等效,但建议用列名选择。 如flights%>%select(year,month,da 阅读全文

posted @ 2021-12-14 12:16 BioinformaticsMaster 阅读(954) 评论(0) 推荐(0) 编辑

tibble
摘要:tidyverse包内的新定义的数据类型,是data.frame的子类型。函数、操作上与data.frame类似。 tibble标识列类型: int integer 存储正数 dbl double 普通数值型数据,可正可复,可大可小,可含小数可不含 chr character向量或字符串。 dttm 阅读全文

posted @ 2021-12-13 17:50 BioinformaticsMaster 阅读(120) 评论(0) 推荐(0) 编辑

管道符号 筛选、排序行filter(),arrange(), slice()
摘要:%>% 管道函数读"then",即然后 把左边值发送到右边的表达式,并作为右边表达式函数的第一个参数。 当操作多个数据集或函数时,使用%>%会更方便,更逻辑性。 R 其他含义的管道符号用的少,包括: %<>% 在%>%基础上,把右边的最终返回值返回给左边 %T>% 把左边值传入后,不产生任何返回值( 阅读全文

posted @ 2021-12-10 13:50 BioinformaticsMaster 阅读(993) 评论(0) 推荐(0) 编辑

R Debug
摘要:1. 虽然说逗号的bug,但其实是多了个( 2. read.csv 报: '<ca><c7>'多字节字符串有错 Error in read.table(file = file, header = header, sep = sep, quote = quote, : 输入中没有多出的行 Cause: 阅读全文

posted @ 2021-12-09 19:45 BioinformaticsMaster 阅读(319) 评论(0) 推荐(0) 编辑

mutate()为入口 管道符操作数据
摘要:mutate()添加新变量列,保留之前。注:如果没有赋予新值,则在原列基础操作,这种情况多在管道符。 注:新增列与已有列的行数会一致,也要求一致。 transmute() 添加新变量列,并删除现有列。 当与现有具相同变量名,则会覆盖现有变量名 mutate() 增加新列,可以基于现有列运算新列的值, 阅读全文

posted @ 2021-12-07 13:55 BioinformaticsMaster 阅读(248) 评论(0) 推荐(0) 编辑

factor()函数
摘要:因子型(factor)表示编号或登记,是用来存储类别的数据类型,是离散的,与连续性值相对。如果把数字作为因子,那么在导入数据后,需要将向量转换为因子(factor),而因子在整个计算过程中不再作为数值,而是作为“符号”。 讲的很好的R因子 data <- c(1,2,2,3,1,2,3,3,1,2, 阅读全文

posted @ 2021-12-01 17:25 BioinformaticsMaster 阅读(1107) 评论(0) 推荐(0) 编辑

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示