随笔分类 - 基因组云计算
摘要:目录Docker容器Docker架构Kubernetes(k8s)容器技术演变传统部署时代:虚拟化部署时代:容器部署时代:为什么需要 Kubernetes,它能做什么?Docker vs K8s容器引擎 vs. 容器编排器:支持的镜像类型:镜像定义方式:Docker Swarm vs K8sK8s弃
阅读全文
摘要:需求 想要把在linux终端操作的习惯改到本机上来。理由如下: linux下的vim对于编程调试不是很方便; 编程与命令不能很好链接,经常要多开几个window或sessions; vim的自动补全不太好使(应该是我没修炼到家); xshell最近更新的版本导致了之前的习惯操作受到严重限制(如vim
阅读全文
摘要:问题描述 测序公司产出的数据到阿里云OSS,随手一个数据链接。 直接复制到本地浏览器没问题: 但在服务器用wget或curl却出现403 Forbidden: 解决 URL 里面包含特殊字符 比如 &,导致 URL 被截断,造成请求 URL 不完整,OSS 中不存在对应的文件信息,所以访问被拒绝提示
阅读全文
摘要:生信软件、流程依赖的东西太多,docker打包镜像一不小心就是上Gb大小。 镜像太大很多缺点:上传、拉取慢;费宽带;占空间。。。 docker已广泛应用在IT,生信只是沾了点光,所以没有专门的优化,在这方面的资料也比较少(尤其是中文)。 这里贴几点资源,供参考。 常见生信软件的docker镜像及其d
阅读全文
摘要:问题 宿主机网络正常,能ping通。但进入docker容器后,无法ping通,yum任何东西都报如下错误: [root@a4742adb2225 yum.repos.d]# yum install vim Loaded plugins: fastestmirror, ovl Could not re
阅读全文
摘要:给一起学习基因组云计算的小伙伴推荐一本书,《Genomics in the Cloud:Using Docker, GATK, and WDL in Terra》,作者是GATK社区管理员,2020年出版,还算比较新吧。 Github地址: genomics-in-the-cloud 本书涵盖内容:
阅读全文
摘要:最近调研,总结了一些公司推出的基因组计算加速产品和方案。简单罗列下几个平台,主要针对GATK流程加速。 腾讯云:双螺旋 2017年发布,一体化的数据管理PaaS平台,可进行传、存、算、管等工作。 加速原理:FPGA极光异构系统。 30x WGS运行时间:2.8h。 http://www.baiema
阅读全文
摘要:WDL可以使用本地、集群、云端三种模式来跑流程,本地运行是不需要服务器后台配置文件,而另外两种需要配置文件。 本地运行 下载cromwell和womtool到本地服务器,地址:https://github.com/broadinstitute/cromwell/releases 不建议下载最新版本,
阅读全文
摘要:功能 使用BWA + GATK进行变异检测的最佳实践流程,且优化为按染色体切分,并行进行变异检测和BQSR步骤,加快分析进度。 流程图 input.json { "wgs.apply_bqsr.cpu": 32, "wgs.apply_bqsr.disks": "local-disk 250 clo
阅读全文
摘要:功能 输入(Pair End)测序序列文件,利用fastp进行QC和质量过滤(包括质量QC统计,Adapter去除,序列trimming,过滤等),生成Clean Reads文件,以及html的报告。 input.json { "fastp.pair_end.adapter_sequence": "
阅读全文
摘要:WDL开发工具IDE介绍 vim-wdl插件:https://github.com/broadinstitute/vim-wdl Vscode插件:推荐 语法校验:WOMtool https://cromwell.readthedocs.io/en/stable/WOMtool/ 脚本实践 应用示例
阅读全文
摘要:变量 WDL的变量不同于一般语言变量,应该叫“占位符”——一旦赋值之后,不能在后续运行中变化 “先声明,再使用”,变量类型有严格规定,主要体现在String和File 变量可出现在workflow和task,也可以在runtime属性中,使用变量,提高流程灵活性 基础数据类型 File File是指
阅读全文
摘要:内置函数主要分为三大类: 输入输出:stdout, stderr,read_tsv 信息获取类:defined, glob, basename, select_first 变量操作:prefix, sub WDL函数的目的主要在于粘合task,不要用于一般的数据处理操作(放在task中处理) 输入输
阅读全文
摘要:WDL语言基本概念 两级结构:workflow, task runtime:镜像,memory等 output可以没有,如重命名等操作。 A、B无顺序要求 WDL脚本基本结构 task 1. 输入 文件、数值、字符串等信息 task fastq_to_bam{ File fastq File ref
阅读全文