机器学习在生物信息领域可以做些什么?
用“machine learning genomics”在 biorxiv 中检索(限定一下Bioinformatics领域),查看最新文章的标题和摘要,看看机器学习都能做些什么实际的项目。
1.Machine-learning annotation of human splicing branchpoints(RNA剪切体位点预测)
使用机器学习来注释人类剪切体的分支点
需要有 RNA splicing 的知识,首先得搞懂 branchpoint、lariat formation的概念
2.The value of prior knowledge in machine learning of complex network systems(贝叶斯)
生物信息中复杂网络系统中先验知识的价值
预测病人在指定药物或治疗方案下的反应
3.Systematic assessment of multi-gene predictors of pan-cancer cell line sensitivity to drugs exploiting gene expression data(随机森林在药物学上的预测)
通过基因表达数据系统评估泛癌细胞系的多基因预测器对药物的敏感性
指定的基因突变通常用于指导肿瘤病人的用药,大规模的药物基因组数据被用来发现这些对药物敏感的单基因标记,最近机器学习的回归已被用于基于分子谱的预测。基因表达数据对研究泛癌十分重要。但是还没人研究机器学习在单基因和多基因上的差异。本文,用RF随机森林做测试。
4.CASTOR: A machine learning platform for reproducible viral genome classification(可复制病毒基因组分类)
测序产生了大量的病毒基因组,基因组变异、分类特征和致病机制的研究非常重要,输入新菌株的测序结果,就能将其归于不同的病毒家族。
本软件应用了限制片段长度多态性(RFLP),
5.Complete fold annotation of the human proteome using a novel structural feature space(蛋白质折叠)
通过新型的结构特征空间完成人类蛋白组的折叠注释
分析RNA结合蛋白的结合行为对理解它们在基因表达调控中的功能是非常重要的,
7.netDx: Patient classification using integrated patient similarity networks(综合相似病人网络)
病人的分类非常重要
转录因子结合 开放染色质数据 准确的基因表达预测
10.Assessing Pathogens for Natural versus Laboratory Origins Using Genomic Data and Machine Learning(评估病原菌的来源)
11.Gist: an ensemble approach to the taxonomic classification of metatranscriptomic sequence data.(系统分类)
12.A Machine Learning-based Framework to Identify Type 2 Diabetes through Electronic Health Records
13.Predicting Protein Thermostability Upon Mutation Using Molecular Dynamics Timeseries Data(蛋白质热稳定性)
14.FIDDLE: An integrative deep learning framework for functional genomic data inference(功能基因组、深度学习)
15.Monitoring the circadian clock in human blood using personalized machine learning(人血液里的生物钟)
16.The DOE Systems Biology Knowledgebase (KBase)(公开的生物信息系统)
17.Partitioned learning of deep Boltzmann machines for SNP data(深度学习分析SNP)
18.Lowest expressing microRNAs capture indispensable information - identifying cancer types(miRNAs SVM)
miRNA主要是维持细胞内稳态,在癌症组织中,其表达明显变化,
19.Modelling the transcription factor DNA-binding affinity using genome-wide ChIP-based data(转录因子DNA结合蛋白)
20.Connecting tumor genomics with therapeutics through multi-dimensional network modules(多维网络模块)