《什么是生物信息学》摘录
除了【ps】的想法,文章内容均摘自北京大学的公开课《生物信息学导论和方法》。
1.人的基因组一共有31亿个碱基对,里面只有2.9%是编码蛋白的基因区间。
【如何找的这些基因区间?】
2.高等生物有大量的可变剪切,一个基因可以有多个剪切体,翻译成多个蛋白。
【比如,果蝇的DSCAM1基因一个基因有38000多个可变剪切体】
【找的了基因,如何预测被剪切成什么形状,翻译成什么样的蛋白呢?】
【ps:近期有文章说,可变剪切也是形成肿瘤的可能原因之一】
3.基因组另外的97.1%的位置,原先被认为是垃圾DNA,现在知道里面包含了大量的调控元素,决定在哪里,在什么时间,表达哪些蛋白,表达多少。
【ps:以前看科普片,为什么病毒的DNA进入细胞核以后就可以打乱原先所有的基因转录、翻译和表达的秩序,让这个细胞疯狂为ta的DNA进行表达呢?这个优先级和竞争性是怎么来的?】
4.每一个人其实都携带很多突变,大多数突变是不致病的。
【31亿个碱基中,怎样找的一个致病的突变呢?如何区分致病的和不致病的突变?】
【ps:这里可以推荐去学习Deep Genomics的公司的文章,里面对splice的预测的工具算出来的数据库spidex就做到了针对一个突变,给出其影响剪切的可能性打分,很多文章用这个打分来评估该突变的致病性】
5.存储核酸序列的Genbank数据库,从1982年开始,每20个月就翻一番,呈现一个指数增长的趋势。
【一个主要原因是新一代测序仪的出现】
6.专门存储新一代测序技术数据的SRA(Sequence Read Archive)的数据库,从10年到13年,数据量增长了100倍。
7.新一代测序技术单个碱基、单次测序的错误率是传统Sanger测序错误率的100倍高。
8.生物信息学的两条主线:
Bio,围绕重心法则的主线。
【序列比对,两个基因或两个蛋白的序列是否相似?如何从庞大的数据库里找到和想要研究的基因最相似的同源基因?能否利用已知的基因的功能来指导研究这个基因的功能?有了DNA和基因组序列,如何从基因组里找的基因?两个基因组中最相似的部分是什么?如何鉴定一个基因组里哪些区间被甲基化?RNA表达水平,有哪些基因的表达量是有统计显著性的差别的?蛋白水平,如何从质谱数据鉴定出有哪些蛋白被表达?能否从蛋白的一维序列来预测三维结构?如何来构建蛋白相互作用的网络、转录调控网络、代谢及信号转导网络?这些网络有什么动力学特征?能否对细胞进行模拟?如何从大量的群体遗传学和人类遗传学研究找到致病基因?】
informatics,围绕从数据到发现的主线。
【海量数据的存储需要先进的数据库系统;海量、高噪音的数据分析需要大量的算法、软件和网上的服务器】
结合两条主线,可以进行数据挖掘,找到有意思的科学发现,也可以建立预测模型,对生物系统进行模拟。
【ps,知道了蛋白质的三维结构可以从此推测功能吗?】