《什么是生物信息学》摘录

除了【ps】的想法，文章内容均摘自北京大学的公开课《生物信息学导论和方法》。

1.人的基因组一共有31亿个碱基对，里面只有2.9%是编码蛋白的基因区间。

【如何找的这些基因区间？】

2.高等生物有大量的可变剪切，一个基因可以有多个剪切体，翻译成多个蛋白。

【比如，果蝇的DSCAM1基因一个基因有38000多个可变剪切体】

【找的了基因，如何预测被剪切成什么形状，翻译成什么样的蛋白呢？】

【ps：近期有文章说，可变剪切也是形成肿瘤的可能原因之一】

3.基因组另外的97.1%的位置，原先被认为是垃圾DNA，现在知道里面包含了大量的调控元素，决定在哪里，在什么时间，表达哪些蛋白，表达多少。

【ps:以前看科普片，为什么病毒的DNA进入细胞核以后就可以打乱原先所有的基因转录、翻译和表达的秩序，让这个细胞疯狂为ta的DNA进行表达呢？这个优先级和竞争性是怎么来的？】

4.每一个人其实都携带很多突变，大多数突变是不致病的。

【31亿个碱基中，怎样找的一个致病的突变呢？如何区分致病的和不致病的突变？】

【ps：这里可以推荐去学习Deep Genomics的公司的文章，里面对splice的预测的工具算出来的数据库spidex就做到了针对一个突变，给出其影响剪切的可能性打分，很多文章用这个打分来评估该突变的致病性】

5.存储核酸序列的Genbank数据库，从1982年开始，每20个月就翻一番，呈现一个指数增长的趋势。

【一个主要原因是新一代测序仪的出现】

6.专门存储新一代测序技术数据的SRA（Sequence Read Archive）的数据库，从10年到13年，数据量增长了100倍。

7.新一代测序技术单个碱基、单次测序的错误率是传统Sanger测序错误率的100倍高。

8.生物信息学的两条主线：

Bio，围绕重心法则的主线。

【序列比对，两个基因或两个蛋白的序列是否相似？如何从庞大的数据库里找到和想要研究的基因最相似的同源基因？能否利用已知的基因的功能来指导研究这个基因的功能？有了DNA和基因组序列，如何从基因组里找的基因？两个基因组中最相似的部分是什么？如何鉴定一个基因组里哪些区间被甲基化？RNA表达水平，有哪些基因的表达量是有统计显著性的差别的？蛋白水平，如何从质谱数据鉴定出有哪些蛋白被表达？能否从蛋白的一维序列来预测三维结构？如何来构建蛋白相互作用的网络、转录调控网络、代谢及信号转导网络？这些网络有什么动力学特征？能否对细胞进行模拟？如何从大量的群体遗传学和人类遗传学研究找到致病基因？】

informatics，围绕从数据到发现的主线。

【海量数据的存储需要先进的数据库系统；海量、高噪音的数据分析需要大量的算法、软件和网上的服务器】

结合两条主线，可以进行数据挖掘，找到有意思的科学发现，也可以建立预测模型，对生物系统进行模拟。

【ps，知道了蛋白质的三维结构可以从此推测功能吗？】

posted @ 2018-04-10 10:04 maxsmile17 阅读(300) 评论(0) 收藏举报

刷新页面返回顶部

生物信息学笔记

今天的眼睛里有星星么？(✧◡✧)

《什么是生物信息学》摘录

公告