1. 说明
初赛提供的是血常规,肝功能,肾功能,生化的检验结果,预测血糖的具体值。复赛加入了SNP的五十多个位点数据,预测被试者是否为妊娠糖尿病,是个二分类问题。下面做了一些简单的数据分析和相关资料采集。
2. 糖尿病相关的SNP数据重要性排序
SNP数据取值为1,2,3,为枚举值,没有大小关系,因此做onehot编码,转换为形如:SNP1_3,表示SNP1取值为3作为单一特征. 相关性排序描述的是单个特征与结果的相关性,决策重要性描述的是单个特征与其它特征组合后与结果的相关性. 下面均为重要性前十的特征,数字为重要性评分.
1) 相关性排序(负号为负相关):
2) 决策重要性排序(五次交叉验证模型评分累加):
3) 总结
SNP34,SNP37在两种排序中均占前4位,可以说是重要性最高的特征,SNP21, SNP53,SNP40在前十中同时出现,也有较高优先级.
3. 糖尿病相关的其它信息
表中表出重要性前十位的特征,数字为重要性评分
1) 相关性排序:
2) 决策重要性排序(五次交叉验证模型评分累加):
3) 总结
特征VAR00007的重性最高,主办方未告知该值的具体含义.比较重要的特征还有:TG(甘油三脂);孕前BMI,孕前体重,BMI分类(与肥胖有关);年龄;hsCRP(超敏C-反应蛋白),wbc(白细胞)(与当前身体状况相关).
4. 数据分析
1) 特征分类与组合
把特征分为三类:基因信息,秘密信息,其它信息. 其中基因信息是名为SNP*的特征值(归为A类),秘密信息是名为VAR00007的特征值(归为B类),除此之外的其它信息几乎都是描述当前身体状况的信息(归为C类). 使用GBDT模型,CV=5交叉验证,训练集数据在参数相同的情况下:
2) 分析
B类和C类组合后,准确率并没有提升(使用混淆矩阵对比预测结果,B类与C类一致的预测仅占61%,也就是说结果并不一致,猜测B类和C类特征相关性不大).当B类(或C类)信息与A类信息结合后,准确率有明显提升,即:基因信息与其它信息组合后提高预测成功率约5%左右.
5. 相关资料
1) 词汇
i. SNP 单核苷酸多态性(single nucleotide polymorphism,SNP),主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。它是人类可遗传的变异中最常见的一种。占所有已知多态性的90%以上。SNP在人类基因组中广泛存在,平均每500~1000个碱基对中就有1个,人类30亿碱基中共有300万以上的SNP.SNP所表现的多态性只涉及到单个碱基的变异. 之前听说的羊水穿刺,就是提取婴儿的DNA,对SNP相应的位点检测。
ii. TG(Triglyceride) 甘油三酯,血脂的一种.
iii. hsCRP 超敏C-反应蛋白是机体受到微生物入侵或组织损伤等炎症性刺激时肝细胞合成的急性相蛋白
iv. apoA1 载脂蛋白
v. wbc 白细胞
2) 糖尿病与基因
i. 血液中的葡萄糖只有在有胰岛素的条件才才能进入肌肉,脂肪,肝细胞发挥供能作用。胰岛素释放及细胞摄入葡萄糖之间的平衡可以使得血糖水平保持在一个较小的波动范围。 1型糖尿病(T1D)是因为免疫系统杀死了生产胰岛素的β细胞;2型糖尿病(T2D)是因为代谢紊乱阻碍了胰岛素的正常功能。在2型糖尿病患者体内,由于机体不能产生足量胰岛素,或者机体对胰岛素产生抵抗,血糖水平会升高到过高水平。 此前的糖尿病研究大多是分析基因对免疫系统改变(T1D)和肝脏代谢紊乱(T2D)的影响。遗传学背景是胰腺β细胞生存的关键。有些人的β细胞比较强壮,有些人的β细胞比较脆弱。脆弱的β细胞更容易发展成糖尿病,不论是1型还是2型,β细胞基因缺陷是两种糖尿病的共同根源.
ii. 糖尿病分为1型、2型、特异型和妊娠糖尿病4大类。除特异型糖尿病外,其他类型糖尿病(也可称普通糖尿病)均系多基因病,参与的每个基因对于糖尿病易感性来说必不可少,但其贡献率都不太大,故称其为易感基因。
iii. 国际上共报告了23个糖尿病易感基因,我国也报告了几个候选易感基因,但经比对发现,在不同地域和不同种族间,其易感基因谱是有区别的。 相关基因包括:定位在1号染色体上的两个小区域中。还有9号染色体上的CDKN2A、CDKN2B基因和定位在3号染色体上的IGF2BP2基因以及CDKALl基因。还有TCF7L2、SLC30A8、HHEX、PPARG、KCNJl1、SREBF2和FTO等. TM6SF2基因变异与肝脂肪变性(俗称“脂肪肝”)有关,影响着2型糖尿病的风险。(它和脂功指标提供的信息有一定重合). 一氧化氮合成酶1转接蛋白(NOS1AP)基因。这个基因位点的遗传缺陷可使得中国人Ⅱ型糖尿病的患病风险上升17%。 PAX4的基因的变异与2型糖尿病有关,而这个变异仅发生在中国、韩国、新加坡等东亚国家人群中。
6. 一些想法
在数据分析的过程中,有一些感受,不一定对,在此分享一下,糖尿病分成单基因病(特异型糖尿病)和多基因病,我们现在看到最多的二型糖尿病是多基因病,也就是说它是由多个基因共同作用的结果,这种多基因糖尿病估计再过一百年,也不太可能通过编辑基因的方式治疗,因为一个基因可能有多种影响,修改了某个基因之后,这个毛病治好了,可能其它毛病又出来了。
也治不了,还分析它干嘛呢?从基因的角度看确实有一些人是某种疾病的易感人群,有的是皮肤病,有的是癌症。在没有基因检测的时候,一般通过亲属家人的健康情况来预测,基因检测相对更准确。从数据看来,各种身体指标,比如说免疫力,肥胖,年龄也都起一定作用。
有了这些技术的支持,就不用因为亲人有某种遗传病,而对自己的健康疑神疑鬼,直接就做检查就好了。如果不幸属于易感人群,多注意相关的诱发因素可以大大降低患病概率,总比去切乳腺强。
7. 参考
1) SNP的概念和特点
https://www.biomart.cn/experiment/430/457/462/15761.htm
2) 2型糖尿病相关基因的研究进展
http://www.docin.com/touch/detail.do?id=1724337751
3) 2型糖尿病的相关基因多态性的研究进展
https://wenku.baidu.com/view/3338d9f3f90f76c661371ae8.html###
4) 单核苷酸多态性与2型糖尿病易感基因相关性的研究进展
5) 《上帝的手术刀——基因编辑简史》
作者:王立铭,出版社:浙江人民出版社