摘要: 一、简介 GBDT在传统机器学习算法里面是对真实分布拟合的最好的几种算法之一,在前几年深度学习还没有大行其道之前,gbdt在各种竞赛是大放异彩。原因大概有几个 一:效果确实挺不错。 二:既可以用于分类也可以用于回归。 三:可以筛选特征。 这三点实在是太吸引人了,导致在面试的时候大家也非常喜欢问这个算 阅读全文
posted @ 2018-08-01 16:33 1直在路上1 阅读(19018) 评论(5) 推荐(0) 编辑
摘要: 核心~结合(易少缺过)~最佳~步骤 一、决策树分类 决策树分为两大类,分类树和回归树 分类树用于分类标签值,如晴天/阴天/雾/雨、用户性别、网页是否是垃圾页面 回归树用于预测实数值,如明天的温度、用户的年龄 两者的区别: 分类树的结果不能进行加减运算,晴天+晴天没有实际意义 回归树的结果是预测一个数 阅读全文
posted @ 2018-08-01 09:52 1直在路上1 阅读(1197) 评论(0) 推荐(0) 编辑
摘要: 一、什么是范数 范数是衡量某个向量空间(或矩阵)中的每个向量的长度或大小。范数的一般化定义:对实数p>=1, 范数定义如下: \(||x||_p := (\sum_{i=1}^{n}|x_i|^p)^{1/p}\) L1范数 当p=1时,是L1范数,其表示某个向量中所有元素绝对值的和。 L2范数 当 阅读全文
posted @ 2018-07-29 10:18 1直在路上1 阅读(512) 评论(0) 推荐(0) 编辑
摘要: 一、你会在时间序列数据集上使用什么交叉验证技术?是用k倍? 答:都不是。对于时间序列问题,k倍可能会很麻烦,因为第4年或第5年的一些模式有可能跟第3年的不同,而我们最终可能只是需要对过去几年的进行验证,这就不能用这种方法了。相反,我们可以采用如下所示的5倍正向链接策略: fold 1 : train 阅读全文
posted @ 2018-07-27 14:47 1直在路上1 阅读(473) 评论(0) 推荐(0) 编辑
摘要: 一、你知道聚类中度量距离的方法有哪些吗? 1)欧式距离 欧氏距离是最易于理解的一种距离计算方法,源自欧氏空间中两点间的距离公式。即两点之间直线距离,公式比较简单就不写了 应用场景:适用于求解两点之间直线的距离,适用于各个向量标准统一的情况 2)曼哈顿距离(Manhattan Distance) 从名 阅读全文
posted @ 2018-07-27 10:56 1直在路上1 阅读(11314) 评论(0) 推荐(2) 编辑
摘要: 一、matplotlib.pyplot.scatter用来画散点图 阅读全文
posted @ 2018-07-24 17:26 1直在路上1 阅读(359) 评论(0) 推荐(0) 编辑
摘要: 一、tf.Variables() tf.Variable() 使用TF在默认的图中创建节点,这个节点是一个变量。Variable第一个参数表示初始化的值,如:state = tf.Variable(0 , name='counter') tf.get_variable():和tf.Variable最 阅读全文
posted @ 2018-07-24 10:03 1直在路上1 阅读(1030) 评论(0) 推荐(0) 编辑
摘要: 一、Python中range()与xrange()有什么区别 range([start,] stop[, step]),根据start与stop指定的范围以及step设定的步长,生成一个序列 xrange用法与 range 完全相同,所不同的是生成的不是一个list对象,而是一个生成器 由上面的示例 阅读全文
posted @ 2018-07-22 18:47 1直在路上1 阅读(259) 评论(0) 推荐(0) 编辑
摘要: 一、np.random 在python数据分析的学习和应用过程中,经常需要用到numpy的随机函数,由于随机函数random的功能比较多 np.random.rand():rand函数根据给定维度生成[0,1)之间的数据,包含0,不包含1,如:构造一个3*4的随机数二维矩阵 二、np.loadtxt 阅读全文
posted @ 2018-07-17 17:49 1直在路上1 阅读(353) 评论(0) 推荐(0) 编辑
摘要: 很多数据库都可以通过下面的网站下载:http://annovar.openbioinformatics.org/en/latest/user-guide/download/ 一、NHLBI-ESP(Exome Sequencing Project) 国家心肺和血液研究所外显子组测序计划(NHLBI- 阅读全文
posted @ 2018-07-16 16:39 1直在路上1 阅读(1182) 评论(0) 推荐(0) 编辑