摘要: k-近邻算法(kNN)采用测量不同特征值之间的距离方法进行分类。 优点:精度高、对异常值不敏感、无数据输入假定 缺点:计算复杂度高、空间复杂度高 使用数据范围:数值型和标称型 工作原理:存在一个样本数据集合,也称为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应 阅读全文
posted @ 2016-11-08 22:39 tonglin0325 阅读(428) 评论(0) 推荐(0) 编辑
摘要: 1.scylla部署 docker单机部署 可以使用docker镜像来启动scyllaDB docker集群部署 也可以使用docker镜像来部署scyllaDB集群 docker run --name scylla -p 9042:9042 -p 9160:9160 -p 10000:10000 阅读全文
posted @ 2016-11-08 22:28 tonglin0325 阅读(4758) 评论(0) 推荐(0) 编辑
摘要: 1.机器学习的主要任务:一是将实例数据划分到合适的分类中,即分类问题。 而是是回归, 它主要用于预测数值型数据,典型的回归例子:数据拟合曲线。 2.监督学习和无监督学习: 分类和回归属于监督学习,之所以称之为监督学习,是因为这类算法必须直到预测什么,即目标变量的分类信息。 对于无监督学习,此时数据没 阅读全文
posted @ 2016-11-08 22:01 tonglin0325 阅读(11377) 评论(0) 推荐(0) 编辑
摘要: 1.添加driver hive集群的版本是1.1.0-cdh5.16.2,而datagrip自带的hive driver版本是3.1.1和3.1.2,所以需要自行添加driver 参考:kerberos-2.datagrip(jdbc)连接hive kerberos add custome JARs 阅读全文
posted @ 2016-11-08 15:23 tonglin0325 阅读(1309) 评论(0) 推荐(0) 编辑