2016 年 11月 8 日随笔档案 - tonglin0325

2016年11月8日

摘要： k-近邻算法（kNN）采用测量不同特征值之间的距离方法进行分类。优点：精度高、对异常值不敏感、无数据输入假定缺点：计算复杂度高、空间复杂度高使用数据范围：数值型和标称型工作原理：存在一个样本数据集合，也称为训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一数据与所属分类的对应阅读全文

posted @ 2016-11-08 22:39 tonglin0325 阅读(428) 评论(0) 推荐(0) 编辑

scyllaDB基本使用

摘要： 1.scylla部署 docker单机部署可以使用docker镜像来启动scyllaDB docker集群部署也可以使用docker镜像来部署scyllaDB集群 docker run --name scylla -p 9042:9042 -p 9160:9160 -p 10000:10000 阅读全文

posted @ 2016-11-08 22:28 tonglin0325 阅读(4758) 评论(0) 推荐(0) 编辑

机器学习——分类和回归

摘要： 1.机器学习的主要任务：一是将实例数据划分到合适的分类中，即分类问题。而是是回归，它主要用于预测数值型数据，典型的回归例子：数据拟合曲线。 2.监督学习和无监督学习：分类和回归属于监督学习，之所以称之为监督学习，是因为这类算法必须直到预测什么，即目标变量的分类信息。对于无监督学习，此时数据没阅读全文

posted @ 2016-11-08 22:01 tonglin0325 阅读(11377) 评论(0) 推荐(0) 编辑

Datagrip查询开启kerberos的hive

摘要： 1.添加driver hive集群的版本是1.1.0-cdh5.16.2，而datagrip自带的hive driver版本是3.1.1和3.1.2，所以需要自行添加driver 参考：kerberos-2.datagrip（jdbc）连接hive kerberos add custome JARs 阅读全文

posted @ 2016-11-08 15:23 tonglin0325 阅读(1309) 评论(0) 推荐(0) 编辑

tonglin0325.github.io

公告