上一页 1 ··· 11 12 13 14 15 16 17 18 19 ··· 70 下一页

2018年8月12日

安装EKL

摘要: elasticsearch rpm --import https://artifacts.elastic.co/GPG-KEY-elasticsearch /etc/yum.repos.d/elasticsearch.repo: [elasticsearch-6.x] 配置/etc/elastics 阅读全文

posted @ 2018-08-12 21:51 张叫兽的技术研究院 阅读(1038) 评论(0) 推荐(0) 编辑

网络地址0.0.0.0和127.0.0.1

摘要: 多网卡情况下,服务监听端口可以做选择监听那个网卡(的端口);这个时候就需要配置监听的hostIp为0.0.0.0; 我是在安装elk的elastisearch的时候发现的问题;curl locahost:9200没有问题,但是curl 外网IP:9200的时候则报错:curl: (7) Failed 阅读全文

posted @ 2018-08-12 21:21 张叫兽的技术研究院 阅读(1099) 评论(0) 推荐(0) 编辑

2018年8月8日

线性回归原理

摘要: 首先要明白线性回归的基本公式: 向量的表达公式就是: 在机器学习里面,目标就是通过既有的X,y数据来推断出theta的值,来使得该公式最大化的接近点集区域;为了实现这个,采用的工具就是M均方差错误(Mean Square Error,MSE);就是让推断出来的theta和X的乘积于原始y数据之差尽量 阅读全文

posted @ 2018-08-08 13:57 张叫兽的技术研究院 阅读(207) 评论(0) 推荐(0) 编辑

2018年7月24日

Hadoop和云计算

摘要: 什么是Hadoop? Hadoop代表的就是基于异步存储(HDFS)的并行计算(Map-Reduce)。 首先Hdsf/ Kudu他的存储是分布式的存储,hive(map-reduce)、impala、spark,他们计算方式都是并行计算模式。 什么是云计算?云计算就是对于物理硬件的抽象;对外屏蔽集 阅读全文

posted @ 2018-07-24 18:42 张叫兽的技术研究院 阅读(198) 评论(0) 推荐(0) 编辑

2018年7月23日

MapReduce-线性回归

摘要: 线性回归有是三个值很重要: 1. 斜率 2. 截距:x和y轴的交点值; 3. 显著性:数据偏离线性的程度,用以判断数据可以用线性表示的程度;拟合度 apache.commons.math3里面有一个simpleRegression专门用于做线性分析;通过add函数来进行添加x值和y值; 基因聚合 感 阅读全文

posted @ 2018-07-23 22:24 张叫兽的技术研究院 阅读(257) 评论(0) 推荐(0) 编辑

2018年7月22日

MapReduce-皮尔逊(Pearson)线性相关

摘要: Pearson相关系数解决了两个群的数据是否线性相关的问题; 先补充一下基本概念: 协方差:如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值;如果两个变量的变化趋势相反,即其中一个变量大于自身的期望值时另外一个却小于自身的 阅读全文

posted @ 2018-07-22 14:00 张叫兽的技术研究院 阅读(513) 评论(0) 推荐(0) 编辑

2018年7月20日

HBase的Scan

摘要: HBase的Scan和Get不同,前者获取数据是串行,后者则是并行;是不是有种大跌眼镜的感觉? Scan有四种模式:scan,(Table)snapScan,(Table)scanMR,snapshotscanMR;前面两个是串行玩;后面两个是放置到MapReduce中玩;其中性能最好的就是Snap 阅读全文

posted @ 2018-07-20 22:32 张叫兽的技术研究院 阅读(4363) 评论(0) 推荐(0) 编辑

2018年7月17日

机器学习Hands On Lab

摘要: fetch_data fetch_mldata默认路径是在scikit_learn_data路径下,mnist的mat文件其实直接放置到scikit_lean/mldata下面即可通过fetch_mldata中获取;当然路径信息其实是fetch_home函数中定义的; 洗牌训练数据 为了避免数据的有序对于训练的影响,有的时候需要对于数据进行随机排列;比如对于7万个手写数字的样本,前... 阅读全文

posted @ 2018-07-17 22:05 张叫兽的技术研究院 阅读(196) 评论(0) 推荐(0) 编辑

Decision_function:scores,predict以及其他

摘要: 机器学习的评估 PR曲线用于positive类数据占比比较小,或者你更加在意false postion(相比于false negative);其他情况采用ROC曲线;比如Demo中手写体5的判断,因为只有少量5,所以从ROC上面来看分类效果不错,但是从PR曲线可以看到分类器效果不佳。 y_scores = sgd_clf.decision_function([some_digit]) deci... 阅读全文

posted @ 2018-07-17 22:02 张叫兽的技术研究院 阅读(12639) 评论(0) 推荐(0) 编辑

混淆矩阵

摘要: 混淆矩阵(Confusion Matrix) 混淆矩阵是一个列表,里面包含了实际值和判断值的情况。下图是信息更加丰富的一张混淆矩阵图: 作为良好的学习模型,TN和TP值是高的,FP和FN值=0;但是很多场景下FP和FN都不是0,那么怎么评价个分类学习的效果(performance)呢? Accuracy:全准率 (TP+TN)/total = (100+50)/165 = ... 阅读全文

posted @ 2018-07-17 21:52 张叫兽的技术研究院 阅读(813) 评论(0) 推荐(0) 编辑

上一页 1 ··· 11 12 13 14 15 16 17 18 19 ··· 70 下一页

导航