2018年12月31日

查看spark RDD 各分区内容

摘要: mapPartitionsWithIndexdef mapPartitionsWithIndex[U](f: (Int, Iterator[T]) => Iterator[U], preservesPartitioning: Boolean = false)(implicit arg0: Class 阅读全文

posted @ 2018-12-31 19:25 _harvey 阅读(1523) 评论(0) 推荐(0) 编辑

2018年4月24日

协方差的意义

摘要: 协方差代表了两个变量之间的是否同时偏离均值。 如果正相关,这个计算公式,每个样本对(Xi, Yi), 每个求和项大部分都是正数,即两个同方向偏离各自均值,而不同时偏离的也有,但是少,这样当样本多时,总和结果为正。下面这个图就很直观。下面转载自:http://blog.csdn.net/wuhzoss 阅读全文

posted @ 2018-04-24 21:04 _harvey 阅读(1426) 评论(0) 推荐(0) 编辑

2018年1月4日

深入理解python的yield和generator

摘要: 原文发表在我的博客主页,转载请注明出处 前言 没有用过的东西,没有深刻理解的东西很难说自己会,而且被别人一问必然破绽百出。虽然之前有接触过python协程的概念,但是只是走马观花,这两天的一次交谈中,别人问到了协程,顿时语塞,死活想不起来曾经看过的东西,之后突然想到了yield,但为时已晚,只能说概 阅读全文

posted @ 2018-01-04 21:55 _harvey 阅读(1332) 评论(1) 推荐(0) 编辑

2017年7月18日

xgboost原理

摘要: 出处http://blog.csdn.net/a819825294 1.序 距离上一次编辑将近10个月,幸得爱可可老师(微博)推荐,访问量陡增。最近毕业论文与xgboost相关,于是重新写一下这篇文章。 关于xgboost的原理网络上的资源很少,大多数还停留在应用层面,本文通过学习陈天奇博士的PPT 阅读全文

posted @ 2017-07-18 22:38 _harvey 阅读(8230) 评论(0) 推荐(0) 编辑

2017年6月24日

五大常用算法

摘要: http://www.cnblogs.com/steven_oyj/archive/2010/05/22/1741370.html 分治算法 一、基本概念 在计算机科学中,分治法是一种很重要的算法。字面上的解释是“分而治之”,就是把一个复杂的问题分成两个或更多的相同或相似的子问题,再把子问题分成更小 阅读全文

posted @ 2017-06-24 22:35 _harvey 阅读(823) 评论(0) 推荐(0) 编辑

2017年6月14日

Relation Extraction中SVM分类样例unbalance data问题解决 -松弛变量与惩罚因子

摘要: 转载自:http://blog.csdn.net/yangliuy/article/details/8152390 1、问题描述 做关系抽取就是要从产品评论中抽取出描述产品特征项的target短语以及修饰该target的opinion短语,在opinion mining里面属于很重要的task,很多 阅读全文

posted @ 2017-06-14 21:27 _harvey 阅读(1374) 评论(0) 推荐(0) 编辑

2017年6月1日

Scikit-learn使用总结

摘要: 在机器学习和数据挖掘的应用中,scikit-learn是一个功能强大的python包。在数据量不是过大的情况下,可以解决大部分问题。学习使用scikit-learn的过程中,我自己也在补充着机器学习和数据挖掘的知识。这里根据自己学习sklearn的经验,我做一个总结的笔记。另外,我也想把这篇笔记一直 阅读全文

posted @ 2017-06-01 22:28 _harvey 阅读(8335) 评论(0) 推荐(1) 编辑

2017年4月23日

转载:数据挖掘模型中的IV和WOE详解

摘要: 1.IV的用途 IV的全称是Information Value,中文意思是信息价值,或者信息量。 我们在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。比如我们有200个候选自变量,通常情况下,不会直接把200个变量直接放到模型中去进行拟合训练,而是会用一些方法,从这200个自 阅读全文

posted @ 2017-04-23 00:02 _harvey 阅读(5120) 评论(0) 推荐(0) 编辑

2017年3月31日

链表和数组的区别

摘要: 数组是线性结构,可以直接索引,即要去第i个元素,a[i]即可。链表也是线性结构,要取第i个元素,只需用指针往后遍历i次就可。貌似链表比数组还要麻烦些,而且效率低些。 想到这些相同处中的一些细微的不同处,于是他们的真正不同处渐渐显现了:链表的效率为何比数组低些?先从两者的初始化开始。数组无需初始化,因 阅读全文

posted @ 2017-03-31 22:42 _harvey 阅读(6644) 评论(0) 推荐(0) 编辑

2016年6月10日

SMO序列最小最优化算法

摘要: SMO例子: 1 from numpy import * 2 import matplotlib 3 import matplotlib.pyplot as plt 4 5 def loadDataSet(fileName): 6 dataMat = []; labelMat = [] 7 fr = 阅读全文

posted @ 2016-06-10 23:06 _harvey 阅读(1105) 评论(0) 推荐(0) 编辑

导航