_harvey - 博客园

深入理解python的yield和generator

摘要：原文发表在我的博客主页，转载请注明出处前言没有用过的东西，没有深刻理解的东西很难说自己会，而且被别人一问必然破绽百出。虽然之前有接触过python协程的概念，但是只是走马观花，这两天的一次交谈中，别人问到了协程，顿时语塞，死活想不起来曾经看过的东西，之后突然想到了yield，但为时已晚，只能说概阅读全文

posted @ 2018-01-04 21:55 _harvey 阅读(1359) 评论(1) 推荐(0)

xgboost原理

摘要：出处http://blog.csdn.net/a819825294 1.序距离上一次编辑将近10个月，幸得爱可可老师（微博）推荐，访问量陡增。最近毕业论文与xgboost相关，于是重新写一下这篇文章。关于xgboost的原理网络上的资源很少，大多数还停留在应用层面，本文通过学习陈天奇博士的PPT 阅读全文

posted @ 2017-07-18 22:38 _harvey 阅读(8418) 评论(0) 推荐(0)

五大常用算法

摘要： http://www.cnblogs.com/steven_oyj/archive/2010/05/22/1741370.html 分治算法一、基本概念在计算机科学中，分治法是一种很重要的算法。字面上的解释是“分而治之”，就是把一个复杂的问题分成两个或更多的相同或相似的子问题，再把子问题分成更小阅读全文

posted @ 2017-06-24 22:35 _harvey 阅读(849) 评论(0) 推荐(0)

Relation Extraction中SVM分类样例unbalance data问题解决 -松弛变量与惩罚因子

摘要：转载自：http://blog.csdn.net/yangliuy/article/details/8152390 1、问题描述做关系抽取就是要从产品评论中抽取出描述产品特征项的target短语以及修饰该target的opinion短语，在opinion mining里面属于很重要的task，很多阅读全文

posted @ 2017-06-14 21:27 _harvey 阅读(1422) 评论(0) 推荐(0)

Scikit-learn使用总结

摘要：在机器学习和数据挖掘的应用中，scikit-learn是一个功能强大的python包。在数据量不是过大的情况下，可以解决大部分问题。学习使用scikit-learn的过程中，我自己也在补充着机器学习和数据挖掘的知识。这里根据自己学习sklearn的经验，我做一个总结的笔记。另外，我也想把这篇笔记一直阅读全文

posted @ 2017-06-01 22:28 _harvey 阅读(8391) 评论(0) 推荐(1)

转载：数据挖掘模型中的IV和WOE详解

摘要： 1.IV的用途 IV的全称是Information Value，中文意思是信息价值，或者信息量。我们在用逻辑回归、决策树等模型方法构建分类模型时，经常需要对自变量进行筛选。比如我们有200个候选自变量，通常情况下，不会直接把200个变量直接放到模型中去进行拟合训练，而是会用一些方法，从这200个自阅读全文

posted @ 2017-04-23 00:02 _harvey 阅读(5197) 评论(0) 推荐(0)

链表和数组的区别

摘要：数组是线性结构，可以直接索引，即要去第i个元素，a[i]即可。链表也是线性结构，要取第i个元素，只需用指针往后遍历i次就可。貌似链表比数组还要麻烦些，而且效率低些。想到这些相同处中的一些细微的不同处，于是他们的真正不同处渐渐显现了：链表的效率为何比数组低些？先从两者的初始化开始。数组无需初始化，因阅读全文

posted @ 2017-03-31 22:42 _harvey 阅读(6683) 评论(0) 推荐(0)

SMO序列最小最优化算法

摘要： SMO例子： 1 from numpy import * 2 import matplotlib 3 import matplotlib.pyplot as plt 4 5 def loadDataSet(fileName): 6 dataMat = []; labelMat = [] 7 fr = 阅读全文

posted @ 2016-06-10 23:06 _harvey 阅读(1116) 评论(0) 推荐(0)