futurehau

导航

 

2017年2月11日

摘要: 1.中文编码问题解决办法:# _*_ coding:UTF8 _*_ 2.numpy.ndArray a = array([[1,2,3], [4, 5, 6]]) 3.numpy.argsort() 排序结果为下标 4.import 自定义模块的时候进入路径导入或者import os os.pat 阅读全文
posted @ 2017-02-11 13:05 futurehau 阅读(217) 评论(0) 推荐(0) 编辑
 
摘要: 原理: 存在一个样数据集合,样本集中每个数据都存在标签,输入没有标签的新数据之后,将新数据的每个特征与样本数据的对应特征进行比较,算法提取出样本集中特征最相似的k个数据,然后这k个数据中出现次数最多的分类作为新数据的分类。 k越大,决策边界越平滑。实际中选择k,cross validation! 优 阅读全文
posted @ 2017-02-11 13:01 futurehau 阅读(510) 评论(0) 推荐(0) 编辑
 

2017年1月16日

摘要: 1. Linear Model for Classification 解决分类问题我们之前主要见过三个:线性分类问题,线性回归问题解分类,logistic回归。接下来看看这三者之间的区别与联系。 三者的区别主要是误差函数不同: 在同一个图上表示如下: 为什么Uper Bound是有效果的?理论证明: 阅读全文
posted @ 2017-01-16 23:18 futurehau 阅读(259) 评论(0) 推荐(0) 编辑
 

2017年1月8日

摘要: 之前我们讨论了VC Dimension,最终得到结论,如果我们的hypetheset的VC Dimension是有限的,并且有足够的资料,演算法能够找到一个hypethesis,它的Ein很低的话,那么我们就大概学到了东西。 看看之前的learning flow: 我们有一个target funct 阅读全文
posted @ 2017-01-08 21:18 futurehau 阅读(196) 评论(0) 推荐(0) 编辑
 

2017年1月7日

摘要: 前面一节我们通过引入增长函数的上限的上限,一个多项式,来把Ein 和 Eout 的差Bound住,这一节引入VC Bound进一步说明这个问题。 前边我们得到,如果一个hypethesis集是有break point的,那么最终mh会被一个多项式bound住,如果break point 为k的话,那 阅读全文
posted @ 2017-01-07 20:53 futurehau 阅读(755) 评论(0) 推荐(0) 编辑
 

2017年1月5日

摘要: 前边讨论了我们介绍了成长函数和break point,现在继续讨论m是否成长很慢,是否能够取代M。 成长函数就是二分类的排列组合的数量。break point是第一个不能shatter(覆盖所有情形)的点。 1.break point对成长函数的限制 我们希望 这里引入上限函数 bound func 阅读全文
posted @ 2017-01-05 20:58 futurehau 阅读(309) 评论(0) 推荐(0) 编辑
 
摘要: 关于Union Find的一个很好的技术介绍blog: http://blog.csdn.net/dm_vincent/article/details/7655764\ 一步步优化代码: Quick find -> quick union ->weighed quick uunion -> 带压缩的 阅读全文
posted @ 2017-01-05 11:30 futurehau 阅读(140) 评论(0) 推荐(0) 编辑
 

2017年1月3日

摘要: 前边由Hoeffding出发讨论了为什么机器可以学习,主要就是在N很大的时候Ein PAC Eout,选择较小的Ein,这样的Eout也较小,但是当时还有一个问题没有解决,就是当时的假设的h的集合是个数是有限的,那么本文继续讨论h个数为无限的情况。http://www.cnblogs.com/fut 阅读全文
posted @ 2017-01-03 22:33 futurehau 阅读(434) 评论(0) 推荐(0) 编辑
 

2016年12月29日

摘要: 主要讲解内容来自机器学习基石课程。主要就是基于Hoeffding不等式来从理论上描述使用训练误差Ein代替期望误差Eout的合理性。 PAC : probably approximately correct 一方面:根据PAC,针对一个h,Ein与Eout的差距很大的概率是很小的 另一方面:不能说直 阅读全文
posted @ 2016-12-29 23:46 futurehau 阅读(466) 评论(0) 推荐(0) 编辑
 
摘要: 从四个角度大致总结一下不同类型的机器学习问题。 1. 按照输出空间的变化: 分类问题(二分类、多分类)、回归问题 2. 按照输出的标记变化: 监督学习 与 非监督学习 与 半监督学习(树的识别) 与 增强学习(训练宠物) 非监督学习又可以分为:分群问题、density estimation 、out 阅读全文
posted @ 2016-12-29 00:12 futurehau 阅读(192) 评论(0) 推荐(0) 编辑