12 2014 档案

摘要:photo OCR应用1.介绍:光学字符识别,图片文字转为可编辑的文字。2.步骤:(使用管道pipeline)识别出文本区域字符分割单个字符识别3.识别出文本区域收集长方形的图形作为训练集,表示是否是文字区域,训练算法。在图片中使用长方形(不同大小的)滑动窗口进行扫描,对每个长方形使用训练的算法判读... 阅读全文
posted @ 2014-12-04 23:45 baoff 阅读(1283) 评论(0) 推荐(0)
摘要:第十章、大型数据集的学习1.很多时候数据是越大越好,所以处理大量数据的时候就会很费时,但是在确定数据的时候,一定要先想一下,如果只使用部分数据(不是很大),就能替代整体数据,那么还是选择部分数据。或者这是一个欠拟合的问题,而需要先修改。2.随机梯度下降stochastic gradient desc... 阅读全文
posted @ 2014-12-04 11:26 baoff 阅读(379) 评论(0) 推荐(0)
摘要:第九章(2)、推荐系统1.基于内容推荐content based recommendations根据内容给产品一个度(电影的浪漫度,喜剧度,动作度)使用线性回归方法(将除以m删掉了):缺点:这种方法需要根据内容给产品一个度值,很花时间,只能用于容易确定度值的问题。反过来求:依然使用上面的例子,现在给... 阅读全文
posted @ 2014-12-02 20:32 baoff 阅读(668) 评论(0) 推荐(0)
摘要:第九章(1)、异常检测1.正态\高斯分布 μ代表均值(曲线的对称轴)、σ代表标准差(曲线的宽度)根据数据集估计:2.密度估计3.数据集分类训练集使用正常产品的数据,验证集测试集使用正常和异常产品的数据。验证集和测试集的数据不能一样。4.使用交叉验证集去求,因为数据是高倾斜的y=1的数据很少,所... 阅读全文
posted @ 2014-12-01 10:00 baoff 阅读(855) 评论(0) 推荐(0)