posted @ 2017-12-10 00:29 蓝空 阅读(392) 评论(0) 推荐(0) 编辑
摘要:
这对于现代的数据集其实是很现实的。比如对于美国的人口普查数据集来说美国有3亿人口,我们通常都能得到上亿条的数据。 如果我们看一下很受欢迎的网站的浏览量,我们也很容易得到上亿条的记录。 假设我们要训练一个线性回归模型或者是逻辑回归模型,这是梯度下降的规则: 当你在... 阅读全文
摘要:
1 推荐系统 问题表述以预测电影评分这个时兴的问题为例,假想你是一个销售或出租电影的网站,你让用户使用1至5颗星 给不同的电影评分: 假设下面的表格是几个用户针对五部电影给出的评分。其中”?”代表用户没有给出评分: 电影 Alice(1) Bob(2) Carol(3) D... 阅读全文
posted @ 2017-12-09 16:46 蓝空 阅读(188) 评论(0) 推荐(0) 编辑
摘要:
1 背景之前的异常检测算法,其实是以中心区域向外以正圆的形式扩散的。也就是说距离中心区域距离相等的点,对应的p(x)都是一样的,所以我们可能无法检测到这一个异常样本,因为它也处在一个p(x)比较大的范围内: 之前的也就是圆形的范围,但是我们现在将要说的是蓝色的范围,很明显多元高斯分... 阅读全文
posted @ 2017-12-09 14:18 蓝空 阅读(683) 评论(0) 推荐(0) 编辑
摘要:
在接下来的一系列课程中,我将向大家介绍异常检测(Anomaly detection)问题。这是机器学习算法的一个常见应用。这种算法的一个有趣之处在于它虽然主要用于非监督学习问题,但从某些角度看,它又类似于一些监督学习问题。1 定义异常检测问题更正式一些的定义如下:假设我们有m个正... 阅读全文
posted @ 2017-12-07 13:12 蓝空 阅读(274) 评论(0) 推荐(0) 编辑
摘要:
1 Python字符串的encode与decode1.1 简单介绍字符串在Python内部的表示是unicode编码,因此,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码(decode)成unicode,再从unicode编码(encode)成另一种... 阅读全文
posted @ 2017-12-05 12:31 蓝空 阅读(173) 评论(0) 推荐(0) 编辑
摘要:
项目需要,需要分词外加情感分析,网上的很多直接用的情感分析不适合本项目,因此需要修改情感词典从而加以修正。本次使用的就是pynlpir进行分词,然后情感分析逻辑自己搞。 先跑几个小demo,可以试一试效果 相关简短介绍: NLPIR分詞系統前身為2000年發布的ICTCLAS詞法分析... 阅读全文
posted @ 2017-12-02 20:34 蓝空 阅读(734) 评论(0) 推荐(0) 编辑
摘要:
1 目的 如果你有上百或者上千的特征变量,很容易就会忘记你到底有什么特征变量,而且有时候可能有几个不同的工程师团队。一队工程师可能给你200个特征变量,第二队工程师可能再给你300个特征变量,然后第三队工程师给你500个特征变量。所以你一共有1000个特征变量,这样就很难搞清哪个... 阅读全文
posted @ 2017-11-30 13:25 蓝空 阅读(319) 评论(0) 推荐(0) 编辑
摘要:
参考原博:http://blog.csdn.net/itplus/article/details/11452743 阅读全文
posted @ 2017-11-30 09:58 蓝空 阅读(1385) 评论(0) 推荐(0) 编辑
摘要:
1 用途图1是细分市场,将所有用户划分至不同的细分市场组,以便于营销或服务。图2是社交分析体系,比如在社交网络中观察一群人,看他们和谁有电子邮件来往,或者查找一群相互有联系的人。图3是用聚类来组织运算集群或组织数据中心,因为,如果你知道在集群中,哪些计算机的数据中心倾向于一起工作,你... 阅读全文
posted @ 2017-11-29 20:28 蓝空 阅读(146) 评论(0) 推荐(0) 编辑