随笔分类 -  数据挖掘及机器学习

protobuf,log4j,日志处理及挖掘
摘要:http://blog.csdn.net/pelick/article/details/11964291Shark简介Shark即Hive on Spark,本质上是通过Hive的HQL解析,把HQL翻译成Spark上的RDD操作,然后通过Hive的metadata获取数据库里的表信息,实际HDFS... 阅读全文
posted @ 2014-04-21 12:17 Django's blog 阅读(594) 评论(0) 推荐(0) 编辑
摘要:http://blog.csdn.net/pelick/article/details/7269670http://zookeeper.apache.org/doc/trunk/javaExample.html官网上文档,API,用例Zookeeper应用简单例子Zookeeper能帮我们作什么事情... 阅读全文
posted @ 2014-04-21 12:14 Django's blog 阅读(439) 评论(0) 推荐(0) 编辑
摘要:http://www.infoq.com/cn/news/2014/04/netease-spark-practice?utm_source=infoq&utm_medium=popular_links_homepage网易的实时计算需求对于大多数的大数据而言,实时性是其所应具备的重要属性,信息的到... 阅读全文
posted @ 2014-04-21 12:04 Django's blog 阅读(975) 评论(0) 推荐(0) 编辑
摘要:http://www.williamlong.info/archives/3125.html互联网精准广告定向技术,指的是依托于搜索引擎庞大的网民行为数据库,对网民几乎所有上网行为进行个性化的深度分析,按广告主需求锁定目标受众,进行一对一传播,提供多通道投放,按照效果付费。 本文的写作初衷是总结自... 阅读全文
posted @ 2014-04-17 18:06 Django's blog 阅读(503) 评论(1) 推荐(1) 编辑
摘要:http://www.dataguru.cn/portal.php?mod=view&aid=3514摘要: 最近断断续续地在接触一些python的东西。按照我的习惯,首先从应用层面搞起,尽快入门,后续再细化一 些技术细节。找了一些资料,基本语法和数据结构搞定之后,目光便转到了scikit-learn这个包。最近断断续续地在接触一些python的东西。按照我的习惯,首先从应用层面搞起,尽快入门,后续再细化一 些技术细节。找了一些资料,基本语法和数据结构搞定之后,目光便转到了scikit-learn这个包。这个包是基于scipy的统计学习包。里面所涵盖 的算法接口非常全面。更令人振奋的是 阅读全文
posted @ 2014-04-08 22:05 Django's blog 阅读(1213) 评论(0) 推荐(0) 编辑
摘要:http://blog.csdn.net/zouxy09/article/details/20319673机器学习算法与Python实践之(七)逻辑回归(Logistic Regression)zouxy09@qq.comhttp://blog.csdn.net/zouxy09 机器学习算法与Python实践这个系列主要是参考《机器学习实战》这本书。因为自己想学习Python,然后也想对一些机器学习算法加深下了解,所以就想通过Python来实现几个比较常用的机器学习算法。恰好遇见这本同样定位的书籍,所以就参考这本书的过程来学习了。 这节学习的是逻辑回归(Logistic Regress... 阅读全文
posted @ 2014-04-08 22:04 Django's blog 阅读(2545) 评论(1) 推荐(0) 编辑
摘要:http://www.2cto.com/kf/201307/226576.html,这个是Sigmoid函数,在这个回归过程中非常重要的函数,主要的算法思想和这个密切相关。这个函数的性质大家可以自己下去分析,这里就不细说了。然后我们说明下流程,首先我们将每个特征都乘以一个回归系数,然后将这个总和带入上面的函数,进而得到一个数值在0~1的值,则大于0.5归到1类,小于0.5归到0类。但是这么多维特征的系数该怎么选取成了我们最关心的问题。这样我们就构建了一个二分类的模型,判定一个东西是不是某个分类。迭代使用的微分公式:我们沿着这个进行迭代求最优权重参数,这样出来的参数就可以出来了。对于二维空间的我 阅读全文
posted @ 2014-04-04 18:44 Django's blog 阅读(390) 评论(0) 推荐(0) 编辑
摘要:Logisticregression(逻辑回归)是当前业界比较常用的机器学习方法,用于估计某种事物的可能性。比如某用户购买某商品的可能性,某病人患有某种疾病的可能性,以及某广告被用户点击的可能性等。(注意这里是:“可能性”,而非数学上的“概率”,logisitc回归的结果并非数学定义中的概率值,不可以直接当做概率值来用。该结果往往用于和其他特征值加权求和,而非直接相乘)那么它究竟是什么样的一个东西,又有哪些适用情况和不适用情况呢?一、官方定义:,Figure1.Thelogisticfunction,withzonthehorizontalaxisandƒ(z)ontheverticalaxi 阅读全文
posted @ 2014-04-04 17:03 Django's blog 阅读(376) 评论(0) 推荐(0) 编辑
摘要:你不是改个参数几个队一起刷的话应该还好吧我当初就觉得这样不好,后面多半要出乱子。浙大宣讲问主办方,现在这种情况,几条简单规则就能刷到6,我要是把这几条简单的规则告诉别人,那别人不都挤到前面,那赛季1不就没意义了?然后还有mj的问题。宣讲的老师说,那你觉得现在极限是多少呢?是7么。mj这种问题都是小问题后来算者说得好,规则确实能做得比较好,怎么结合规则做出更好的模型才是王道,模型不如规则只能说模型做的不够好。这个对我影响还蛮大的,也让我好好反思了一下。我现在靠LR做到6.8,基本也没做规则了,而是想如何用以前淘宝有个做CTR预估的MLR的思路结合商品类目和用户定向做更好的结合规则的LR。我把我p 阅读全文
posted @ 2014-04-04 15:20 Django's blog 阅读(676) 评论(0) 推荐(0) 编辑
摘要:http://blog.csdn.net/zhaoxinfan/article/details/8821419这学期选了一门名叫《web智能与社会计算》的课,老师最后偷懒,最后的课程project作业直接让我们参加百度的一个电影推荐系统算法大赛,然后以在这个比赛中的成绩作为这门课大作业的成绩。不过,最终的结果并不需要百度官方的评估,只需要我们的截图即可(参看百度云平台),例如下面这个:上面最重要的就是RMSE的数值,数值越小代表偏差越小,百度排行榜就是按值从小到大来排列的,这些人使用的可能是比SVD更好的算法,即使这样达到一定范围后再想进步就很难了,估计不会有人低于0.6这个值。言归正传,下面 阅读全文
posted @ 2014-04-02 16:02 Django's blog 阅读(1624) 评论(0) 推荐(0) 编辑
摘要:http://ling0322.info/2013/05/07/recommander-system.html这个学期Web智能与社会计算的大作业就是完成一个推荐系统参加百度电影推荐算法大赛,成绩按照评测数据给分。老师介绍了N种方法包括基于内容的、以及协同过滤等等,不过他强烈建议使用矩阵奇异值分解的办法来做。也正因为是这个原因,我们一共8组其中6组的模型都是SVD。这个比赛就是提供给你用户对电影的评分、电影的TAG、用户的社会关系(好友)、用户的观看纪录信息。其中用户对电影的评分满分是5分,大约8k用户、1w电影,然后根据以上的信息预测用户对某些电影的评分。然后评测结果就是跟用户实际评分的RM 阅读全文
posted @ 2014-04-02 15:57 Django's blog 阅读(1608) 评论(0) 推荐(0) 编辑
摘要:http://www.janscon.com/multiarray/rs_used_svd.html【声明】本文主要参考自论文《A SINGULAR VALUE DECOMPOSITION APPROACH FOR. RECOMMENDATION SYSTEMS》1、简介该文章中提出两个创新点,首先先将User与Item分类,然后根据分类将矩阵分成相应的“子矩阵”,对这些矩阵进行相应的SVD不仅会提高准确率还会降低计算复杂度;另外一个创新点是在于使用三维矩阵,然后通过矩阵分解成、与子矩阵后再进行SVD分析,这篇文章的结果表示引入tags会提高推荐性能。2、用户评分矩阵评分矩阵3、进行奇异值分解 阅读全文
posted @ 2014-04-02 15:45 Django's blog 阅读(1050) 评论(0) 推荐(0) 编辑
摘要:http://www.cnblogs.com/biyeymyhjob/archive/2012/07/18/2595410.html转自别处有很多与此类似的文章也不知道谁是原创 因原文由少于错误 所以下文对此有修改并且做了适当的重点标记(横线见的内容没大明白 并且有些复杂,后面的运行流程依据前面的得出的算子进行分类)初步接触谓LR分类器(Logistic Regression Classifier),并没有什么神秘的。在分类的情形下,经过学习之后的LR分类器其实就是一组权值w0,w1,...,wm.当测试样本集中的测试数据来到时,这一组权值按照与测试数据线性加和的方式,求出一个z值:z = w 阅读全文
posted @ 2014-04-02 15:39 Django's blog 阅读(792) 评论(0) 推荐(0) 编辑
摘要:http://in.sdo.com/?p=11原文链接:Netflix recommendations: beyond the 5 stars(Part 1),(Part 2)原文作者:Xavier Amatriainand Justin Basilico前言Nexflix是一家提供在线视频流媒体服务和DVD租赁业务的公司,也是著名的Netflix大奖赛的发起者。如果读者希望进一步了解Netflix,建议读一下和讯上的一篇文章:Netflix:从传统DVD租赁向流媒体华丽转身以及爱范儿上的:Netflix成功的背后:高薪,高标准,高淘汰率,股票,无限制休假,恐惧文化,垃圾便当午餐在这篇博文中, 阅读全文
posted @ 2014-04-02 15:30 Django's blog 阅读(1089) 评论(0) 推荐(0) 编辑
摘要:转自:http://blog.csdn.net/v_july_v/article/details/7577684从决策树学习谈到贝叶斯分类算法、EM、HMM (Machine Learning & Data Mining交流群:8986884)引言 最近在面试中,除了基础 & 算法 & 项目之外,经常被问到或被要求介绍和描述下自己所知道的几种分类或聚类算法(当然,这完全不代表你将来的面试中会遇到此类问题,只是因为我的简历上写了句:熟悉常见的聚类 & 分类算法而已),而我向来恨对一个东西只知其皮毛而不得深入,故写一个有关数据挖掘十大算法的系列文章以作为自己备试之用 阅读全文
posted @ 2014-04-02 15:16 Django's blog 阅读(867) 评论(0) 推荐(0) 编辑
摘要:数据挖掘中 决策树算法实现——Bash博客分类:数据挖掘决策树bash非递归实现标准信息熵数据挖掘决策树bash非递归实现标准信息熵一、决策树简介:关于决策树,几乎是数据挖掘分类算法中最先介绍到的。决策树,顾名思义就是用来做决定的树,一个分支就是一个决策过程。每个决策过程中涉及一个数据的属性,而且只涉及一个。然后递归地,贪心地直到满足决策条件(即可以得到明确的决策结果)。决策树的实现首先要有一些先验(已经知道结果的历史)数据做训练,通过分析训练数据得到每个属性对结果的影响的大小,这里我们通过一种叫做信息增益的理论去描述它,期间也涉及到熵的概念。也可参考文章信息增益与熵.下面我们结合实例说一下决 阅读全文
posted @ 2014-04-02 15:12 Django's blog 阅读(611) 评论(0) 推荐(0) 编辑
摘要:决策树算法总结参考:《机器学习》Tom版 以及http://blog.csdn.net/v_july_v/article/details/7577684一、简介决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出。 数据挖掘中决策树是一种经常要用到的技术,可以用于分析数据,同样也可以用来作预测(就像上面的银行官员用他来预测贷款风险)。从数据产生决策树的机器学习技术叫做决策树学习, 阅读全文
posted @ 2014-04-02 15:06 Django's blog 阅读(457) 评论(0) 推荐(0) 编辑
摘要:http://www.cnblogs.com/FengYan/archive/2012/05/06/2480664.html1. SVD简介假如要预测Zero君对一部电影M的评分,而手上只有Zero君对若干部电影的评分和风炎君对若干部电影的评分(包含M的评分)。那么能预测出Zero君对M的评分吗?答案显然是能。最简单的方法就是直接将预测分定为平均分。不过这时的准确度就难说了。本文将介绍一种比这个最简单的方法要准上许多,并且也不算复杂的算法。 SVD(Singular Value Decomposition)的想法是根据已有的评分情况,分析出评分者对各个因子的喜好程度以及电影包含各个因子的程度, 阅读全文
posted @ 2014-04-02 14:16 Django's blog 阅读(294) 评论(0) 推荐(0) 编辑
摘要:http://blog.csdn.net/wuyanyi/article/details/7964883参考自:http://www.igvita.com/2007/01/15/svd-recommendation-system-in-ruby/其实说参考也不准确,准确地说应该是半翻译半学习笔记。仔细整理一遍,感觉还是收获很大的。线性代数相关知识:任意一个M*N的矩阵A(M行*N列,M>N),可以被写成三个矩阵的乘机:1.U:(M行M列的列正交矩阵)2.S:(M*N的对角线矩阵,矩阵元素非负)3.V:(N*N的正交矩阵的倒置)即A=U*S*V‘(注意矩阵V需要倒置)直观地说:假设我们有一 阅读全文
posted @ 2014-04-02 14:14 Django's blog 阅读(346) 评论(0) 推荐(0) 编辑
摘要:http://my.oschina.net/wxcchd/blog/139271如何利用用户行为数据?目前应用最广泛的就是使用基于用户行为数据分析的算法进行推荐。基于用户行为数据分析的推荐算法一般被成为协同过滤算法。协同过滤算法有很多种,基于邻域的方法、隐语义模型、基于图的随机游走算法等等,而协同过滤也只是推荐算法中的一类,还有基于人口统计学的推荐、基于内容的推荐等等。实际应用中用到最多的还有机器学习,聚类分类等等貌似在实际中都有应用。由于对机器学习一点也不了解,这里也就不提了,以后会对其进行补充。本文主要整理的是基于邻域的方法,主要包含两种算法:基于用户的协同过滤(userCF)和基于物品的 阅读全文
posted @ 2014-04-02 12:20 Django's blog 阅读(984) 评论(0) 推荐(0) 编辑