04 2014 档案

摘要:http://blog.csdn.net/aquester/article/details/23340027类别名称官网备注查询引擎Phoenixhttp://phoenix.incubator.apache.org/ApacheHBase之上的一个SQL中间层,完全使用Java编写Stingerh... 阅读全文
posted @ 2014-04-28 23:14 Django's blog 阅读(350) 评论(0) 推荐(0) 编辑
摘要:http://blog.csdn.net/w13770269691/article/details/16883663废话不讲,直切正题。搭建环境:Centos x 6.4 64bit1、安装JDK我这里用的是64位机,要下载对应的64位的JDK,下载地址:http://www.oracle.com/... 阅读全文
posted @ 2014-04-28 22:45 Django's blog 阅读(431) 评论(0) 推荐(0) 编辑
摘要:http://blog.csdn.net/yueguanghaidao/article/details/10416867最近"瑞丽模特学Python"的热点牵动了大江南北程序员的心,有人说这是炒作,也有人说这是推广Python的爆点。。。我嘿嘿一笑,美女就是美女,眼光那是杠杠的,不仅人美,学的语言也... 阅读全文
posted @ 2014-04-25 15:41 Django's blog 阅读(4109) 评论(0) 推荐(0) 编辑
摘要:http://www.cnblogs.com/forfuture1978/archive/2010/05/08/1730200.html一、Lucene的查询语法Lucene所支持的查询语法可见http://lucene.apache.org/java/3_0_1/queryparsersyntax... 阅读全文
posted @ 2014-04-25 15:30 Django's blog 阅读(585) 评论(0) 推荐(0) 编辑
摘要:http://blog.jobbole.com/65605/本文由伯乐在线-atupal翻译自Ajay Kumar N。欢迎加入技术翻译小组。转载请参见文章末尾处的要求。正则表达式是从信息中搜索特定的模式的一把瑞士军刀。它们是一个巨大的工具库,其中的一些功能经常被忽视或未被充分利用。今天我将向你们展... 阅读全文
posted @ 2014-04-25 13:01 Django's blog 阅读(400) 评论(0) 推荐(0) 编辑
摘要:spark0.8.0安装与学习原文地址:http://www.yanjiuyanjiu.com/blog/20131017/环境:CentOS 6.4, Hadoop 1.1.2, JDK 1.7, Spark 0.8.0, Scala 2.9.3Spark 0.7.2 的安装请看之前的一篇博客,安... 阅读全文
posted @ 2014-04-24 21:58 Django's blog 阅读(359) 评论(0) 推荐(0) 编辑
摘要:http://blog.csdn.net/wind520/article/details/9308809运行Java应用的时候,提示无法找到JAVA_HOME,查询java -version[plain]view plaincopy[jifeng@localhostbin]$java-version... 阅读全文
posted @ 2014-04-24 21:48 Django's blog 阅读(2646) 评论(0) 推荐(0) 编辑
摘要:http://www.ruanyifeng.com/blog/2009/10/5_ways_to_search_for_files_using_the_terminal.html在Linux中,有很多方法可以做到这一点。国外网站LinuxHaxor总结了五条命令,你可以看看自己知道几条。大多数程序员... 阅读全文
posted @ 2014-04-24 21:06 Django's blog 阅读(209) 评论(0) 推荐(0) 编辑
摘要:1. logging介绍Python的logging模块提供了通用的日志系统,可以方便第三方模块或者是应用使用。这个模块提供不同的日志级别,并可以采用不同的方式记录日志,比如文件,HTTP GET/POST,SMTP,Socket等,甚至可以自己实现具体的日志记录方式。logging模块与log4j... 阅读全文
posted @ 2014-04-24 17:59 Django's blog 阅读(1023) 评论(0) 推荐(0) 编辑
摘要:AWK 简明教程转自:http://coolshell.cn/articles/9070.html有一些网友看了前两天的《Linux下应该知道的技巧》希望我能教教他们用awk和sed,所以,出现了这篇文章。我估计这些80后的年轻朋友可能对awk/sed这类上古神器有点陌生了,所以需要我这个老家伙来炒... 阅读全文
posted @ 2014-04-23 13:26 Django's blog 阅读(328) 评论(0) 推荐(0) 编辑
摘要:中文分词一般会选择ICTCLAS的模块,虽然不能说很完美,但也算是一个不错的选择。它提供了windows版本和linux版本,并支持C/C#/JNI接口。这本来是一个不错的事情,但版本一多,官方似乎就有点维护不过来了。在linux下调用它的.so文件后,它会报错如下:12Exception in t... 阅读全文
posted @ 2014-04-22 12:00 Django's blog 阅读(1237) 评论(0) 推荐(0) 编辑
摘要:http://www.cnblogs.com/CheeseZH/archive/2012/11/27/2791037.html吃水不忘挖井人,这篇文章给了我很大帮助:http://blog.csdn.net/caimo/article/details/7686872,这篇文章写的蛮详细,不过是ICT... 阅读全文
posted @ 2014-04-22 11:42 Django's blog 阅读(3731) 评论(0) 推荐(0) 编辑
摘要:本文地址:http://blog.csdn.net/kongxx/article/details/72187671. 首先从Jetty的官方网站http://wiki.eclipse.org/Jetty/Starting/Downloads下载最新的Jetty,上面有两个版本7.x和8.x,7.x是... 阅读全文
posted @ 2014-04-22 10:45 Django's blog 阅读(331) 评论(0) 推荐(0) 编辑
摘要:http://www.cnblogs.com/jerrylead/archive/2011/03/05/1971867.html 【转载时请注明来源】:http://www.cnblogs.com/jerrylead JerryLead 2011年2月27日 作为一个机器学习初学者,认识有限,表述... 阅读全文
posted @ 2014-04-21 18:24 Django's blog 阅读(253) 评论(0) 推荐(0) 编辑
摘要:http://cn.soulmachine.me//blog/20130617/环境:CentOS 6.4, Hadoop 1.1.2, JDK 1.7, Spark 0.7.2, Scala 2.9.3折腾了几天,终于把Spark 集群安装成功了,其实比hadoop要简单很多,由于网上搜索到的博客... 阅读全文
posted @ 2014-04-21 18:21 Django's blog 阅读(526) 评论(0) 推荐(0) 编辑
摘要:http://www.cnblogs.com/jerrylead/archive/2012/08/13/2636149.htmlHadoop vs Spark性能对比基于Spark-0.4和Hadoop-0.20.21. Kmeans数据:自己产生的三维数据,分别围绕正方形的8个顶点{0, 0, 0... 阅读全文
posted @ 2014-04-21 13:30 Django's blog 阅读(895) 评论(0) 推荐(0) 编辑
摘要:http://blog.csdn.net/whaoxysh/article/details/17755555虚拟机安装我安装的虚拟机版本是VMware Workstation 8.04,自己电脑上安装的有的话直接在虚拟机安装Linux操作系统,没有的话这里有我的一个百度云网盘虚拟机安装共享文件htt... 阅读全文
posted @ 2014-04-21 12:25 Django's blog 阅读(1420) 评论(0) 推荐(0) 编辑
摘要:转:http://blog.csdn.net/pelick/article/details/9888311Spark概述Spark是一种与 Hadoop 相似的开源集群计算环境,在性能和迭代计算上很有看点,现在是Apache孵化的顶级项目吧。Spark 由加州大学伯克利分校 AMP 实验室(Algo... 阅读全文
posted @ 2014-04-21 12:19 Django's blog 阅读(361) 评论(0) 推荐(0) 编辑
摘要:http://blog.csdn.net/pelick/article/details/11964291Shark简介Shark即Hive on Spark,本质上是通过Hive的HQL解析,把HQL翻译成Spark上的RDD操作,然后通过Hive的metadata获取数据库里的表信息,实际HDFS... 阅读全文
posted @ 2014-04-21 12:17 Django's blog 阅读(602) 评论(0) 推荐(0) 编辑
摘要:http://blog.csdn.net/pelick/article/details/7269670http://zookeeper.apache.org/doc/trunk/javaExample.html官网上文档,API,用例Zookeeper应用简单例子Zookeeper能帮我们作什么事情... 阅读全文
posted @ 2014-04-21 12:14 Django's blog 阅读(442) 评论(0) 推荐(0) 编辑
摘要:http://www.infoq.com/cn/news/2014/04/netease-spark-practice?utm_source=infoq&utm_medium=popular_links_homepage网易的实时计算需求对于大多数的大数据而言,实时性是其所应具备的重要属性,信息的到... 阅读全文
posted @ 2014-04-21 12:04 Django's blog 阅读(978) 评论(0) 推荐(0) 编辑
摘要:http://blog.jobbole.com/65218/本文由伯乐在线-熊崽Kevin翻译自pypix.com。欢迎加入技术翻译小组。转载请参见文章末尾处的要求。数据结构数据结构的概念很好理解,就是用来将数据组织在一起的结构。换句话说,数据结构是用来存储一系列关联数据的东西。在Python中有四... 阅读全文
posted @ 2014-04-21 10:22 Django's blog 阅读(522) 评论(0) 推荐(0) 编辑
摘要:http://www.williamlong.info/archives/3125.html互联网精准广告定向技术,指的是依托于搜索引擎庞大的网民行为数据库,对网民几乎所有上网行为进行个性化的深度分析,按广告主需求锁定目标受众,进行一对一传播,提供多通道投放,按照效果付费。 本文的写作初衷是总结自... 阅读全文
posted @ 2014-04-17 18:06 Django's blog 阅读(508) 评论(1) 推荐(1) 编辑
摘要:Python写UTF8文件,UE、记事本打开依然乱码的问题Leave a reply现象:使用codecs打开文件,写入UTF-8文本,正常无错误。用vim打开正常,但记事本、UE等打开乱码。原因:一般写文本时,默认是没有BOM头的,即编辑器不知道这个文本文件是神马编码,只能智能detect,这个d... 阅读全文
posted @ 2014-04-17 14:56 Django's blog 阅读(785) 评论(0) 推荐(0) 编辑
摘要:支付宝openssl漏洞肆虐 互联网巨头称目前已修复 金山毒霸安全专家李铁军表示,这个漏洞使黑客可以远程读取https服务器的随机64KB内存,“只要这个黑客有耐心多捕获多分析那些64KB的数据,用户访问网站的cookies、SSL私钥、账号密码,这些数据全都可能被黑客远程读取到。” 一位安全行业... 阅读全文
posted @ 2014-04-16 20:45 Django's blog 阅读(404) 评论(0) 推荐(0) 编辑
摘要:http://blogread.cn/it/article/62?f=wb1当你接手一个系统时,通常是从检查系统负载,cpu、内存使用率开始,查看statspack top5等待事件,逻辑读、物理读排名靠前的sql语句等等,然后进行初步的优化。而随着业务的深入了解,你开始从系统的角度去考虑据库设计,... 阅读全文
posted @ 2014-04-15 13:51 Django's blog 阅读(866) 评论(0) 推荐(0) 编辑
摘要:无插件Vim编程技巧http://bbs.byr.cn/#!article/buptAUTA/59钻风 2014-03-24 09:43:46 发表于:vim相信大家看过《简明Vim教程》也玩了《Vim大冒险》的游戏了,相信大家对Vim都有一个好的入门了。我在这里把我日常用Vim编程的一些技巧列出来... 阅读全文
posted @ 2014-04-14 13:23 Django's blog 阅读(356) 评论(0) 推荐(0) 编辑
摘要:1.前言Maven,发音是[`meivin],"专家"的意思。它是一个很好的项目管理工具,很早就进入了我的必备工具行列,但是这次为了把project1项目完全迁移并应用maven,所以对maven进行了一些深入的学习。写这个学习笔记的目的,一个是为了自己备忘,二则希望能够为其他人学习使用maven 缩短一些时间。 2.命令 mvn pom.xml文件配置详解 http://maven.apache.org/ref/2.0.8/maven-model/maven.html mvn -version/-v 显示版本信息 mvn archetype:generate 创建mvn项 阅读全文
posted @ 2014-04-11 12:02 Django's blog 阅读(1278) 评论(0) 推荐(0) 编辑
摘要:Python读写文件1.open使用open打开文件后一定要记得调用文件对象的close()方法。比如可以用try/finally语句来确保最后能关闭文件。file_object = open('thefile.txt')try: all_the_text = file_object.read( )finally: file_object.close( )注:不能把open语句放在try块里,因为当打开文件出现异常时,文件对象file_object无法执行close()方法。2.读文件读文本文件input = open('data', 'r')# 阅读全文
posted @ 2014-04-09 22:05 Django's blog 阅读(726) 评论(0) 推荐(0) 编辑
摘要:http://www.cnblogs.com/aicro/p/3371986.html先前需要做一个使用python读取大文件(大于1G),并逐条存入内存进行处理的工作。做了很多的尝试,最终看到了如下的文章。http://stackoverflow.com/questions/8009882/how-to-read-large-file-line-by-line-in-python该文章实际上提供了集中读取大文件的方式,先经过测试总结如下1. for line in fileHandle:该方式是最快速的。而且python虚拟机在内部帮助我们对buffer进行管理,内存占用量小,且不差错。2. 阅读全文
posted @ 2014-04-09 21:44 Django's blog 阅读(446) 评论(0) 推荐(0) 编辑
摘要:原文出处:http://hi.baidu.com/ytjwt/blog/item/1ccc2c26022b0608908f9d8c.html使用"insert into"语句进行数据库操作时可能遇到主键冲突,用户需要根据应用场景进行忽略或者覆盖等操作。总结下,有三种解决方案来避免出错。1. insert ignore into遇主键冲突,保持原纪录,忽略新插入的记录。mysql> select * from device ;+-------+--------+-------------+| devid | status | spec_char |+-------+-- 阅读全文
posted @ 2014-04-09 15:54 Django's blog 阅读(1514) 评论(0) 推荐(0) 编辑
摘要:http://www.dataguru.cn/portal.php?mod=view&aid=3514摘要: 最近断断续续地在接触一些python的东西。按照我的习惯,首先从应用层面搞起,尽快入门,后续再细化一 些技术细节。找了一些资料,基本语法和数据结构搞定之后,目光便转到了scikit-learn这个包。最近断断续续地在接触一些python的东西。按照我的习惯,首先从应用层面搞起,尽快入门,后续再细化一 些技术细节。找了一些资料,基本语法和数据结构搞定之后,目光便转到了scikit-learn这个包。这个包是基于scipy的统计学习包。里面所涵盖 的算法接口非常全面。更令人振奋的是 阅读全文
posted @ 2014-04-08 22:05 Django's blog 阅读(1217) 评论(0) 推荐(0) 编辑
摘要:http://blog.csdn.net/zouxy09/article/details/20319673机器学习算法与Python实践之(七)逻辑回归(Logistic Regression)zouxy09@qq.comhttp://blog.csdn.net/zouxy09 机器学习算法与Python实践这个系列主要是参考《机器学习实战》这本书。因为自己想学习Python,然后也想对一些机器学习算法加深下了解,所以就想通过Python来实现几个比较常用的机器学习算法。恰好遇见这本同样定位的书籍,所以就参考这本书的过程来学习了。 这节学习的是逻辑回归(Logistic Regress... 阅读全文
posted @ 2014-04-08 22:04 Django's blog 阅读(2545) 评论(1) 推荐(0) 编辑
摘要:http://www.2cto.com/kf/201307/226576.html,这个是Sigmoid函数,在这个回归过程中非常重要的函数,主要的算法思想和这个密切相关。这个函数的性质大家可以自己下去分析,这里就不细说了。然后我们说明下流程,首先我们将每个特征都乘以一个回归系数,然后将这个总和带入上面的函数,进而得到一个数值在0~1的值,则大于0.5归到1类,小于0.5归到0类。但是这么多维特征的系数该怎么选取成了我们最关心的问题。这样我们就构建了一个二分类的模型,判定一个东西是不是某个分类。迭代使用的微分公式:我们沿着这个进行迭代求最优权重参数,这样出来的参数就可以出来了。对于二维空间的我 阅读全文
posted @ 2014-04-04 18:44 Django's blog 阅读(390) 评论(0) 推荐(0) 编辑
摘要:Logisticregression(逻辑回归)是当前业界比较常用的机器学习方法,用于估计某种事物的可能性。比如某用户购买某商品的可能性,某病人患有某种疾病的可能性,以及某广告被用户点击的可能性等。(注意这里是:“可能性”,而非数学上的“概率”,logisitc回归的结果并非数学定义中的概率值,不可以直接当做概率值来用。该结果往往用于和其他特征值加权求和,而非直接相乘)那么它究竟是什么样的一个东西,又有哪些适用情况和不适用情况呢?一、官方定义:,Figure1.Thelogisticfunction,withzonthehorizontalaxisandƒ(z)ontheverticalaxi 阅读全文
posted @ 2014-04-04 17:03 Django's blog 阅读(377) 评论(0) 推荐(0) 编辑
摘要:你不是改个参数几个队一起刷的话应该还好吧我当初就觉得这样不好,后面多半要出乱子。浙大宣讲问主办方,现在这种情况,几条简单规则就能刷到6,我要是把这几条简单的规则告诉别人,那别人不都挤到前面,那赛季1不就没意义了?然后还有mj的问题。宣讲的老师说,那你觉得现在极限是多少呢?是7么。mj这种问题都是小问题后来算者说得好,规则确实能做得比较好,怎么结合规则做出更好的模型才是王道,模型不如规则只能说模型做的不够好。这个对我影响还蛮大的,也让我好好反思了一下。我现在靠LR做到6.8,基本也没做规则了,而是想如何用以前淘宝有个做CTR预估的MLR的思路结合商品类目和用户定向做更好的结合规则的LR。我把我p 阅读全文
posted @ 2014-04-04 15:20 Django's blog 阅读(678) 评论(0) 推荐(0) 编辑
摘要:Python代码importcsv#从文件读取reader=csv.reader(file(srcFilePath,'rb'))forlineinreader:#忽略第一行ifreader.line_num==1:continue#line是个list,取得所有需要的值type=line[0]#写入文件writer=csv.writer(open(targetFile,"wb"),quoting=csv.QUOTE_ALL)#传入listwriter.writerow(["121","121"])#传入2纬listwr 阅读全文
posted @ 2014-04-04 00:04 Django's blog 阅读(651) 评论(0) 推荐(0) 编辑
摘要:http://www.cnblogs.com/pzxbc/archive/2012/03/18/2404715.htmlpython的pickle模块实现了基本的数据序列和反序列化。通过pickle模块的序列化操作我们能够将程序中运行的对象信息保存到文件中去,永久存储;通过pickle模块的反序列化操作,我们能够从文件中创建上一次程序保存的对象。 基本接口: pickle.dump(obj, file, [,protocol]) 注解:将对象obj保存到文件file中去。 protocol为序列化使用的协议版本,0:ASCII协议,所序列化的对象使用可打印的ASCII码表示;1:... 阅读全文
posted @ 2014-04-02 22:53 Django's blog 阅读(433) 评论(0) 推荐(0) 编辑
摘要:http://blog.csdn.net/zhaoxinfan/article/details/8821419这学期选了一门名叫《web智能与社会计算》的课,老师最后偷懒,最后的课程project作业直接让我们参加百度的一个电影推荐系统算法大赛,然后以在这个比赛中的成绩作为这门课大作业的成绩。不过,最终的结果并不需要百度官方的评估,只需要我们的截图即可(参看百度云平台),例如下面这个:上面最重要的就是RMSE的数值,数值越小代表偏差越小,百度排行榜就是按值从小到大来排列的,这些人使用的可能是比SVD更好的算法,即使这样达到一定范围后再想进步就很难了,估计不会有人低于0.6这个值。言归正传,下面 阅读全文
posted @ 2014-04-02 16:02 Django's blog 阅读(1645) 评论(0) 推荐(0) 编辑
摘要:http://ling0322.info/2013/05/07/recommander-system.html这个学期Web智能与社会计算的大作业就是完成一个推荐系统参加百度电影推荐算法大赛,成绩按照评测数据给分。老师介绍了N种方法包括基于内容的、以及协同过滤等等,不过他强烈建议使用矩阵奇异值分解的办法来做。也正因为是这个原因,我们一共8组其中6组的模型都是SVD。这个比赛就是提供给你用户对电影的评分、电影的TAG、用户的社会关系(好友)、用户的观看纪录信息。其中用户对电影的评分满分是5分,大约8k用户、1w电影,然后根据以上的信息预测用户对某些电影的评分。然后评测结果就是跟用户实际评分的RM 阅读全文
posted @ 2014-04-02 15:57 Django's blog 阅读(1613) 评论(0) 推荐(0) 编辑
摘要:http://www.janscon.com/multiarray/rs_used_svd.html【声明】本文主要参考自论文《A SINGULAR VALUE DECOMPOSITION APPROACH FOR. RECOMMENDATION SYSTEMS》1、简介该文章中提出两个创新点,首先先将User与Item分类,然后根据分类将矩阵分成相应的“子矩阵”,对这些矩阵进行相应的SVD不仅会提高准确率还会降低计算复杂度;另外一个创新点是在于使用三维矩阵,然后通过矩阵分解成、与子矩阵后再进行SVD分析,这篇文章的结果表示引入tags会提高推荐性能。2、用户评分矩阵评分矩阵3、进行奇异值分解 阅读全文
posted @ 2014-04-02 15:45 Django's blog 阅读(1062) 评论(0) 推荐(0) 编辑
摘要:http://www.cnblogs.com/biyeymyhjob/archive/2012/07/18/2595410.html转自别处有很多与此类似的文章也不知道谁是原创 因原文由少于错误 所以下文对此有修改并且做了适当的重点标记(横线见的内容没大明白 并且有些复杂,后面的运行流程依据前面的得出的算子进行分类)初步接触谓LR分类器(Logistic Regression Classifier),并没有什么神秘的。在分类的情形下,经过学习之后的LR分类器其实就是一组权值w0,w1,...,wm.当测试样本集中的测试数据来到时,这一组权值按照与测试数据线性加和的方式,求出一个z值:z = w 阅读全文
posted @ 2014-04-02 15:39 Django's blog 阅读(799) 评论(0) 推荐(0) 编辑
摘要:http://in.sdo.com/?p=11原文链接:Netflix recommendations: beyond the 5 stars(Part 1),(Part 2)原文作者:Xavier Amatriainand Justin Basilico前言Nexflix是一家提供在线视频流媒体服务和DVD租赁业务的公司,也是著名的Netflix大奖赛的发起者。如果读者希望进一步了解Netflix,建议读一下和讯上的一篇文章:Netflix:从传统DVD租赁向流媒体华丽转身以及爱范儿上的:Netflix成功的背后:高薪,高标准,高淘汰率,股票,无限制休假,恐惧文化,垃圾便当午餐在这篇博文中, 阅读全文
posted @ 2014-04-02 15:30 Django's blog 阅读(1096) 评论(0) 推荐(0) 编辑
摘要:转自:http://blog.csdn.net/v_july_v/article/details/7577684从决策树学习谈到贝叶斯分类算法、EM、HMM (Machine Learning & Data Mining交流群:8986884)引言 最近在面试中,除了基础 & 算法 & 项目之外,经常被问到或被要求介绍和描述下自己所知道的几种分类或聚类算法(当然,这完全不代表你将来的面试中会遇到此类问题,只是因为我的简历上写了句:熟悉常见的聚类 & 分类算法而已),而我向来恨对一个东西只知其皮毛而不得深入,故写一个有关数据挖掘十大算法的系列文章以作为自己备试之用 阅读全文
posted @ 2014-04-02 15:16 Django's blog 阅读(870) 评论(0) 推荐(0) 编辑
摘要:数据挖掘中 决策树算法实现——Bash博客分类:数据挖掘决策树bash非递归实现标准信息熵数据挖掘决策树bash非递归实现标准信息熵一、决策树简介:关于决策树,几乎是数据挖掘分类算法中最先介绍到的。决策树,顾名思义就是用来做决定的树,一个分支就是一个决策过程。每个决策过程中涉及一个数据的属性,而且只涉及一个。然后递归地,贪心地直到满足决策条件(即可以得到明确的决策结果)。决策树的实现首先要有一些先验(已经知道结果的历史)数据做训练,通过分析训练数据得到每个属性对结果的影响的大小,这里我们通过一种叫做信息增益的理论去描述它,期间也涉及到熵的概念。也可参考文章信息增益与熵.下面我们结合实例说一下决 阅读全文
posted @ 2014-04-02 15:12 Django's blog 阅读(613) 评论(0) 推荐(0) 编辑
摘要:决策树算法总结参考:《机器学习》Tom版 以及http://blog.csdn.net/v_july_v/article/details/7577684一、简介决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出。 数据挖掘中决策树是一种经常要用到的技术,可以用于分析数据,同样也可以用来作预测(就像上面的银行官员用他来预测贷款风险)。从数据产生决策树的机器学习技术叫做决策树学习, 阅读全文
posted @ 2014-04-02 15:06 Django's blog 阅读(463) 评论(0) 推荐(0) 编辑
摘要:http://www.cnblogs.com/FengYan/archive/2012/05/06/2480664.html1. SVD简介假如要预测Zero君对一部电影M的评分,而手上只有Zero君对若干部电影的评分和风炎君对若干部电影的评分(包含M的评分)。那么能预测出Zero君对M的评分吗?答案显然是能。最简单的方法就是直接将预测分定为平均分。不过这时的准确度就难说了。本文将介绍一种比这个最简单的方法要准上许多,并且也不算复杂的算法。 SVD(Singular Value Decomposition)的想法是根据已有的评分情况,分析出评分者对各个因子的喜好程度以及电影包含各个因子的程度, 阅读全文
posted @ 2014-04-02 14:16 Django's blog 阅读(299) 评论(0) 推荐(0) 编辑
摘要:http://blog.csdn.net/wuyanyi/article/details/7964883参考自:http://www.igvita.com/2007/01/15/svd-recommendation-system-in-ruby/其实说参考也不准确,准确地说应该是半翻译半学习笔记。仔细整理一遍,感觉还是收获很大的。线性代数相关知识:任意一个M*N的矩阵A(M行*N列,M>N),可以被写成三个矩阵的乘机:1.U:(M行M列的列正交矩阵)2.S:(M*N的对角线矩阵,矩阵元素非负)3.V:(N*N的正交矩阵的倒置)即A=U*S*V‘(注意矩阵V需要倒置)直观地说:假设我们有一 阅读全文
posted @ 2014-04-02 14:14 Django's blog 阅读(347) 评论(0) 推荐(0) 编辑
摘要:http://my.oschina.net/wxcchd/blog/139271如何利用用户行为数据?目前应用最广泛的就是使用基于用户行为数据分析的算法进行推荐。基于用户行为数据分析的推荐算法一般被成为协同过滤算法。协同过滤算法有很多种,基于邻域的方法、隐语义模型、基于图的随机游走算法等等,而协同过滤也只是推荐算法中的一类,还有基于人口统计学的推荐、基于内容的推荐等等。实际应用中用到最多的还有机器学习,聚类分类等等貌似在实际中都有应用。由于对机器学习一点也不了解,这里也就不提了,以后会对其进行补充。本文主要整理的是基于邻域的方法,主要包含两种算法:基于用户的协同过滤(userCF)和基于物品的 阅读全文
posted @ 2014-04-02 12:20 Django's blog 阅读(989) 评论(0) 推荐(0) 编辑
摘要:http://www.tuicool.com/articles/6reU7f收集和整理了目前互联网上能找到的和推荐系统相关的开源项目(Open Source Software | Recommendation),罗列如下,希望对本领域感兴趣的朋友有帮助(文/陈运文)SVDFeature由上海交大的同学开发(开发语言C++),代码严谨、质量高,我们参加KDD竞赛时用过,很可靠和方便,而且出自咱们国人之手,所以置顶推荐!项目地址:http://svdfeature.apexlab.org/wiki/Main_PageSVDFeature包含一个很灵活的Matrix Factorization推荐框 阅读全文
posted @ 2014-04-02 12:19 Django's blog 阅读(1097) 评论(0) 推荐(0) 编辑
摘要:推荐系统中所使用的混合技术介绍http://www.tuicool.com/articles/ruYnAn原文http://www.resyschina.com/2013/10/ensemble-recommendation.html文/陈运文在推荐系统实际运用中,各种混合技术是其中一项极为重要的核心技术。在工程实践中我们发现,混合技术对提升推荐效果、改进推荐系统的性能等都有重要意义,因此本文对该专题进行如下的一些总结和介绍。引言在这个信息爆炸的时代,消费者面临众多选择、未知的领域、过载的信息时,往往无所适从;然而与此同时,内容的生产者(例如商家)也在苦苦寻觅合适的用户,寻找最便捷的渠道,而解 阅读全文
posted @ 2014-04-02 12:15 Django's blog 阅读(637) 评论(0) 推荐(0) 编辑
摘要:协同过滤算法一、介绍:http://blog.csdn.net/v_july_v/article/details/7184318http://blog.163.com/lnhenrylee@126/blog/static/2414832520123269713813/http://zh.wikipedia.org/wiki/%E5%8D%94%E5%90%8C%E9%81%8E%E6%BF%BE#.E6.9C.AA.E4.BE.86.E7.99.BC.E5.B1.95http://zh.wikipedia.org/wiki/Slope_one基于协同过滤的三个子类:基于用户的推荐(通过共同口味 阅读全文
posted @ 2014-04-02 12:09 Django's blog 阅读(589) 评论(0) 推荐(0) 编辑
摘要:1,首先使用基于item的协同过滤推荐。2,然后得出每个用户推荐的得分。3,得分>3分的就当成这个用户的推荐Item然后专门计算7月15日-8月15日之间的用户点击行为,把查看、收藏、购物车这3种行为收集起来,如果这3种行为次数较多,那么用户在9月份购买此产品的可能性会很大。已测F1 r感觉上来直接用协同过滤不好,关键是topN,这个N怎么取,取好了效果应该也不错吧?还感觉购物车和收藏可能是大部分噪音的来源,lz要是单纯相加计算的话,不太好吧?阿里内部人士说用LR+协同过滤,当时就蒙了。。。现在想,是不是可以用LR预测某用户下个月是否会买?这个要是能确定F1会不会上升一个档次呢?可惜特征 阅读全文
posted @ 2014-04-02 11:51 Django's blog 阅读(258) 评论(0) 推荐(0) 编辑
摘要:http://bbs.aliyun.com/read/154433.html?spm=5176.7189909.0.0.gzyohy&fpage=2看到主办方之前发的一篇文章里提到,这个购买行为 和 传统的评分过滤问题 还是很不一样的。但为什么亚马逊 会使用 item-cf等协同过滤算法呢?这里用item-cf算法为什么会这么差?难道亚马逊 和天猫上的购买行为 有差别?协同过滤的关键是要知道用户的显性反馈,即评分。这个数据集根本就没有给评分,即便是利用购买来做评分,利用binary rate来做,正负例比例失调,购买带来的信息太少。其他行为作为隐形反馈很难合理的加进SVD++进去。总体 阅读全文
posted @ 2014-04-02 10:58 Django's blog 阅读(371) 评论(0) 推荐(0) 编辑
摘要:http://bbs.aliyun.com/read/153103.html?spm=5176.7189909.0.0.KWGWap一、同为推荐,大不同! 不知道同学们是否经常在天猫购物,但是相信大家一定听过音乐,看过电影,读过新闻和小说。大家在享受各种娱乐信息的时候,正在被网站的后台悄悄地记录着你的信息,分析着你的偏好,然后向你推荐越来越喜欢的内容。整个过程也许你并没有明显的感知,但是你会慢慢上瘾,喜欢上它,比如爱上虾米。这其实都是推荐算法的功劳。现在,你们也有机会用自己的算法让大家爱上购物。但是,音乐推荐、视频推荐、新闻推荐和品牌推荐的不同之处还是要注意的,要去思考的。 不都是推荐么?有什 阅读全文
posted @ 2014-04-02 10:22 Django's blog 阅读(311) 评论(0) 推荐(0) 编辑
摘要:一、cygwin的安装我们可以到Cygwin的官方网站下载Cygwin的安装程序,地址是:http://www.cygwin.com/或者直接使用下载连接来下载安装程序,下载连接是:http://www.cygwin.com/setup.exe安装组件:binutilsgccgcc-mingwgdbDevel分支下: autoconf2.5automake1.9binutils gcc gcc-core gcc-g++ gcc-mingw-core gcc-mingw-g++ gdb subvisionBase分支下:sed,主要是在eclipse下编译用的net分支下:openssh和ope 阅读全文
posted @ 2014-04-01 22:44 Django's blog 阅读(2595) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示