Django's blog

2014年4月9日

摘要：原文出处：http://hi.baidu.com/ytjwt/blog/item/1ccc2c26022b0608908f9d8c.html使用"insert into"语句进行数据库操作时可能遇到主键冲突，用户需要根据应用场景进行忽略或者覆盖等操作。总结下，有三种解决方案来避免出错。1. insert ignore into遇主键冲突，保持原纪录，忽略新插入的记录。mysql> select * from device ;+-------+--------+-------------+| devid | status | spec_char |+-------+-- 阅读全文

posted @ 2014-04-09 15:54 Django's blog 阅读(1534) 评论(0) 推荐(0)

2014年4月8日

Python机器学习——线性模型

摘要： http://www.dataguru.cn/portal.php?mod=view&aid=3514摘要: 最近断断续续地在接触一些python的东西。按照我的习惯，首先从应用层面搞起，尽快入门，后续再细化一些技术细节。找了一些资料，基本语法和数据结构搞定之后，目光便转到了scikit-learn这个包。最近断断续续地在接触一些python的东西。按照我的习惯，首先从应用层面搞起，尽快入门，后续再细化一些技术细节。找了一些资料，基本语法和数据结构搞定之后，目光便转到了scikit-learn这个包。这个包是基于scipy的统计学习包。里面所涵盖的算法接口非常全面。更令人振奋的是阅读全文

posted @ 2014-04-08 22:05 Django's blog 阅读(1249) 评论(0) 推荐(0)

机器学习算法与Python实践之（七）逻辑回归（Logistic Regression）

摘要： http://blog.csdn.net/zouxy09/article/details/20319673机器学习算法与Python实践之（七）逻辑回归（Logistic Regression）zouxy09@qq.comhttp://blog.csdn.net/zouxy09 机器学习算法与Python实践这个系列主要是参考《机器学习实战》这本书。因为自己想学习Python，然后也想对一些机器学习算法加深下了解，所以就想通过Python来实现几个比较常用的机器学习算法。恰好遇见这本同样定位的书籍，所以就参考这本书的过程来学习了。这节学习的是逻辑回归（Logistic Regress... 阅读全文

posted @ 2014-04-08 22:04 Django's blog 阅读(2567) 评论(1) 推荐(0)

2014年4月4日

logistic回归（一）

摘要： http://www.2cto.com/kf/201307/226576.html，这个是Sigmoid函数，在这个回归过程中非常重要的函数，主要的算法思想和这个密切相关。这个函数的性质大家可以自己下去分析，这里就不细说了。然后我们说明下流程，首先我们将每个特征都乘以一个回归系数，然后将这个总和带入上面的函数，进而得到一个数值在0~1的值，则大于0.5归到1类，小于0.5归到0类。但是这么多维特征的系数该怎么选取成了我们最关心的问题。这样我们就构建了一个二分类的模型，判定一个东西是不是某个分类。迭代使用的微分公式：我们沿着这个进行迭代求最优权重参数，这样出来的参数就可以出来了。对于二维空间的我阅读全文

posted @ 2014-04-04 18:44 Django's blog 阅读(401) 评论(0) 推荐(0)

转：Logistic regression （逻辑回归）概述

摘要： Logisticregression（逻辑回归）是当前业界比较常用的机器学习方法，用于估计某种事物的可能性。比如某用户购买某商品的可能性，某病人患有某种疾病的可能性，以及某广告被用户点击的可能性等。（注意这里是：“可能性”，而非数学上的“概率”，logisitc回归的结果并非数学定义中的概率值，不可以直接当做概率值来用。该结果往往用于和其他特征值加权求和，而非直接相乘）那么它究竟是什么样的一个东西，又有哪些适用情况和不适用情况呢？一、官方定义：，Figure1.Thelogisticfunction,withzonthehorizontalaxisandƒ(z)ontheverticalaxi 阅读全文

posted @ 2014-04-04 17:03 Django's blog 阅读(393) 评论(0) 推荐(0)

浙大某同学参加阿里巴巴大数据竞赛的分享

摘要：你不是改个参数几个队一起刷的话应该还好吧我当初就觉得这样不好，后面多半要出乱子。浙大宣讲问主办方，现在这种情况，几条简单规则就能刷到6，我要是把这几条简单的规则告诉别人，那别人不都挤到前面，那赛季1不就没意义了？然后还有mj的问题。宣讲的老师说，那你觉得现在极限是多少呢？是7么。mj这种问题都是小问题后来算者说得好，规则确实能做得比较好，怎么结合规则做出更好的模型才是王道，模型不如规则只能说模型做的不够好。这个对我影响还蛮大的，也让我好好反思了一下。我现在靠LR做到6.8，基本也没做规则了，而是想如何用以前淘宝有个做CTR预估的MLR的思路结合商品类目和用户定向做更好的结合规则的LR。我把我p 阅读全文

posted @ 2014-04-04 15:20 Django's blog 阅读(686) 评论(0) 推荐(0)

python处理csv数据

摘要： Python代码importcsv#从文件读取reader=csv.reader(file(srcFilePath,'rb'))forlineinreader:#忽略第一行ifreader.line_num==1:continue#line是个list，取得所有需要的值type=line[0]#写入文件writer=csv.writer(open(targetFile,"wb"),quoting=csv.QUOTE_ALL)#传入listwriter.writerow(["121","121"])#传入2纬listwr 阅读全文

posted @ 2014-04-04 00:04 Django's blog 阅读(663) 评论(0) 推荐(0)

2014年4月2日

python数据持久存储：pickle模块的基本使用

摘要： http://www.cnblogs.com/pzxbc/archive/2012/03/18/2404715.htmlpython的pickle模块实现了基本的数据序列和反序列化。通过pickle模块的序列化操作我们能够将程序中运行的对象信息保存到文件中去，永久存储；通过pickle模块的反序列化操作，我们能够从文件中创建上一次程序保存的对象。基本接口： pickle.dump(obj, file, [,protocol]) 注解：将对象obj保存到文件file中去。 protocol为序列化使用的协议版本，0：ASCII协议，所序列化的对象使用可打印的ASCII码表示；1：... 阅读全文

posted @ 2014-04-02 22:53 Django's blog 阅读(451) 评论(0) 推荐(0)

使用SVD方法实现电影推荐系统

摘要： http://blog.csdn.net/zhaoxinfan/article/details/8821419这学期选了一门名叫《web智能与社会计算》的课，老师最后偷懒，最后的课程project作业直接让我们参加百度的一个电影推荐系统算法大赛，然后以在这个比赛中的成绩作为这门课大作业的成绩。不过，最终的结果并不需要百度官方的评估，只需要我们的截图即可（参看百度云平台），例如下面这个：上面最重要的就是RMSE的数值，数值越小代表偏差越小，百度排行榜就是按值从小到大来排列的，这些人使用的可能是比SVD更好的算法，即使这样达到一定范围后再想进步就很难了，估计不会有人低于0.6这个值。言归正传，下面阅读全文

posted @ 2014-04-02 16:02 Django's blog 阅读(1699) 评论(0) 推荐(0)

使用矩阵分解(SVD)实现推荐系统

摘要： http://ling0322.info/2013/05/07/recommander-system.html这个学期Web智能与社会计算的大作业就是完成一个推荐系统参加百度电影推荐算法大赛，成绩按照评测数据给分。老师介绍了N种方法包括基于内容的、以及协同过滤等等，不过他强烈建议使用矩阵奇异值分解的办法来做。也正因为是这个原因，我们一共8组其中6组的模型都是SVD。这个比赛就是提供给你用户对电影的评分、电影的TAG、用户的社会关系(好友)、用户的观看纪录信息。其中用户对电影的评分满分是5分，大约8k用户、1w电影，然后根据以上的信息预测用户对某些电影的评分。然后评测结果就是跟用户实际评分的RM 阅读全文

posted @ 2014-04-02 15:57 Django's blog 阅读(1651) 评论(0) 推荐(0)

公告