jasonfreak

一个懒惰的人,总是想设计更智能的程序来避免做重复性工作

随笔分类 -  数据挖掘

虎扑论坛装备区到底有没有李宁水军?——论坛水军发现实践
摘要:目录 1 易建联脱鞋事件2 传说中的网络水军 2.1 网络水军是什么? 2.2 网络水军发现技术3 基于同贴率的网络水军发现4 基于情感分析的网络水军发现5 总结 1 易建联脱鞋事件 (图片来自网络,侵删) 2016年11月2日,刚刚从NBA回归的易建联没想到搞了个大新闻!过去4年来,李宁公司作为C 阅读全文

posted @ 2016-11-05 20:45 jasonfreak 阅读(4982) 评论(6) 推荐(3)

使用sklearn进行集成学习——实践
摘要:系列 《使用sklearn进行集成学习——理论》 《使用sklearn进行集成学习——实践》 目录 1 Random Forest和Gradient Tree Boosting参数详解2 如何调参? 2.1 调参的目标:偏差和方差的协调 2.2 参数对整体模型性能的影响 2.3 一个朴实的方案:贪心 阅读全文

posted @ 2016-07-31 18:58 jasonfreak 阅读(61716) 评论(8) 推荐(13)

使用sklearn进行集成学习——理论
摘要:系列 《使用sklearn进行集成学习——理论》 《使用sklearn进行集成学习——实践》 目录 1 前言2 集成学习是什么?3 偏差和方差 3.1 模型的偏差和方差是什么? 3.2 bagging的偏差和方差 3.3 boosting的偏差和方差 3.4 模型的独立性 3.5 小结4 Gradi 阅读全文

posted @ 2016-07-17 18:08 jasonfreak 阅读(52501) 评论(13) 推荐(15)

谁动了我的特征?——sklearn特征转换行为全记录
摘要:目录 1 为什么要记录特征转换行为?2 有哪些特征转换的方式?3 特征转换的组合4 sklearn源码分析 4.1 一对一映射 4.2 一对多映射 4.3 多对多映射5 实践6 总结7 参考资料 1 为什么要记录特征转换行为? 使用机器学习算法和模型进行数据挖掘,有时难免事与愿违:我们依仗对业务的理 阅读全文

posted @ 2016-06-30 21:33 jasonfreak 阅读(32749) 评论(3) 推荐(6)

关于线性模型你可能还不知道的二三事(三、特征值与奇异值的魔力)
摘要:系列 关于线性模型你可能还不知道的二三事(一、样本) 关于线性模型你可能还不知道的二三事(二、也谈民主) 关于线性模型你可能还不知道的二三事(三、特征值与奇异值的魔力) 目录 1 L2惩罚项 1.1 惩罚项 1.2 L2惩罚项与过拟合 1.3 多目标值线性模型2 特征值分解3 奇异值分解4 总结5 阅读全文

posted @ 2016-06-26 11:16 jasonfreak 阅读(6857) 评论(0) 推荐(1)

关于线性模型你可能还不知道的二三事(二、也谈民主)
摘要:系列博文 关于线性模型你可能还不知道的二三事(一、样本) 关于线性模型你可能还不知道的二三事(二、也谈民主) 关于线性模型你可能还不知道的二三事(三、特征值与奇异值的魔力) 目录 1 如何更新权值向量?2 最小均方法(LMS)与感知机:低效的民主3 最小二乘法:完美的民主4 支持向量机:现实的民主5 阅读全文

posted @ 2016-06-16 17:27 jasonfreak 阅读(3775) 评论(1) 推荐(1)

关于线性模型你可能还不知道的二三事(一、样本)
摘要:系列 关于线性模型你可能还不知道的二三事(一、样本) 关于线性模型你可能还不知道的二三事(二、也谈民主) 关于线性模型你可能还不知道的二三事(三、特征值与奇异值的魔力) 目录 1 样本的表示形式2 由线性模型产生的样本3 逆矩阵的意义 1 样本的表示形式 在数据挖掘过程中,样本以特征值矩阵X和目标值 阅读全文

posted @ 2016-06-02 09:35 jasonfreak 阅读(11281) 评论(1) 推荐(0)

使用sklearn优雅地进行数据挖掘
摘要:目录 1 使用sklearn进行数据挖掘 1.1 数据挖掘的步骤 1.2 数据初貌 1.3 关键技术2 并行处理 2.1 整体并行处理 2.2 部分并行处理3 流水线处理4 自动化调参5 持久化6 回顾7 总结8 参考资料 1 使用sklearn进行数据挖掘 1.1 数据挖掘的步骤 数据挖掘通常包括 阅读全文

posted @ 2016-05-04 11:46 jasonfreak 阅读(90907) 评论(26) 推荐(31)

导航