07 2018 档案
摘要:"机器学习之类别不平衡问题 (1) —— 各种评估指标" "机器学习之类别不平衡问题 (2) —— ROC和PR曲线" 机器学习之类别不平衡问题 (3) —— 采样方法 " 完整代码 " 前两篇主要谈类别不平衡问题的评估方法,重心放在各类评估指标以及ROC和PR曲线上,只有在明确了这些后,我们才能据
阅读全文
摘要:前段时间参加了Kaggle上的 "Mercari Price Suggestion Challenge" 比赛,收获良多,过些时候准备进行一些全面的总结,本篇文章先谈一个比赛中用到的小技巧。 这个比赛数据中有一个特征叫做 " item_description ",大致是一些商品描述,比如什么时候买的
阅读全文
摘要:EM算法及其应用(一) "EM算法及其应用(二): K means 与 高斯混合模型 " EM算法是期望最大化 (Expectation Maximization) 算法的简称,用于含有隐变量的情况下,概率模型参数的极大似然估计或极大后验估计。EM算法是一种迭代算法,每次迭代由两步组成:E步,求期望
阅读全文
摘要:官方网站 官方代码 第三章 查找 3.1 符号表 (Symbol Tables) 符号表是一种存储键值对 (key-value pairs) 的数据结构,其主要目的是将键 (key) 和值 (value) 联系起来。主要支持两种操作:插入 (put) ,即将一组新的键值对存入存入表中;查找 (get
阅读全文