随笔分类 - 机器学习实战
摘要:https://zhuanlan.zhihu.com/p/40231966
阅读全文
摘要:一、是什么? 1. 归一化 是为了将数据映射到0~1之间,去掉量纲的过程,让计算更加合理,不会因为量纲问题导致1米与100mm产生不同。 归一化是线性模型做数据预处理的关键步骤,比如LR,非线性的就不用归一化了。 归一化就是让不同维度之间的特征在数值上有一定比较性,可以大大提高分类器的准确性。 缺点
阅读全文
摘要:待添加,先占个坑 一、参数速查 1.通用参数 2.性能参数 3.处理单元设置 二、分类 三、回归
阅读全文
摘要:1. 参数速查 使用num_leaves,因为LightGBM使用的是leaf-wise的算法,因此在调节树的复杂程度时,使用的是num_leaves而不是max_depth。 大致换算关系:num_leaves = 2^(max_depth)。它的值的设置应该小于2^(max_depth),否则可
阅读全文
摘要:1. 回归 训练了两个回归器,GBDT和Xgboost,用这两个回归器做stacking 使用之前已经调好参的训练器 事先建好stacking要用到的矩阵 r2值最高为0.79753,效果还不是特别的好 然后用五折交叉验证,每折都预测整个测试集,得到五个预测的结果,求平均,就是新的预测集;而训练集就
阅读全文
摘要:一、xgboost简介: 全称:eXtreme Gradient Boosting 作者:陈天奇(华盛顿大学博士) 基础:GBDT 所属:boosting迭代型、树类算法。 适用范围:分类、回归 优点:速度快、效果好、能处理大规模数据、支持多种语言、支持自定义损失函数等等。 缺点:算法参数过多,调参
阅读全文
摘要:一、GBDT类库弱学习器参数 参数分为三类 第一类:Miscellaneous Parameters: Other parameters for overall functioning. 没啥用 第二类:Boosting Parameters: These affect the boosting o
阅读全文
摘要:特征工程:将所有数据拼接到一起做特征,等到处理完,再按索引拆分数据 1.数据分析 查看标签分布:发现valid与testa、testb的分布相似,说明valid与testa的查询时间比较接近,作为验证集线下比较可信. 2.修正数据类型、缺失值 修正空的query_prediction为'{}';将l
阅读全文
摘要:Step1: Exploratory Data Analysis EDA,也就是对数据进行探索性的分析,一般就用到pandas和matplotlib就够了。EDA一般包括: 每个feature的意义,feature的类型,比较有用的代码如下 df.describe() df['Category'].
阅读全文
摘要:赛题回顾 京东金融提供8到11月的用户借款信息,订单购买信息,页面点击信息以及用户个人和贷款的初始额度信息;要求预测12月每个用户的贷款信息。评价方式采用RMSE函数: 参考 "2017京东金融信贷需求预测 赛题总结"
阅读全文
摘要:泰坦里克号预测生还人口问题 泰坦尼克号问题背景 就是那个大家都熟悉的『Jack and Rose』的故事,豪华游艇倒了,大家都惊恐逃生,可是救生艇 的数量有限,无法人人都有,副船长发话了lady and kid first!,所以是否获救其实并非随机,而是基 于一些背景有rank先后的。 训练和测试
阅读全文
摘要:一. GridSearchCV参数介绍 导入模块: GridSearchCV官方说明 参数: estimator:scikit-learn 库里的算法模型; param_grid:需要搜索调参的参数字典; scoring:评价指标,可以是 auc, rmse,logloss等; n_jobs:并行计
阅读全文
摘要:logistic回归的基本思想 logistic回归是一种分类方法,用于两分类问题。其基本思想为: a. 寻找合适的假设函数,即分类函数,用以预测输入数据的判断结果; b. 构造代价函数,即损失函数,用以表示预测的输出结果与训练数据的实际类别之间的偏差; c. 最小化代价函数,从而获取最优的模型参数
阅读全文
摘要:1.标准回归 1 from numpy import * 2 import matplotlib.pyplot as plt 3 4 #标准回归函数和数据导入函数 5 def loadDataSet(filename): 6 # f = open(filename) 7 # dataSet = []
阅读全文
摘要:1.理论基础——条件概率,词集模型、词袋模型 条件概率:朴素贝叶斯最核心的部分是贝叶斯法则,而贝叶斯法则的基石是条件概率。贝叶斯法则如下: 词集模型:对于给定文档,只统计某个侮辱性词汇(准确说是词条)是否在本文档出现 词袋模型:对于给定文档,统计某个侮辱性词汇在本文当中出现的频率,除此之外,往往还需
阅读全文