随笔分类 -  machine learning

机器学习的
stacking method house price in kaggle top10%
摘要:整合几部分代码的汇总 隐藏代码片段 导入python数据和可视化包 导入统计相关的工具 导入回归相关的算法 导入数据预处理相关的方法 导入模型调参相关的包 读取数据 特征工程 缺失值 类别特征处理-label转化 box-cox转换 one-hot category 特征 数据相关性 模型部门 基模 阅读全文

posted @ 2019-07-26 17:20 多一点 阅读(1548) 评论(1) 推荐(0) 编辑

kaggle house price
摘要:kaggle 竞赛入门 导入常用的数据分析以及模型的库 数据处理 Data fields 去除异常值 处理缺失值 分析 Utilities Exploratory Data Analysis Correlation matrix BsmtQual BsmtCond BsmtExplosure Bsm 阅读全文

posted @ 2019-07-24 09:53 多一点 阅读(476) 评论(0) 推荐(0) 编辑

Mercari Price Suggestion in Kaggle
摘要:Mercari Price Suggestion 最近看到了一个竞赛,竞赛的内容是根据已知的商品的描述,品牌,品类,物品的状态等特征来预测商品的价格 最后的评估标准为 平均算术平方根误差 "Root Mean Squared Logarithmic Error" . $$ \epsilon = \s 阅读全文

posted @ 2019-06-25 22:39 多一点 阅读(726) 评论(0) 推荐(0) 编辑

最近遇到的问题,待整理
摘要:1. 介绍在PE的产筛算法针对自己的项目,上采样,下采样如果适用? 2. 自己项目中,Pandas处理样本数据量(百万级) 3. 是否熟练适用sql,我回答说大部分是用的mongodb 4. 是否适用过分布式图计算,大数据平台 5. t test 如何解释 6. 显著性检验,P value 如何解释 阅读全文

posted @ 2019-01-30 15:54 多一点 阅读(410) 评论(0) 推荐(0) 编辑

机器学习-树模型理论(GDBT,xgboost,lightBoost,随机森林)
摘要:<! TOC "tree based ensemble algorithms" "主要介绍以下几种ensemble的分类器(tree based algorithms)" " xgboost " " lightGBM : 基于决策树算法的分布式梯度提升框架 " " GBDT(Gradient Boo 阅读全文

posted @ 2018-10-16 17:07 多一点 阅读(11938) 评论(0) 推荐(0) 编辑

GBDT 详解分析 转+整理
摘要:<! TOC "GBDT" "DT 回归树 Regression Decision Tree" "梯度迭代" "GBDT工作过程实例" "需要解释的三个问题" "既然图1和图2 最终效果相同,为何还需要GBDT呢?" "Gradient呢?不是“G”BDT么?" "这不是boosting吧?Adab 阅读全文

posted @ 2018-10-15 14:23 多一点 阅读(2653) 评论(0) 推荐(0) 编辑

kaggle竞赛-保险转化-homesite
摘要:<! TOC "时间格式的转化" "查看数据类型" "查看DataFrame的详细信息" "填充缺失值" "category 数据类型转化" "模型参数设定" "结论" <! /TOC 该项目是针对kaggle中的 "homesite" 进行的算法预测,使用xgboost的sklearn接口,进行数 阅读全文

posted @ 2018-10-12 16:06 多一点 阅读(822) 评论(0) 推荐(0) 编辑

美团店铺评价语言处理以及分类(tfidf,SVM,决策树,随机森林,Knn,ensemble)
摘要:第一篇 "数据清洗与分析部分" 第二篇 "可视化部分" , 第三篇 "朴素贝叶斯文本分类" <! TOC "支持向量机分类" "支持向量机 网格搜索" "临近法" "决策树" "随机森林" "bagging方法" <! /TOC .dataframe tbody tr th:only of type 阅读全文

posted @ 2018-09-20 00:04 多一点 阅读(2246) 评论(0) 推荐(0) 编辑

knn临近算法学习(2)
摘要:knn算法能够通过已经分类的数据集与未知分类的样本的距离来预测未知分类的样本的分类情况,上一章节,我们从一个简单的电影的分类入手,介绍了knn临近算法是如何实现未知样本的分类。本节,我们从python语言的角度,进一步的展示knn是如何计算未知样本与样本集中的距离的。 阅读全文

posted @ 2018-09-17 14:17 多一点 阅读(185) 评论(0) 推荐(0) 编辑

加州房价预测数据预处理
摘要:<! @import "[TOC]" {cmd="toc" depthFrom=1 depthTo=6 orderedList=false} <! code_chunk_output "本文是该系列读书笔记的第二章数据预处理部分" "获取数据" "数据的初步分析,数据探索" "地理分布" "数据特征 阅读全文

posted @ 2018-09-07 09:45 多一点 阅读(3956) 评论(0) 推荐(0) 编辑

sohu_news搜狐新闻类型分类
摘要:数据获取 数据是从搜狐新闻开放的新闻xml数据,经过一系列的处理之后,生成的一个excel文件 该xml文件的处理有单独的处理过程,就是用pandas处理,该过程在此省略 读取新闻文本文件,查看文本的长度 去掉长度小于50的文本 查看新闻类型的分布,共9类 health 30929 news 276 阅读全文

posted @ 2018-08-24 17:16 多一点 阅读(918) 评论(1) 推荐(0) 编辑

美团店铺评价语言处理以及文本分类(logistic regression)
摘要:美团店铺评价语言处理以及分类(LogisticRegression) 第一篇 "数据清洗与分析部分" 第二篇 "可视化部分" , 第三篇 "朴素贝叶斯文本分类" 本文是该系列的第四篇 主要讨论逻辑回归分类算法的参数以及优化 主要用到的包有jieba,sklearn,pandas,本篇博文主要先用的是 阅读全文

posted @ 2018-08-16 14:20 多一点 阅读(3228) 评论(5) 推荐(0) 编辑

基于pandas python sklearn 的美团某商家的评论分类(文本分类)
摘要:美团店铺评价语言处理以及分类(NLP) 第一篇 "数据分析部分" 第二篇 "可视化部分" , 本文是该系列第三篇,文本分类 主要用到的包有jieba,sklearn,pandas,本篇博文主要先用的是词袋模型(bag of words),将文本以数值特征向量的形式来表示(每个文档构建一个特征向量,有 阅读全文

posted @ 2018-08-14 22:34 多一点 阅读(8178) 评论(10) 推荐(1) 编辑

逻辑回归与梯度下降法全部详细推导
摘要:第三章 使用sklearn 实现机学习的分类算法 分类算法 分类器的性能与计算能力和预测性能很大程度上取决于用于模型训练的数据 训练机器学习算法的五个步骤: 特征的选择 确定评价性能的标准 选择分类器及其优化算法 对模型性能的评估 算法的调优 sklearn初步使用 3.1 sklearn中包括的p 阅读全文

posted @ 2018-07-17 00:20 多一点 阅读(19999) 评论(5) 推荐(1) 编辑

线性回归-初步
摘要:1.1.1. Ordinary Least Squares reg使用的参数: LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False) array([0.5, 0.5]) 最小二乘法的代价函数表述为: 阅读全文

posted @ 2018-07-11 16:33 多一点 阅读(730) 评论(0) 推荐(0) 编辑

Bagging和Boosting的概念与区别
摘要:随机森林属于集成学习(ensemble learning)中的bagging算法,在集成算法中主要分为bagging算法与boosting算法, Bagging算法(套袋发) bagging的算法过程如下: 1. 从原始样本集中使用Bootstraping 方法随机抽取n个训练样本,共进行k轮抽取, 阅读全文

posted @ 2018-07-04 18:34 多一点 阅读(30495) 评论(2) 推荐(1) 编辑

梯度下降法的三种形式BGD、SGD以及MBGD
摘要:阅读目录 1. 批量梯度下降法BGD 2. 随机梯度下降法SGD 3. 小批量梯度下降法MBGD 4. 总结 1. 批量梯度下降法BGD 2. 随机梯度下降法SGD 3. 小批量梯度下降法MBGD 4. 总结 在应用机器学习算法时,我们通常采用梯度下降法来对采用的算法进行训练。其实,常用的梯度下降法 阅读全文

posted @ 2018-06-11 11:20 多一点 阅读(1260) 评论(0) 推荐(0) 编辑

随机森林-笔录
摘要:决策树有些与生俱来的缺点: 1:分类规则复杂 决策树算法在产生规则的时候采用局部贪婪法。每次都只选择一个属性进行分析构造决策树,所以再产生的分类规则往往相当复杂。 2:收敛到非全局的局部最优解 ID3算法每次在树的某个层次进行属性选择时,它不再回溯重新考虑这个选择,所以它容易产生盲人登山中常见的风险 阅读全文

posted @ 2018-05-31 23:18 多一点 阅读(322) 评论(0) 推荐(0) 编辑

numpy协方差矩阵numpy.cov
摘要:numpy.cov(m, y=None, rowvar=True, bias=False, ddof=None, fweights=None, aweights=None)[source] Estimate a covariance matrix, given data and weights. C 阅读全文

posted @ 2018-04-01 22:20 多一点 阅读(10221) 评论(1) 推荐(0) 编辑

PCA降维
摘要:转载请声明出处:http://blog.csdn.net/zhongkelee/article/details/44064401 一、PCA简介 1. 相关背景 上完陈恩红老师的《机器学习与知识发现》和季海波老师的《矩阵代数》两门课之后,颇有体会。最近在做主成分分析和奇异值分解方面的项目,所以记录一 阅读全文

posted @ 2018-04-01 21:42 多一点 阅读(11123) 评论(0) 推荐(0) 编辑

导航

< 2025年2月 >
26 27 28 29 30 31 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 1
2 3 4 5 6 7 8
点击右上角即可分享
微信分享提示