少年奶油喵

2020年4月7日

流失率问题

摘要：阅读全文

posted @ 2020-04-07 12:01 少年奶油喵阅读(126) 评论(0) 推荐(0)

2020年4月6日

RFM模型

摘要： https://blog.csdn.net/stwz008/article/details/84843545 阅读全文

posted @ 2020-04-06 17:56 少年奶油喵阅读(124) 评论(0) 推荐(0)

2020年4月4日

mysql日期函数（时间函数）

摘要：参考 https://baijiahao.baidu.com/s?id=1608326786755050044&wfr=spider&for=pc 1、NOW 获取当前日期和时间的函数。语法： NOW() 例如：select NOW(); 2、CURDATE 获取当前的日期语法：CURDATE( 阅读全文

posted @ 2020-04-04 20:53 少年奶油喵阅读(1837) 评论(0) 推荐(0)

数据库探索

摘要： -- 查看有哪些数据库 show databases; -- 选择进入数据库 use test; -- 查看当前数据库中有哪些表 show tables; -- 查看表结构 desc employee; select count(*) from emp; -- 检查导入数据总行数 -- 批量导入数据阅读全文

posted @ 2020-04-04 20:41 少年奶油喵阅读(178) 评论(0) 推荐(0)

anaconhda安装步骤

摘要： 1.如何查看自己的电脑版本是32位还是64位：控制面板-系统 2.安装：https://www.cnblogs.com/sui776265233/p/11453004.html 3.Jupyter Notebook 添加目录插件：https://blog.csdn.net/GD_little_rad 阅读全文

posted @ 2020-04-04 17:06 少年奶油喵阅读(221) 评论(0) 推荐(0)

mysql安装和环境配置

摘要： https://cdn.mysql.com//Downloads/MySQLInstaller/mysql-installer-community-8.0.19.0.msi（社区版，免费的开源版本，8.0.19）双击安装-选择安装类型-cutom（自定义）选择产品（自己选择安装包中的产品） - 阅读全文

posted @ 2020-04-04 16:38 少年奶油喵阅读(651) 评论(0) 推荐(0)

mysql时间条件查询

摘要： https://blog.csdn.net/xdkprosperous/article/details/81112145 阅读全文

posted @ 2020-04-04 14:42 少年奶油喵阅读(2403) 评论(0) 推荐(0)

mysql自连接

摘要： #自连接SELECT b.* from shopping as a,shopping as b where a.name='惠惠' and a.price<b.price order by b.id #子查询 SELECT * FROM shopping WHERE price>(select pr 阅读全文

posted @ 2020-04-04 13:55 少年奶油喵阅读(292) 评论(0) 推荐(0)

2020年3月30日

mysql查询注意事项（查询优化）

摘要： """ 5.注意事项数据库表中添加索引后确实会让查询速度起飞，但前提必须是正确的使用索引来查询，如果以错误的方式使用，则即使建立索引也会不奏效。即使建立索引，索引也不会生效 1. 避免使用select * 2. 其他数据库中使用count(1)或count(列) 代替 count(*),而mys 阅读全文

posted @ 2020-03-30 17:56 少年奶油喵阅读(597) 评论(0) 推荐(0)

mysql常见的保留字和反引号使用

摘要：参考 https://www.cnblogs.com/xuzhengzong/p/9049246.html 阅读全文

posted @ 2020-03-30 15:40 少年奶油喵阅读(254) 评论(0) 推荐(0)

多表联合查询注意事项（索引）

摘要：参考 https://www.cnblogs.com/xuzhengzong/p/8873451.html 应用程序有很多 JOIN 查询，你应该确认两个表中Join的字段是被建过索引的。这些被用来Join的字段，应该是相同的类型的。这样，MySQL内部会启动为你优化Join的SQL语句的机制。性阅读全文

posted @ 2020-03-30 15:35 少年奶油喵阅读(1898) 评论(0) 推荐(0)

【MySQL】MySQL中查询出数据表中存在重复的值

摘要： select serial_num,count(*) as count FROM card_ticket GROUP BY serial_num HAVING count >1 参考 https://www.cnblogs.com/xuzhengzong/p/9877248.html 阅读全文

posted @ 2020-03-30 15:24 少年奶油喵阅读(351) 评论(0) 推荐(0)

【mysql】主键、普通索引、唯一索引和全文索引的比较

摘要： https://www.cnblogs.com/xuzhengzong/p/7680464.html https://baijiahao.baidu.com/s?id=1616997640291471534&wfr=spider&for=pc 外键阅读全文

posted @ 2020-03-30 15:23 少年奶油喵阅读(197) 评论(0) 推荐(0)

MySQL查询数据库各表的行数

摘要： #倒序查询数据库【各表记录数】 use information_schema; select table_name,table_rows from tables where TABLE_SCHEMA = '数据库名' order by table_rows desc; 阅读全文

posted @ 2020-03-30 13:48 少年奶油喵阅读(4358) 评论(0) 推荐(0)

2020年3月23日

异常数据，比如销售下跌 10%

摘要：：碰到了异常数据，比如销售下跌 10% 首先不要急着分析如何如何，先好好的想想看 —— （1）这是不是一个问题所有人都默认了10%下跌是个问题了。然而实际上我没有说是哪一天啊？万一是周末效应导致的正常波动呢。（2）这是多大的问题如果正常同期波动9%，昨天是10%，那算是多大个事呢？这样看起来，阅读全文

posted @ 2020-03-23 14:02 少年奶油喵阅读(199) 评论(0) 推荐(0)

最小二乘法&最大似然估计

摘要： 1、最小二乘法观测值和真实值的误差平方和，让总的误差的平方最小的就是真值 https://blog.csdn.net/ccnt_2012/article/details/81127117 2、最大似然估计极大似然估计，通俗理解来说，就是利用已知的样本结果信息，反推最具有可能（最大概率）导致这些阅读全文

posted @ 2020-03-23 11:28 少年奶油喵阅读(520) 评论(0) 推荐(0)

2020年3月22日

boosting和bagging

摘要： https://www.cnblogs.com/earendil/p/8872001.html 原理过程区别为什么说bagging是减少variance，而boosting是减少bias？阅读全文

posted @ 2020-03-22 23:28 少年奶油喵阅读(196) 评论(0) 推荐(0)

随机森林和GBDT进行比较

摘要： 4， GBDT和随机森林的相同点： 1、都是由多棵树组成2、最终的结果都是由多棵树一起决定 5，GBDT和随机森林的不同点： 1、组成随机森林的树可以是分类树，也可以是回归树；而GBDT只由回归树组成2、组成随机森林的树可以并行生成；而GBDT只能是串行生成 3、对于最终的输出结果而言，随机森林采用阅读全文

posted @ 2020-03-22 23:20 少年奶油喵阅读(1274) 评论(0) 推荐(0)

决策树的优缺点&ID3、C4.5和CART区别

摘要：阅读全文

posted @ 2020-03-22 23:04 少年奶油喵阅读(1851) 评论(0) 推荐(0)

数据分析师职业规划

摘要： https://blog.csdn.net/duozhishidai/article/details/89715498 阅读全文

posted @ 2020-03-22 22:25 少年奶油喵阅读(202) 评论(0) 推荐(0)

什么是准确率、召回率，它们和ROC曲线有什么关系？

摘要：召回率表示的是样本中的某类样本有多少被正确预测了。比如对与一个分类模型，A类样本包含A0个样本，预测模型分类结果是A类样本中有A1个正样本和A2个其他样本，那么该分类模型的召回率就是 A1/A0,其中 A1+A2=A0 准确率表示的是所有分类中被正确分类的样本比例，比如对于一个分类模型，样本包含A和阅读全文

posted @ 2020-03-22 22:16 少年奶油喵阅读(2706) 评论(0) 推荐(0)

数据库和数据仓库的区别

摘要： 1.概念方面.数据库：是一种逻辑概念，用来存放数据的仓库。通过数据库软件来实现。数据库由很多表组成，表是二维的，一张表里可以有很多字段。字段一字排开，对应的数据就一行一行写入表中。数据库的表，在于能够用二维表现多维关系。目前市面上流行的数据库都是二维数据库。如：Oracle、DB2、MySQL、Sy 阅读全文

posted @ 2020-03-22 21:49 少年奶油喵阅读(5402) 评论(0) 推荐(0)

面试

摘要： XGBoost https://www.cnblogs.com/jing-yan/p/12379879.html GBDT和XGBoost的区别https://www.cnblogs.com/jing-yan/p/12533297.html 随机森林和GBDT比较https://www.cnblog 阅读全文

posted @ 2020-03-22 21:41 少年奶油喵阅读(165) 评论(0) 推荐(0)

随机森林

摘要： https://blog.csdn.net/xianqianshi3004/article/details/86663157 https://www.cnblogs.com/keye/p/10252134.html https://blog.csdn.net/zaishijizhidian/arti 阅读全文

posted @ 2020-03-22 20:27 少年奶油喵阅读(131) 评论(0) 推荐(0)

2020年3月20日

GBDT和xgboost的区别

摘要：阅读全文

posted @ 2020-03-20 17:50 少年奶油喵阅读(246) 评论(0) 推荐(0)

梯度提升和梯度下降

摘要：阅读全文

posted @ 2020-03-20 17:44 少年奶油喵阅读(604) 评论(0) 推荐(0)

正则化系数

摘要：正则化 --在原有损失函数的基础上加上一个正则化项通常用到的有均方根误差rmse和平均绝对误差mae 通过限制参数过多或者过大，避免模型更加复杂,简单来说就是降低模型的泛化错误率,避免模型过拟合 L1与L2的区别 L1可以实现让参数矩阵稀疏, 且L1正则化的损失函数不不是连续可导的, L2也称岭回阅读全文

posted @ 2020-03-20 16:33 少年奶油喵阅读(4059) 评论(0) 推荐(0)

逻辑回归

摘要：逻辑回归算法原理和推导https://blog.csdn.net/kun_csdn/article/details/88876524 优缺点 http://mini.eastday.com/bdmip/190222014114424.html# https://blog.csdn.net/hzqga 阅读全文

posted @ 2020-03-20 16:27 少年奶油喵阅读(260) 评论(0) 推荐(0)

讲一下数据分析有哪些步骤，在你做项目的过程中哪个步骤需要花费的时间最久？为什么？

摘要：数据分析的步骤 1.定义问题，明确需要解决的需求是什么。 2.问题拆分。对于最终需要解决或探索的问题，进行细分，拆分成不同层面的问题。 3.确定指标。根据不同的细分问题，确定需要探索的指标 4.数据收集。收集整理分析项目所需的数据。 5.数据清洗。删除重复数据，异常值，缺失值处理她，特征筛选，数据归阅读全文

posted @ 2020-03-20 16:23 少年奶油喵阅读(1116) 评论(0) 推荐(0)

K-Means

摘要：什么是聚类分析？聚类算法有哪几种？请选择一种详细描述其计算原理和步骤聚类分析是一种无监督的学习方法,将一系列有特征无标签的数据划分成有意义或者有用的组(或簇),探索每个组的数据是否有联系. 典型的聚类算法有KMeans,DBSCAN,层次聚类,光谱聚类等. KMeans算法的计算原理:根据我们设定阅读全文

posted @ 2020-03-20 16:22 少年奶油喵阅读(286) 评论(0) 推荐(0)

2020年3月3日

业务分析

摘要： https://www.koofun.com/pro/queanswers?proquestionId=2835 运营考核指标 https://blog.csdn.net/weixin_33947521/article/details/91686008 app运营考核指标 https://www.z 阅读全文

posted @ 2020-03-03 23:38 少年奶油喵阅读(137) 评论(0) 推荐(0)

2020年3月2日

数据分析工作的主要内容和基本流程

摘要： https://www.cnblogs.com/HuZihu/p/11274171.html 阅读全文

posted @ 2020-03-02 18:45 少年奶油喵阅读(231) 评论(0) 推荐(0)

2020年2月28日

待解决

摘要：做数据挖掘的话，python要学好，Java也要会一些类库方面, sklearn, pandas，tensorflow, spark MLlib都要掌握的比较好。另外就是一些模型理论基础了。博主你好，能介绍下spark离线训练好模型，在线上部署的流程吗你好，spark本来就支持python和ja 阅读全文

posted @ 2020-02-28 20:58 少年奶油喵阅读(173) 评论(0) 推荐(0)

XGBoost总结

摘要：再从头到尾复习一边+面试题总结：https://zhuanlan.zhihu.com/p/83901304 陈国平：GBDT原理小结：https://www.cnblogs.com/pinard/p/6140514.html#!comments XGBoost算法原理小结、XGBoost类库使用小结阅读全文

posted @ 2020-02-28 20:05 少年奶油喵阅读(2376) 评论(0) 推荐(0)

2020年2月25日

特征工程-相关性检验

摘要： # 绘制相关性矩阵热度图 fig,ax = plt.subplots(figsize=(18, 12)) sns.heatmap(corr_mat, xticklabels=True, yticklabels=True, square=False, linewidths=.5, annot=True 阅读全文

posted @ 2020-02-25 23:38 少年奶油喵阅读(568) 评论(0) 推荐(0)

2020年2月24日

模型评价指标

摘要： https://www.cnblogs.com/wushaogui/p/9146049.html https://blog.csdn.net/kdongyi/article/details/82930913 https://www.cnblogs.com/nxld/p/9741716.html 阅读全文

posted @ 2020-02-24 22:57 少年奶油喵阅读(126) 评论(0) 推荐(0)

数据预批处理-独热编码

摘要：优点：独热编码的值只有0和1，不同的类型存储在垂直的空间，解决了分类器不好处理属性数据的问题，在一定程度上也起到了扩充特征的作用，特征的增加也防止了模型的过拟合。缺点：当类别的数量很多时，特征空间会变得非常大。在这种情况下，一般可以用主成分分析(PCA)来减少维度。而且one-hot encodi 阅读全文

posted @ 2020-02-24 21:15 少年奶油喵阅读(290) 评论(0) 推荐(0)

数据预处理-处理分类型特征：编码（LabelEncoder、OrdinalEncoder-字符型变量数值化

摘要：来源：https://blog.csdn.net/weixin_41798592/article/details/101344948 分别处理标签和特征阅读全文

posted @ 2020-02-24 20:08 少年奶油喵阅读(1567) 评论(0) 推荐(0)

特征工程

摘要：留坑方差过滤通过方差过滤来筛选无用特征 https://blog.csdn.net/fontthrone/article/details/78997449 https://www.cnblogs.com/jasonfreak/p/5448385.html https://www.cnblogs. 阅读全文

posted @ 2020-02-24 18:17 少年奶油喵阅读(161) 评论(0) 推荐(0)

2020年2月20日

逻辑回归-建模后-多重共线性

摘要：一般要考虑回归模型的共线性问题,但是有了模型才能做,是滞后的操作. 用方差膨胀系数VIF来判断共线性问题,一般VIF<10 则认为没有多重共线性,一般>10则认为有严重的多重共线性,则删掉 vif = [variance_inflation_factor(Xtrain.iloc[:,1:].valu 阅读全文

posted @ 2020-02-20 23:44 少年奶油喵阅读(1798) 评论(0) 推荐(0)

公告