摘要:
阅读全文
摘要:
https://blog.csdn.net/stwz008/article/details/84843545 阅读全文
摘要:
参考 https://baijiahao.baidu.com/s?id=1608326786755050044&wfr=spider&for=pc 1、NOW 获取当前日期和时间的函数。 语法: NOW() 例如:select NOW(); 2、CURDATE 获取当前的日期 语法:CURDATE( 阅读全文
摘要:
-- 查看有哪些数据库 show databases; -- 选择进入数据库 use test; -- 查看当前数据库中有哪些表 show tables; -- 查看表结构 desc employee; select count(*) from emp; -- 检查导入数据总行数 -- 批量导入数据 阅读全文
摘要:
1.如何查看自己的电脑版本是32位还是64位:控制面板-系统 2.安装:https://www.cnblogs.com/sui776265233/p/11453004.html 3.Jupyter Notebook 添加目录插件:https://blog.csdn.net/GD_little_rad 阅读全文
摘要:
https://cdn.mysql.com//Downloads/MySQLInstaller/mysql-installer-community-8.0.19.0.msi(社区版,免费的开源版本,8.0.19) 双击安装-选择安装类型-cutom(自定义) 选择产品(自己选择安装包中的产品) - 阅读全文
摘要:
https://blog.csdn.net/xdkprosperous/article/details/81112145 阅读全文
摘要:
#自连接SELECT b.* from shopping as a,shopping as b where a.name='惠惠' and a.price<b.price order by b.id #子查询 SELECT * FROM shopping WHERE price>(select pr 阅读全文
摘要:
""" 5.注意事项 数据库表中添加索引后确实会让查询速度起飞,但前提必须是正确的使用索引来查询,如果以错误的方式使用,则即使建立索引也会不奏效。 即使建立索引,索引也不会生效 1. 避免使用select * 2. 其他数据库中使用count(1)或count(列) 代替 count(*),而mys 阅读全文
摘要:
参考 https://www.cnblogs.com/xuzhengzong/p/9049246.html 阅读全文
摘要:
参考 https://www.cnblogs.com/xuzhengzong/p/8873451.html 应用程序有很多 JOIN 查询,你应该确认两个表中Join的字段是被建过索引的。这些被用来Join的字段,应该是相同的类型的。 这样,MySQL内部会启动为你优化Join的SQL语句的机制。性 阅读全文
摘要:
select serial_num,count(*) as count FROM card_ticket GROUP BY serial_num HAVING count >1 参考 https://www.cnblogs.com/xuzhengzong/p/9877248.html 阅读全文
摘要:
https://www.cnblogs.com/xuzhengzong/p/7680464.html https://baijiahao.baidu.com/s?id=1616997640291471534&wfr=spider&for=pc 外键 阅读全文
摘要:
#倒序查询数据库【各表记录数】 use information_schema; select table_name,table_rows from tables where TABLE_SCHEMA = '数据库名' order by table_rows desc; 阅读全文
摘要:
:碰到了异常数据,比如销售下跌 10% 首先不要急着分析如何如何,先好好的想想看 —— (1)这是不是一个问题 所有人都默认了10%下跌是个问题了。然而实际上我没有说是哪一天啊?万一是周末效应导致的正常波动呢。 (2)这是多大的问题 如果正常同期波动9%,昨天是10%,那算是多大个事呢?这样看起来, 阅读全文
摘要:
1、最小二乘法 观测值和真实值的误差平方和,让总的误差的平方最小的 就是真值 https://blog.csdn.net/ccnt_2012/article/details/81127117 2、最大似然估计 极大似然估计,通俗理解来说,就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些 阅读全文
摘要:
https://www.cnblogs.com/earendil/p/8872001.html 原理 过程 区别 为什么说bagging是减少variance,而boosting是减少bias? 阅读全文
摘要:
4, GBDT和随机森林的相同点: 1、都是由多棵树组成2、最终的结果都是由多棵树一起决定 5,GBDT和随机森林的不同点: 1、组成随机森林的树可以是分类树,也可以是回归树;而GBDT只由回归树组成2、组成随机森林的树可以并行生成;而GBDT只能是串行生成 3、对于最终的输出结果而言,随机森林采用 阅读全文
摘要:
阅读全文
摘要:
https://blog.csdn.net/duozhishidai/article/details/89715498 阅读全文
摘要:
召回率表示的是样本中的某类样本有多少被正确预测了。比如对与一个分类模型,A类样本包含A0个样本,预测模型分类结果是A类样本中有A1个正样本和A2个其他样本,那么该分类模型的召回率就是 A1/A0,其中 A1+A2=A0 准确率表示的是所有分类中被正确分类的样本比例,比如对于一个分类模型,样本包含A和 阅读全文
摘要:
1.概念方面.数据库:是一种逻辑概念,用来存放数据的仓库。通过数据库软件来实现。数据库由很多表组成,表是二维的,一张表里可以有很多字段。字段一字排开,对应的数据就一行一行写入表中。数据库的表,在于能够用二维表现多维关系。目前市面上流行的数据库都是二维数据库。如:Oracle、DB2、MySQL、Sy 阅读全文
摘要:
XGBoost https://www.cnblogs.com/jing-yan/p/12379879.html GBDT和XGBoost的区别https://www.cnblogs.com/jing-yan/p/12533297.html 随机森林和GBDT比较https://www.cnblog 阅读全文
摘要:
https://blog.csdn.net/xianqianshi3004/article/details/86663157 https://www.cnblogs.com/keye/p/10252134.html https://blog.csdn.net/zaishijizhidian/arti 阅读全文
摘要:
阅读全文
摘要:
阅读全文
摘要:
正则化 --在原有损失函数的基础上加上一个正则化项 通常用到的有均方根误差rmse和平均绝对误差mae 通过限制参数过多或者过大,避免模型更加复杂,简单来说就是降低模型的泛化错误率,避免模型过拟合 L1与L2的区别 L1可以实现让参数矩阵稀疏, 且L1正则化的损失函数不不是连续可导的, L2也称岭回 阅读全文
摘要:
逻辑回归算法原理和推导https://blog.csdn.net/kun_csdn/article/details/88876524 优缺点 http://mini.eastday.com/bdmip/190222014114424.html# https://blog.csdn.net/hzqga 阅读全文
摘要:
数据分析的步骤 1.定义问题,明确需要解决的需求是什么。 2.问题拆分。对于最终需要解决或探索的问题,进行细分,拆分成不同层面的问题。 3.确定指标。根据不同的细分问题,确定需要探索的指标 4.数据收集。收集整理分析项目所需的数据。 5.数据清洗。删除重复数据,异常值,缺失值处理她,特征筛选,数据归 阅读全文
摘要:
什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤 聚类分析是一种无监督的学习方法,将一系列有特征无标签的数据划分成有意义或者有用的组(或簇),探索每个组的数据是否有联系. 典型的聚类算法有KMeans,DBSCAN,层次聚类,光谱聚类等. KMeans算法的计算原理:根据我们设定 阅读全文
摘要:
https://www.koofun.com/pro/queanswers?proquestionId=2835 运营考核指标 https://blog.csdn.net/weixin_33947521/article/details/91686008 app运营考核指标 https://www.z 阅读全文
摘要:
https://www.cnblogs.com/HuZihu/p/11274171.html 阅读全文
摘要:
做数据挖掘的话,python要学好,Java也要会一些类库方面, sklearn, pandas,tensorflow, spark MLlib都要掌握的比较好。另外就是一些模型理论基础了。 博主你好,能介绍下spark离线训练好模型,在线上部署的流程吗 你好,spark本来就支持python和ja 阅读全文
摘要:
再从头到尾复习一边+面试题总结:https://zhuanlan.zhihu.com/p/83901304 陈国平:GBDT原理小结:https://www.cnblogs.com/pinard/p/6140514.html#!comments XGBoost算法原理小结、XGBoost类库使用小结 阅读全文
摘要:
# 绘制相关性矩阵热度图 fig,ax = plt.subplots(figsize=(18, 12)) sns.heatmap(corr_mat, xticklabels=True, yticklabels=True, square=False, linewidths=.5, annot=True 阅读全文
摘要:
https://www.cnblogs.com/wushaogui/p/9146049.html https://blog.csdn.net/kdongyi/article/details/82930913 https://www.cnblogs.com/nxld/p/9741716.html 阅读全文
摘要:
优点:独热编码的值只有0和1,不同的类型存储在垂直的空间,解决了分类器不好处理属性数据的问题,在一定程度上也起到了扩充特征的作用,特征的增加也防止了模型的过拟合。 缺点:当类别的数量很多时,特征空间会变得非常大。在这种情况下,一般可以用主成分分析(PCA)来减少维度。而且one-hot encodi 阅读全文
摘要:
来源:https://blog.csdn.net/weixin_41798592/article/details/101344948 分别处理标签和特征 阅读全文
摘要:
留坑 方差过滤 通过方差过滤来筛选无用特征 https://blog.csdn.net/fontthrone/article/details/78997449 https://www.cnblogs.com/jasonfreak/p/5448385.html https://www.cnblogs. 阅读全文
摘要:
一般要考虑回归模型的共线性问题,但是有了模型才能做,是滞后的操作. 用方差膨胀系数VIF来判断共线性问题,一般VIF<10 则认为没有多重共线性,一般>10则认为有严重的多重共线性,则删掉 vif = [variance_inflation_factor(Xtrain.iloc[:,1:].valu 阅读全文