摘要: 决策树原理详解 一、 什么是决策树 决策树是一种监督学习方法,能够从一些列有特征和标签的数据中总结出决策规则,以解决分类和回归问题。在决策树的决策过程中,一直对记录的特征进行提问。最初的问题所在的地方叫做根节点,在得到结论前的每一个问题都是中间节点。得到的每一个结论都叫做叶子节点。 二、 决策树的运 阅读全文
posted @ 2019-12-25 13:22 羊驼也要搞大数据 阅读(479) 评论(0) 推荐(0) 编辑
摘要: 3.1 def语句与参数 3.2 返回值和return语句 3.3 global语句 如果需要在一个函数内修改全局变量,就会使用global语句。如果在函数的顶部有global eggs语句,就告诉python,eggs指代全局变量,所以不要用这个名字 创建局部变量 3.4 一个小程序,猜数字 实践 阅读全文
posted @ 2019-12-22 15:34 羊驼也要搞大数据 阅读(219) 评论(0) 推荐(0) 编辑
摘要: 求连续三天有销售记录的店铺 表t_jd 字段shopid, string, sale 第一步:先给员工打编号 第二步:根据编号,生成连续的日期 第三步,分组求count 第四步,筛选出连续天数大于等于3的 阅读全文
posted @ 2019-12-18 16:29 羊驼也要搞大数据 阅读(744) 评论(0) 推荐(0) 编辑
摘要: 回归评估 1. 平均绝对误差(Mean Absolute Error, MAE), 又被称为L1范数损失 2. 平均平方误差(Mean Squared Error, MSE ,又被称为l2范数损失 分类平评估指标 二维混淆矩阵 | | 预测 | 结果 | | | : : | : : | | 真实类别 阅读全文
posted @ 2019-12-18 14:15 羊驼也要搞大数据 阅读(498) 评论(0) 推荐(0) 编辑
摘要: MY SQL 三张表 emp 表, 字段empno, ename, job, mgr, hiredate, sal, comm, deptno dept表 , 字段 deptno, dname, loc salgrade, 字段 grade, losal, hisal 第一题, 列出至少有五个员工的 阅读全文
posted @ 2019-12-18 10:23 羊驼也要搞大数据 阅读(174) 评论(0) 推荐(0) 编辑
摘要: 一、 Apriori关联分析概述 选择物品之间的关联规则也就是要找出物品之间的关系,要找到这种关系有两步 1. 找出频繁一起出现的物品集的集合,我们称之为频繁项集,比如一个超市的频繁项集可能有{{啤酒,尿布}{鸡蛋,牛奶}{香蕉,苹果}} 2. 在频繁项集的基础上,使用关联规则算法找出其中的关联结果 阅读全文
posted @ 2019-12-13 00:03 羊驼也要搞大数据 阅读(663) 评论(0) 推荐(1) 编辑
摘要: 导入sql库 create database test1; use test1; CREATE TABLE ( VARCHAR(20), VARCHAR(20) NOT NULL DEFAULT '', VARCHAR(20) NOT NULL DEFAULT '', VARCHAR(10) NOT 阅读全文
posted @ 2019-12-03 22:27 羊驼也要搞大数据 阅读(450) 评论(0) 推荐(0) 编辑
摘要: 窗口函数 窗口函数的前缀 1. RANK DENSE_RANK ROW_NUMBER等排序函数 2. SUM AVG COUNT MAX MIN 等聚合函数 RANK:计算排序时,如果存在相同的记录,则会跳过之后的位次 1,1,1,4 DENSE_RANK: 计算排序时,即使存在相同位次的记录,也不 阅读全文
posted @ 2019-11-27 15:01 羊驼也要搞大数据 阅读(335) 评论(0) 推荐(0) 编辑
摘要: 1. 导入数据集 2. 拓展数据维度 3. 查询 阅读全文
posted @ 2019-11-19 10:41 羊驼也要搞大数据 阅读(600) 评论(0) 推荐(0) 编辑
摘要: 一、报告目的 电子商务在发展过程中越来越注意消费者的用户体验,淘宝是深受中国消费者喜欢的电子商务平台,本文试图通过研究淘宝商城消费者的用户行为和潜在的需求,帮助企业制定个性化的营销方案,提高平台的运行效率。 二、数据概况 2.1 数据来源 本文的数据来自天池数据集https://tianchi.al 阅读全文
posted @ 2019-11-18 18:20 羊驼也要搞大数据 阅读(4713) 评论(0) 推荐(1) 编辑