摘要:
一、数据来源及说明 来源:天池数据—淘宝用户的行为数据 https://tianchi.aliyun.com/dataset/dataDetail?dataId=46 该数据下载后包含12256906条数据,6个字段。 数据列字段介绍: column description user_id 用户身份 阅读全文
摘要:
数据和内容是《Python数据分析与挖掘实战》第3章中内容--贡献度分析 讲解怎样在图形中添加注释 关于pandas中plot命令总结可以参照这篇文章:https://blog.csdn.net/u013084616/article/details/79064408 阅读全文
摘要:
使用Python的pymysql库连接MySQL数据库 在数据库中创建数据表,用于写入数据。这里具体分为2步,第一步创建出数据表的SQL 语句,第二步使用execute()执行语句。 创建数据表后,开始写入数据 查看数据库 发现执行语句后,数据已经成功存入数据库中。 阅读全文
摘要:
SELECT from Nobel Tutorial 1、Change the query shown so that it displays Nobel prizes for 1950. 2、Show who won the 1962 prize for Literature. 3、Show th 阅读全文
摘要:
首先查看world表的字段: 2、显示人口至少为2亿的国家/地区的名称。2亿=200million 3、给出人口至少2亿的国家的名称和人均国内生产总值。 4、显示continent ='South America'的国家的名称和人口。 将人口除以100万,以获得数百万人口,也就是population 阅读全文
摘要:
1、数据分组 2、创建分组 **Group By 子句必须出现在where自居之后,order by 子句之前。 3、过滤分组 所有类型的where子句都可以用having来替代。唯一差别师where过滤行,而having过滤分组。 having和where的差别:where在数据分组前进行过滤,h 阅读全文
摘要:
在《Python进行数据分析与挖掘实战》一书中,第10章 删除热水器不工作的数据(水流量为0并且开关机状态为“关”的数据。) 删除特定的列数据 阅读全文
摘要:
目录 4.1 数据清洗 4.1.1 缺失值处理 4.1.2 异常值处理 4.2 数据集成 4.2.1 实体识别 4.2.2 冗余属性识别 4.3 数据变换 4.3.1 简单函数变换 4.3.2 规范化 4.3.3 连续属性离散化 4.3.4 属性构造 4.3.5 小波变换 4.4 数据规约 4..4 阅读全文
摘要:
pandas使用浮点值NaN表示浮点和非浮点数组中的缺失数据。它只是一个便于被检测出来的标记而已: Python内置的None值也会被当做NA处理: NA处理方法 dropna 根据各标签的值中是否存在缺失数据对轴标签进行过滤,可通过阈值调节对缺失值的容忍度 fillna 用指定值或插值方法(如ff 阅读全文
摘要:
项目背景: 2018年11月份开始学习数据分析相关课程,目前学到不少知识,准备开始找工作。在这之前想自己做一个实战,一是能够证明自己确实做了准备,初步具备数据分析师岗位的能力,二是通过实战复习自己所学知识,熟悉数据分析流程。三是,从自己想从事的数据分析职位入手分析,也能够借此了解数据分析师的收入情况 阅读全文
摘要:
7.1 背景与挖掘目标 客户分类,通过客户分类,区分无价值客户、高价值客户,将优先营销资源集中于高价值客户,实现企业利润最大化目标。 现在通过建立合理的客户价值评估模型,对客户进行分群,分析比较不同客户群的客户价值,并制定相应的营销策略,对不同的客户群提供个性化的客户服务是必须和有效的。(市场细分) 阅读全文
摘要:
1、什么是好的数据指标 衡量好坏的一些重要准则: (1)好的数据指标是比较性的。 如果能比较某数据指标在不同的时间段、用户群体、竞争产品之间的表现,就能更好的洞察产品的实际走向。 (2)好的数据指标是简单易懂的 如果人不能很容易记住或讨论指标,那么通过改变它来改变公司的作为很困难。 (3)好的数据指 阅读全文
摘要:
2.1 用图表表示定性数据 1、频数分布表 对数据进行分类,列出所有的类别,然后统计每一类别的频数。 频数:频数分布表中落在某一特定类别的数据个数叫做频数。 有两个变量交叉分类的频数分布表称为列联表,也称交叉表。 定性数据,除了用频数分布表,还可以使用比例、百分比、比率等统计量进行描述。 比例:一个 阅读全文
摘要:
1、戴夫.麦克卢尔 的海盗指标说 麦克卢尔将创业公司最需要关注的指标分为五大类: 1)获取用户Acquisition 2)提高活跃度 Activation 3)提高留存率 Retention 4)获取营收 Revenue 5)自传播 Referral 这一模型,描述了用户/客户/访客须经历的五个环节 阅读全文
摘要:
3.2 数据特征分析 3.2.1 分布分析 分布分析能解释数据的分布特征和分布类型。 定量数据,欲了解其分布形式是对称还是非对称的,发现某些特大或特小的可疑值,通过绘制频率分布表、绘制频率分布直方图、茎叶图进行直观分析; 定性数据,用饼图和条形直方图直观地显示分布情况。 3.2.2 对比分析 对比分 阅读全文
摘要:
《Python数据分析与数据挖掘实战》 第3章节目录 3.1 数据质量分析 3.1.1 缺失值分析 3.1.2 异常值分析 3.1.3 一致性分析 3.2数据特征分析 3.2.1 分布分析 3.2.2 对比分析 3.2.3 统计量分析 3.2.4 周期性分析 3.2.5 贡献度分析 3.2.6 相关 阅读全文
摘要:
笔记--第1章 1、最小可行化产品 指足以向市场传达你所主张的价值的最小化产品。但定义中并未对产品的真实程度做出要求。 2、专人接待式最小可行化产品 如,正在考虑创建一种拼车服务,则可以试着用人工牵线搭桥这种原始方式将司机和乘客联系在一起,而并不是考虑是否能开发出一款配对司机与乘客的应用软件。 这是 阅读全文
摘要:
透视表(pivot table)数据汇总分析工具。 根据一个或多个键对数据进行聚合,并根据行和列上的分组键将数据分配到各个矩形区域中。 1、在Python和pandas中,通过groupby功能以及重塑运算制作透视表 2、DataFrame有一个pivot_table 方法 3、顶级的pandas. 阅读全文
摘要:
在Python3环境下 《利用Python进行数据分析》书中,在第9章节中,读取消费数据集,出现错误 发现是因为文件路径中有中文的存在,可以将文件路径修改为英文: 或者 两种改法都可以正常运行数据。 阅读全文
摘要:
分组键可以有很多形式,且类型不必相同: 1、列表或数组,其长度与待分组的轴一样 2、表示DataFrame某个列名的值 3、字典或Series,给出待分组轴上的值与分组名之间的对应关系 4、函数,用于处理轴索引或索引中的各个标签 1、分组键为Series 1 df=DataFrame({'key1' 阅读全文