读书笔记-《谁说菜鸟不会数据分析》

学习思路(摘自原文)
学习:先了解后深入,先记录后记忆,先理论后实践,先模仿后创新;
方法:先思路后方法,先框架后细化,先方法后工具,先思考后动手;
分析:先业务后数据,先假设后验证,先总体后局部,现总结后建议。

1.对数据分析的认识
*三个分析:原因+现状+预测
*分析流程:明确目的和思路、收集数据、处理数据、分析数据、展示数据、撰写报告
*分析体系化:先后顺序+逻辑联系

2.流程细化

①收集数据(来源:数据库 出版物 市场调查 互联网)
区分概念:
比例与比率 :比例【部分与整体】、比率【不同部分关系】
同比与环比
频数与频率
百分比与百分点
绝对数与相对数
倍数与番数
平均数

②处理数据(数据清洗 数据转化 数据提取 数据计算)
数据清洗:重复值、缺失值、错误数
【重复值:找【countif(整列,当前值)/countif(列累加,当前值),条件格式-重复值,数据透视表;删【数据-删除重复项】】 【缺失值:定位-空值(F5、CTRL+G);处理【保留但不操作、删除、模型预测、平均值填充】;方法【CTRL+ENTER:CTRL选中需要填充的单元格、任一单元格输入值、CTRL+ENTER ;查找替换】 【错误数据:例:检查非0-1的数据(第一步:IF(COUNTIF(区域,"<>0")>/<数值,value_if_true,value_if——false);第二步:条件格式标记错误】

数据加工:提取(left、right)、合并(&、concatenate --text(单元格,格式);concatenate(,,,...)、匹配 (vlookup--出现#NA:数据存在空格,trim;数据类型或格式不一致)
数据计算:
--获取时间TODAY()/CTRL+;、NOW()/CTRL+; CTRL+SHIFT+;(年月日 时分秒);
--DATE(YEAR,MONTH,DAY) DAY() MONTH() YEAR()
--DATEDIF(STRAT_DATE,END_DATE,"Y/M/D/MD/YM/YD") MD/YD:...天数、YM:忽略年,计算月数
例如:2022/6/27-2024/1/22 "M"会得到18,"YM”会得到6
数据分组:VLOOKUP()--模糊匹配
查找范围[阈值,返回值]
--阈值:每个组别最小值
--匹配时找阈值最接近匹配项但不超过匹配项
数据转置:选择性粘贴(--还有运算可以选,复制部分与粘贴区域加减乘除)
数据录入(多重录入:直接录入;二分录入:o-1)
IF(ISNUMBER(HLOOKUP(录入表示的数字或字母,结果区,1,0),1,0))
IF(ISNUMBER(SEARCH(FIN_TEXT,WITHIN_TEXT,STAR_NUM),1,0))
--HLOOKUP()按行查找,返回指定列的值
数据抽样:随机数模拟int(rand()*区间长度+起始值) --向上取整roundup() 向下取整rounddown round()四舍五入

2.分析方法:
①对比【横向、纵向】
注意:口径计算方法计量单位、对象可比性、指标类型一致
②分组分析
③结构分析:确定指标-收集数据-确定权重-汇总指标计算评分-排序指标

结构相对指标:(总体某部分数值/总体总量)*100% --市场占有率
④平均分析:算术平均数、调和平均数、几何平均数、众数、中位数
⑤交叉分析
⑥综合评价分析
⑦漏斗图分析法:转化率和流失率
如:浏览商品-(40%)放入购物车-(75%)生成订单-(67%)支付订单-(85%)完成交易
⑧矩阵关联分析法(反应指标纵向变化时候,用发展矩阵;气泡图反应改良后的矩阵--改进难易矩阵):主次要
属性A:低到高,属性B:低到高,分成四个区间

0-1标准化【(当前值-最小值)/(最大值-最小值),加入新数据后,最值可能会受影响】、Z标准化
权重确定方法:专家访谈法、德尔菲法、层次分析法、主成分分析法、因子分析法、回归分析法、目标矩阵表
⑦杜邦分析法

3.工具:
①.数据透视表
#分组、计算字段、计算项、切片器
#数据挖掘:从需求到需求,找模式和规律,分类+聚类+关联+预测
②展现数据:图表
电梯法则:20秒内说清楚结果
图标的作用:表达形象化、突出重点、体现专业化
*六大基本图表:
饼图(部分与整体关系【百分比堆积柱形图也可以表示】复合饼图、复合条饼图)、条形图、柱形图(添加数据标签、不斜放标签、删除网格线)、折线图、散点图、表格
*选择图形:数据之间的关系
*数据关系有哪些:
成分关系【饼图、百分比堆积柱形图】、排序【柱形图、条形图、气泡图、帕累托图】
、时间序列【柱形图、折线图】、频率分布【柱形图】、相关性【柱形图、对称条形图(旋风图)、散点图、气泡图】、多重数据比较【雷达图】
*制作图表五步法
确定主题和目的、确定图表类型、选择数据、检查数据展现是否有效、检查是否表达主题
③条件格式
突出显示单元格(跟原始数据比较)
项目选取(跟原始数据经处理的数据比较)
数据条
迷你图
④表格升级
平均线图
【新增平均值列-对“平均值”的柱条选择更改系列图标类型-改为折线图(不带数据表记)
双坐标图【柱线图:次坐标-更改 图标类型;双柱图:2个占位数据-次坐标-占位数据取值0;】
竖形折线图:(对产品功能、品牌形象的评价)带平滑线和数据标记的散点图;
瀑布图:(经营财务分析-成本构成和变化)占位(第N个占位数据大小=总成本-(成本1+成本2+...+成本N))-堆积柱形图-占位数据无填充无线条-删除网格线和图例、标签刻度线线条颜色设置无-添加数据标签】
帕累托图:(影响质量问题的要素)【柱形图降序排、折线图次坐标轴累计百分比,折线图起点0%第二个点在第一个柱子最右上角最后一个点100%
旋风图:(成对条形图)前后变化、因果关系、比较
人口金字塔图:反应人口男女年龄分布的旋风图
漏斗图:第N环节占位数据=(第1环节进入人数-第N环节进入人数)/2
第N环节转换率=第N环节进入人数/第N-1环节进入人数
第N环节总体转化率=第N环节进入人数/第1环节进入人数
数据标签用jwlk chart tools添加
外框:系列线;转化率和箭头:手工添加
矩阵图:十字架:纵横坐标交叉选择平均值
发展矩阵:设置线条颜色
气泡图:
⑤美化图表
要素全、简洁美观 ;一张图表达一个主题,要素不多不少;标题主题明确又有吸引力;
要点:
简洁
对比:箭头、颜色、阴影

误区:
不明确分析目的;
脱离业务实际;
追求高级分析方法和模型;

4.报告
①需要遵循的原则:
规范性:术语规范、标准统一、前后一致
重要性:问题重要程度分级
谨慎性:数据完整真实、分析过程科学全面、结果可靠、内容求实
创新性:新模型和方法

②报告类型
专题分析报告(单一性:某一方面;深入性)
综合分析报告(全面性、联系性)
日常数据通报(进度性、规范性 、时效性)
tips:杂志、研报图表;
做好的图标可以存为自定义模板,便于下次使用
③报告组成:
前言(分析背景、分析目的、分析思路)
正文
结论与建议
附录

posted @ 2022-08-01 15:53  bug_no_bully  阅读(151)  评论(0编辑  收藏  举报