数据分析(一)——Excel篇
导论
观测:对事物形成客观量化的认知——获取数据并简单统计分析
观察
采集数据
-
解析系统日志:用户操作时系统产生日志,通过后台解析得到所需日志,或通过简单计算得出更多数据
-
埋点获取新数据:自定义日志,如用户所属IP。埋点是分析师获取数据的最可靠的方式
-
通过传感器采集:
-
爬虫:解析别人的网站,获取埋点数据。并非合法手段
-
API:程序接口,根据规则访问API,返回对应的数据
存储数据
Hive、Mysql、PostgreSQL、SQLServer等
展示数据
可视化、高效传达信息
测量
设定标准
分析数据的目的:
-
及时发现异常,防止跑偏
-
找到数据之间的因果关系,了解提升关键性数据的方法
-
数据是客观的,有统一的认知才能有共同的目标
发现异常
研究异常形成原因和运行机制,可能对问题有额外启发
研究关系
实验:发现规律、验证假设—— 寻找让事物朝着人为设定的方向去发展的方法
提出、验证假设
提出一个合理的假设,对疑问进行解释,并验证假设
所有未经数据验证的想法都是假设。
设计AB测试获取数据
应用
将实验已经得到的规律和方法放到实际业务场景中解决问题
给予数据反馈不断迭代产品和业务策略
借助BI平台自动化处理,做业务分析需要明确业务目标,并拆解目标,拆解方法如下(只要符合MECE法则即可)
流程拆解法、二分法、象限拆解法、杜邦分析法、AARRR、PEST、RFM、SWOT、5W1H等框架。
注意:以上方法较为理论,使用时需根据实际场景来, 不能照搬使用
拆解后准备数据:将数据应用于业务
数据库取数——>借助工具搭建看板观测数据——>给予看板发现异常——>思考原因——>拆解问题
——>提出假设——>基于数据验证假设——>得到方法——>制定策略——>实施策略——>继续观测
——>明确目标——>拆解目标——>继续观测——>发现异常
给予数据训练算法,让机器自动化完成工作
为算法设定明确目标——>位算法提供高质量数据——>判断算法是否真的创造了实际价值——>帮助业务更好地使用算法
Excel基础操作
Excel初步上手
首先:对于拿到手的数据,不要认为它是100%正确的,
然后:点击某行、列查看量级
筛选模式:Ctrl+shift+L
冻结操作:
- 可选择冻结任意行、列。冻结后浏览其他数据时一直保持在窗口
- 选择任意格冻结,冻结该格上方和左侧的表格。
- 点击B2同时冻结行、列
拖拽操作:
- 文本:复制文本到拖拽的单元格内
- 数字:可选择复制单元格或填充数字序列
- 函数:复制函数内容,根据拖拽方向修改变量,变量前加$代表是绝对变量,不随拖拽而改变。$应加载列号和行号中间,如P$10
数字日期转换操作
- excel中数字1转为时间后默认是1900年1月1日,数字200转为时间就是1900年1月1日基础上+200天
(未完待续)
函数使用
sum()求和
对选框中的数值求和。
格式:SUM(number1,number2…)
注意:
-
对多个选框求和时,使用逗号分隔选框,选框结束后点击回车键计算。
-
''内是sheet名,!表示这个表不是当前表,J2:J25表示选框范围
sumif()单条件求和
格式:SUMIF(range,criteria,[sum_range])
注意:
-
选中条件所在的范围,再选中指定的条件,最后选中需要判断的值的范围,算出在该范围内指定条件下值的和
-
A:A表示A字段所有值
sumifs多条件求和
格式:SUMIFS(sum_range,[criteria_range],criteria1,[criteria_range2],criteria2…)
注意:
-
条件可以直接填写自定义字符,如果字符是中文,必须使用英文双引号,不可使用单引号。
-
不管是单条件求和还是多条件求和,其实都只有2种参数,即:条件和值的范围
- 条件有单条件和多条件之分,本质上没有区别。每个条件都需要选择条件所在范围+条件本身
- 值的范围一直都是固定的,想要求哪个值的的和旧选择哪些值的范围。
(待补充)
VLOOKUP()纵向查找函数
格式:
VLOOKUP(lookup_value,table_array,col_index_num,[range_lookup])
VLOOKUP(要查找的数据,要查找的位置和要返回的数据的区域,要返回的数据在区域中的列号,返回近似匹配或精确匹配(1/TRUE或0FALSE))
参数详解:
- 要查找的数据:一般指查找的条件
- 要查找的位置和要返回的数据的区域:条件和结果所在的区域,注意条件必须在这个区域里的第一列
- 要返回的数据在区域中的列号:结果在区域的第几列。如果条件和结果相邻,则条件是第一列,结果在第二列。
- 返回近似匹配或精确匹配:一般使用精确匹配,0
近似匹配
- 近似匹配借助通配符和占位符实现,举例:VLOOKUP(I96&"*",F96:G103,2,1)
- 解释:这里的 I96&"*" 代表以 I 列第96行内容开头,后面加星号匹配任意个字符;若需匹配单个或固定数量个字符用?号或者?? 以此类推。
- 这里的引号也必须使用英文双引号,不可用单引号
- VLOOKUP函数近似匹配时,只会返回匹配到的第一个值
- 近似匹配在单元格前后都可以使用
index 和 match 查找引用函数
match函数:在指定范围内找出指定项的相对位置
格式:MATCH(查找项,查找范围,0)
注意:查找时按实际列或行判断,跨行跨列时会计算错误
index函数:
格式:INDEX(区域,行号,列号)
打开数据分析:选中表中任意格,点击插入——数据透视表,点击确定生成新的sheet,拖动右侧字段到下方的行、值即可快速生成统计表 。勾选右侧字段即可展示指定的字段。
- 新增字段:在数据透视表分析页面,点击表格后选择计算——字段、项目和集,点击计算字段,即可在右侧新增自定义字段。新增后勾选即可展示
- 打开筛选器
- 使用切片器:点击插入切片器,勾选需要筛选的字段点击确定即可,注意切片器可以跨表使用。
- 使用透视表内置筛选:将右侧字段拖入下方筛选器框,拖入后字段上自动生成一个筛选器按钮,只能内部使用。
电商行业计量单位
GMV:商品交易总额,入账金额,包括红包减免、活动等。
商家实收:实际账户收入
UV与PV
- UV:Unique Visitor,通过互联网访问、浏览网页的自然人。一个用户使用一台电脑,即一个访客。一天内相同的访客访问只计算一次,也就是说一天内同个访客多次访问只算一个UV量
- PV:Page View,页面浏览量或点击量。访客每次访问网页都会计算为一个PV,同一个用户对同一页面多次方位,PV也会累计
- 举例:在电商中,曝光量、访问量、下单量和曝光人数、访问人数、下单人数对应位PV和UV。
CPC:Cost Per Click,每产生一次点击所花费的成本,例如广告所带来的影响等
日环比:指当日与上一日相比
日同比:
- 相对于月的同比、
- 相对于周的同比:当前值与7天前的值对比
本文来自博客园,作者:我永远喜欢石原里美,转载请注明原文链接:https://www.cnblogs.com/yuan-zhou/p/16551236.html