数据分析(一)——Excel篇

导论

观测:对事物形成客观量化的认知——获取数据并简单统计分析

观察

采集数据

  • 解析系统日志:用户操作时系统产生日志,通过后台解析得到所需日志,或通过简单计算得出更多数据

  • 埋点获取新数据:自定义日志,如用户所属IP。埋点是分析师获取数据的最可靠的方式

  • 通过传感器采集:

  • 爬虫:解析别人的网站,获取埋点数据。并非合法手段

  • API:程序接口,根据规则访问API,返回对应的数据

存储数据

Hive、Mysql、PostgreSQL、SQLServer等

展示数据

可视化、高效传达信息

测量

设定标准

分析数据的目的:

  1. 及时发现异常,防止跑偏

  2. 找到数据之间的因果关系,了解提升关键性数据的方法

  3. 数据是客观的,有统一的认知才能有共同的目标

发现异常

研究异常形成原因和运行机制,可能对问题有额外启发

研究关系

实验:发现规律、验证假设—— 寻找让事物朝着人为设定的方向去发展的方法

提出、验证假设

提出一个合理的假设,对疑问进行解释,并验证假设

所有未经数据验证的想法都是假设。

设计AB测试获取数据

应用

将实验已经得到的规律和方法放到实际业务场景中解决问题

给予数据反馈不断迭代产品和业务策略

借助BI平台自动化处理,做业务分析需要明确业务目标,并拆解目标,拆解方法如下(只要符合MECE法则即可)

流程拆解法、二分法、象限拆解法、杜邦分析法、AARRR、PEST、RFM、SWOT、5W1H等框架。

注意:以上方法较为理论,使用时需根据实际场景来, 不能照搬使用

拆解后准备数据:将数据应用于业务

数据库取数——>借助工具搭建看板观测数据——>给予看板发现异常——>思考原因——>拆解问题

——>提出假设——>基于数据验证假设——>得到方法——>制定策略——>实施策略——>继续观测

——>明确目标——>拆解目标——>继续观测——>发现异常

给予数据训练算法,让机器自动化完成工作

为算法设定明确目标——>位算法提供高质量数据——>判断算法是否真的创造了实际价值——>帮助业务更好地使用算法


Excel基础操作

Excel初步上手

首先:对于拿到手的数据,不要认为它是100%正确的,

然后:点击某行、列查看量级

筛选模式:Ctrl+shift+L

冻结操作:

  • 可选择冻结任意行、列。冻结后浏览其他数据时一直保持在窗口
  • 选择任意格冻结,冻结该格上方和左侧的表格。
  • 点击B2同时冻结行、列

拖拽操作:

  • 文本:复制文本到拖拽的单元格内
  • 数字:可选择复制单元格或填充数字序列
  • 函数:复制函数内容,根据拖拽方向修改变量,变量前加$代表是绝对变量,不随拖拽而改变。$应加载列号和行号中间,如P$10

数字日期转换操作

  • excel中数字1转为时间后默认是1900年1月1日,数字200转为时间就是1900年1月1日基础上+200天

(未完待续)

函数使用

sum()求和

对选框中的数值求和。

格式:SUM(number1,number2…)

注意:

  • 对多个选框求和时,使用逗号分隔选框,选框结束后点击回车键计算。

  • ''内是sheet名,!表示这个表不是当前表,J2:J25表示选框范围

sumif()单条件求和

格式:SUMIF(range,criteria,[sum_range])

注意:

  • 选中条件所在的范围,再选中指定的条件,最后选中需要判断的值的范围,算出在该范围内指定条件下值的和

  • A:A表示A字段所有值

sumifs多条件求和

格式:SUMIFS(sum_range,[criteria_range],criteria1,[criteria_range2],criteria2…)

注意:

  • 条件可以直接填写自定义字符,如果字符是中文,必须使用英文双引号,不可使用单引号。

  • 不管是单条件求和还是多条件求和,其实都只有2种参数,即:条件和值的范围

    • 条件有单条件和多条件之分,本质上没有区别。每个条件都需要选择条件所在范围+条件本身
    • 值的范围一直都是固定的,想要求哪个值的的和旧选择哪些值的范围。

(待补充)

VLOOKUP()纵向查找函数

格式:

VLOOKUP(lookup_value,table_array,col_index_num,[range_lookup])

VLOOKUP(要查找的数据,要查找的位置和要返回的数据的区域,要返回的数据在区域中的列号,返回近似匹配精确匹配(1/TRUE或0FALSE))

参数详解:

  • 要查找的数据:一般指查找的条件
  • 要查找的位置和要返回的数据的区域:条件和结果所在的区域,注意条件必须在这个区域里的第一列
  • 要返回的数据在区域中的列号:结果在区域的第几列。如果条件和结果相邻,则条件是第一列,结果在第二列。
  • 返回近似匹配或精确匹配:一般使用精确匹配,0

近似匹配

  • 近似匹配借助通配符和占位符实现,举例:VLOOKUP(I96&"*",F96:G103,2,1)
  • 解释:这里的 I96&"*" 代表以 I 列第96行内容开头,后面加星号匹配任意个字符;若需匹配单个或固定数量个字符用?号或者?? 以此类推。
  • 这里的引号也必须使用英文双引号,不可用单引号
  • VLOOKUP函数近似匹配时,只会返回匹配到的第一个值
  • 近似匹配在单元格前后都可以使用

index 和 match 查找引用函数

match函数:在指定范围内找出指定项的相对位置

格式:MATCH(查找项,查找范围,0)

注意:查找时按实际列或行判断,跨行跨列时会计算错误

index函数:

格式:INDEX(区域,行号,列号)


打开数据分析:选中表中任意格,点击插入——数据透视表,点击确定生成新的sheet,拖动右侧字段到下方的行、值即可快速生成统计表 。勾选右侧字段即可展示指定的字段。

  • 新增字段:在数据透视表分析页面,点击表格后选择计算——字段、项目和集,点击计算字段,即可在右侧新增自定义字段。新增后勾选即可展示

  • 打开筛选器
    • 使用切片器:点击插入切片器,勾选需要筛选的字段点击确定即可,注意切片器可以跨表使用。
    • 使用透视表内置筛选:将右侧字段拖入下方筛选器框,拖入后字段上自动生成一个筛选器按钮,只能内部使用。


电商行业计量单位

GMV:商品交易总额,入账金额,包括红包减免、活动等。

商家实收:实际账户收入

UV与PV

  • UV:Unique Visitor,通过互联网访问、浏览网页的自然人。一个用户使用一台电脑,即一个访客。一天内相同的访客访问只计算一次,也就是说一天内同个访客多次访问只算一个UV量
  • PV:Page View,页面浏览量或点击量。访客每次访问网页都会计算为一个PV,同一个用户对同一页面多次方位,PV也会累计
  • 举例:在电商中,曝光量、访问量、下单量和曝光人数、访问人数、下单人数对应位PV和UV。

CPC:Cost Per Click,每产生一次点击所花费的成本,例如广告所带来的影响等

日环比:指当日与上一日相比

日同比:

  • 相对于月的同比、
  • 相对于周的同比:当前值与7天前的值对比
posted @ 2022-08-04 17:09  我永远喜欢石原里美  阅读(447)  评论(0编辑  收藏  举报