【职问 数据分析】
一、统计学知识
均值、中值、众数、最大最小值、方差、标准差
1、正态分布
2、相关
如图,Y轴和X轴存在相关性,X越大,Y越大。因此花粉数量和防晒霜销量呈正相关
3、回归
二、Excel
Vlookup
三、数据库
文本类型
数值类型
日期类型
1、创建、调整、删除表
#生成数据表结构 create table users( user_id int primary key, name varchar(20), age int, city varchar(20), state varchar(20), monthly_active int ); #描述表结构 describe users; #删除表 drop table users; #再次创建表:1、主键放最后声明;2、加上name非空、city唯一的限制;3、设置city缺省值 create table users( user_id int, name varchar(20) not null, age int, city varchar(20) unique default 'unknown', state varchar(20), monthly_active int, primary key(user_id) ); #调整数据表:增加字段、删除字段 alter table users add gender char(1); alter table users drop column gender;
2、增删改
2.1、 insert
# 1、向空表插入数据 insert into users values (1,'Jack',19,'Dallas','Texas',22), (2,'Lucy',20,'Boston','Massachusetts',15), (3,'Tom',13,'Los Angeles','California',8), (4,'Alice',22,'San Jose','California',17), (5,'Zhang',32,'Chicago','Illinois',22); #2、向指定列添加数据 INSERT INTO users (user_id,age,city,state,monthly_active) VALUES (1,19,'Dallas','Texas',22);
2.2、 delete
# 删除符合某种条件的记录 DELETE FROM users WHERE user_id=4; DELETE FROM users WHERE monthly_active<15;
2.3、 update
UPDATE users SET state='CA' WHERE state='California'; UPDATE users SET name='Jackie',age=29 WHERE user_id=1;
3、其他
3.1、 COUNT函数
COUNT(1)=COUNT(*),统计所有的记录
COUNT(列名),列名中为NULL的忽略不计
3.2、 ER图
四、Python
1、基本数据类型
1)Number
id=1000 #int类型 deposit=2013.88 #float类型 is_male=True #bool类型 com=2013.88+1000j #复数类型
2)String
3)List
4)Tuple
列表用[]定义,元组用()定义;列表内容可修改,元组不可修改
tup1 = () # 空元组 tup2 = (20,) # 一个元素,需要在元素后添加逗号 tup3 = (100000, 100001, 100002, 100003, 100004)
5)Set
6、Dictionary
2、条件控制与循环
3、科学计算库Numpy
4、数据分析处理库Pandas
5、数据可视化库Matplotlib
6、Python与SQL的联动
五、可视化
tableau和AntV
六、爬虫
七、机器学习
八、商业分析
1、百度财报分析
财报基本概念——三张表(资产负载表、利润表、现金流量表)
1、2019Q1百度财报总览
百度股价相对年初下降40%+
2、主营业务介绍
财务分析
挑战和机遇
3、新业务和AI战略业务分析
爱奇艺业务分析:整体概览、挑战、优势和机遇
DuerOS业务分析:整体概览、挑战、机遇
Apollo无人驾驶业务分析:~
4、基于数据和业务分析的洞察和判断(建议)
主营业务-搜索和信息流(用户端、商业端)
新业务和AI战略业务
2、商业分析
1、老板要什么
老板的职责、你应该交付什么
2、整体分析,局部分析
看整体:看主营业务,看其他
整体和局部分析后的进一步洞察(总结、结论)
3、看大盘,看竞对,看团队
看大盘:广告在GDP的比重,在线广告和传统广告走势
看竞对:国外Google,腾讯,微博,头条
综合大盘和竞对的洞察(总结、结论)
看团队
4、形成方案和计划
对交付的考虑
交付方案要点
方案和计划组成:目标为可量化的具体描述(如手机百度DAU从200W到250W)