2021年7月28日

数据分析师(业务侧)整体概况整理

摘要: 工作团队 数据分析师大多在业务团队中,而业务数据团队目标就是满足业务需求。所以业务数据团队一般没有数据中台的数据团队配置齐全,不去做完整的数据服务,主要人员有数据开发工程师、数据分析师、算法分析师,并多以数据分析师为核心。 核心业务需求 对于业务团队来说,最核心关注的就是业务需求。而对于业务自身来说 阅读全文

posted @ 2021-07-28 16:49 Wendy_r 阅读(360) 评论(0) 推荐(0) 编辑

2021年7月17日

【Hive】HQL语句包含Tab导致报错

摘要: 报错 当HQL语句中包含tab时,将该语句复制到Hive并执行,会在复制时出现Display all 633 possibilities? (y or n)的信息,并在运行后提示FAILED: SemanticException [Error 10004] 解决方法 此时将HQL语句中的tab删除, 阅读全文

posted @ 2021-07-17 21:40 Wendy_r 阅读(306) 评论(0) 推荐(0) 编辑

2021年7月3日

用户RFM模型及应用

摘要: #RMF含义 R(Recency)(用户粘性,越小越好):用户最近一次交易时间的间隔。R值越大,表示用户交易发生的日期越久,反之则表示用户交易发生的日期越近 F(Frequency)(用户忠诚度,越大越好):用户在最近一段时间内交易的次数,F值越大,表示客户交易越频繁,反之则表示用户交易不够活跃。 阅读全文

posted @ 2021-07-03 12:07 Wendy_r 阅读(2235) 评论(0) 推荐(0) 编辑

Pandas 数据透视表

摘要: #pivot_table() pandas.pivot_table(data, values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_na 阅读全文

posted @ 2021-07-03 11:12 Wendy_r 阅读(273) 评论(0) 推荐(0) 编辑

Pandas 多层索引转化为列

摘要: 处理原因 当DataFrame使用分组聚合后,分组的规则会作为索引,如下例。为了便于后续对表格数据的处理和分析,可将索引转化为列。 ##数据样式 # 各地区分店每年的销售额 sales_area = df.groupby(['Market','Order_Year'])['Sales'].sum() 阅读全文

posted @ 2021-07-03 07:53 Wendy_r 阅读(3312) 评论(0) 推荐(2) 编辑

2021年7月2日

matplotlib 设置图表风格

摘要: # 查看内置风格,平时设置风格时可不写 plt.style.available plt.style.use('ggplot') 阅读全文

posted @ 2021-07-02 18:16 Wendy_r 阅读(63) 评论(0) 推荐(0) 编辑

python 小数和百分数之间的转换

摘要: #小数转百分数 ##方法一: f = 0.123 rate = '%.2f%%'%(f*100) print(rate) ##方法二:format 不用原数据*100 f = 0.123 rate = format(f,'.2%') print(rate) 或 f = 0.123 rate = '{ 阅读全文

posted @ 2021-07-02 16:33 Wendy_r 阅读(2290) 评论(0) 推荐(0) 编辑

Pandas datetime常用属性

摘要: 一个数组,其中date列为datetime类型 可使用df.info()提前确认类型,如果不是datetime可使用pd.to_datetime(df['date'])进行类型转化 df['date'].dt.day # 提取日期 df['date'].dt.month # 提取月份 df['dat 阅读全文

posted @ 2021-07-02 15:19 Wendy_r 阅读(474) 评论(0) 推荐(0) 编辑

Pandas 时间处理 获取数组中某月的数据

摘要: #查看日期列的数据类型 以下演示使用df表示DataFrame二维数组 df.info() # 查看数组中每列的数据类型和数组基本信息 #日期的类型为str时 ##1、str切片 使用切片有弊端,当日期字符串不连续的时候会造成漏选**#不推荐** # 将日期列作为索引列 df.set_index(' 阅读全文

posted @ 2021-07-02 14:53 Wendy_r 阅读(598) 评论(0) 推荐(0) 编辑

2021年6月28日

Pandas如何将两个Series对象进行与运算

摘要: 1、目的 获取高温小于30,低温大于20的行数据 2、分析 df['最高温度']<30返回的是一列Series对象,内容为bool类型,此时原DataFrame df[bool类型]就会获取高温小于30的数据 3、实现 df1 = df[(df['最低温度']>20) & (df['最高温度']<3 阅读全文

posted @ 2021-06-28 19:36 Wendy_r 阅读(897) 评论(0) 推荐(0) 编辑

导航