08 2021 档案
摘要:pandas 连接数据库 1 import numpy as np 2 import pandas as pd 3 from sqlalchemy import create_engine 4 5 engine = create_engine("mysql+pymysql://root:100100
阅读全文
摘要:总结 1. Hive数据表分区、分桶的作用分区表产生不同的目录: 避免全表扫描分桶表产生不同的文件: jion 速度快 和 桶抽样 2. Hive常用的3复合数据类型及访问方式select * from emp_partitioninner join salariesonsalaries.emp_n
阅读全文
摘要:导入中文乱码解决方案 将csv 保存成utf-8的文件 ALTER TABLE user_info SET SERDEPROPERTIES ('serialization.encoding'='GBK'); 创建table 的巧妙方式 1 create table user_info as 2 se
阅读全文
摘要:I intrest 兴趣指标 日活、留存、人均浏览时长、人均浏览深度(粘性)、跳出率、页面详情浏览人数、浏览互动转化、app启动天数(用到分布分析) 2.内容分析 3.产品迭代分析 4.潜客分析 5.渠道分析 支付分析 商品支付分析 忠诚度
阅读全文