上一页 1 2 3 4 5 6 ··· 10 下一页
摘要: 06 学数据分析要掌握哪些基本概念 商业智能 BI、数据仓库 DW、数据挖掘 DM ​: 三者之间的关系开头中的百货商店利用数据预测用户购物行为属于商业智能, 他们积累的顾客的消费行为习惯会存储在数据仓库中, 通过对个体进行消费行为分析总结出来的规律属于数据挖掘。 07 用户画像:标签化就是数据的抽 阅读全文
posted @ 2021-01-15 20:17 foolangirl 阅读(301) 评论(0) 推荐(0) 编辑
摘要: 本讲内容: 1.Pandas 两个数据结构:Series 和 DataFrame。 2.数据处理。 1)数据导入与输出 2)数据清洗操作 3)数据统计函数 4)数据表join合并 5)在 Pandas 中使用 SQL 对数据表更方便地进行操作 数据结构:Series 和 DataFrame Seri 阅读全文
posted @ 2021-01-14 23:01 foolangirl 阅读(505) 评论(0) 推荐(0) 编辑
摘要: 开篇:数据分析学习方法、框架、内容与目标 高效的学习方法: MAS 方法 Multi-Dimension:想要掌握一个事物,就要从多个角度去认识它。 Ask:不懂就问,程序员大多都很羞涩,突破这一点,不懂就问最重要。 Sharing:最好的学习就是分享。用自己的语言讲出来,是对知识的进一步梳理 技术 阅读全文
posted @ 2021-01-13 23:42 foolangirl 阅读(234) 评论(0) 推荐(0) 编辑
摘要: 主要讲了numpy的struct格式、ufunc运算、ndarray统计函数、排序 代码: 阅读全文
posted @ 2021-01-13 23:41 foolangirl 阅读(83) 评论(0) 推荐(0) 编辑
摘要: 参考:https://i.cnblogs.com/posts/edit;postId=14193982沿用Hive学习小记-(5)表字段变动频繁时用json格式一篇场景: 可见直接存成map类型比string类型的json串方便很多: 阅读全文
posted @ 2021-01-12 21:25 foolangirl 阅读(122) 评论(0) 推荐(0) 编辑
摘要: 需求说明:这是一个横表转纵表与纵表转横表的故事,有点类似行列转换 行转列:一个字段的多行数据合进一个列,通常可用collect_set+concat_ws;列转行:一个字段的一列数据拆到多个行,通常用explode 横表转纵表: 1.原横表数据: cust_id1,jijin_bal,baoxian 阅读全文
posted @ 2021-01-11 22:16 foolangirl 阅读(1886) 评论(0) 推荐(0) 编辑
摘要: map阶段 1.hive.vectorized.execution.enabled 默认false. map方法逐行处理数据,开启之后hive构造一个批量输入的数组,一次处理1万条数据。(数据量不大,或计算不复杂是不是没必要开启? MapReduce只支持map端向量化执行,TEZ和SPARK支持m 阅读全文
posted @ 2021-01-10 15:34 foolangirl 阅读(1843) 评论(0) 推荐(0) 编辑
摘要: 先在我的集群上安装python3: [root@hadoop02 module]# yum install python3 再安装jupyter: pip3 install jupyter -i http://pypi.douban.com/simple --trusted-host pypi.do 阅读全文
posted @ 2021-01-10 02:11 foolangirl 阅读(2939) 评论(1) 推荐(0) 编辑
摘要: 参考:spark连接外部Hive应用 如果想连接外部已经部署好的Hive,需要通过以下几个步骤。 1) 将Hive中的hive-site.xml拷贝或者软连接到Spark安装目录下的conf目录下。 2) 打开spark shell,注意带上访问Hive元数据库的JDBC客户端(找到连接hive元m 阅读全文
posted @ 2021-01-09 22:42 foolangirl 阅读(5056) 评论(0) 推荐(0) 编辑
摘要: 摘自阿里大数据之路 什么是数据漂移 通常我们把从源系统同步进入数仓的第一层数据称为 ODS或者staging层数据,接入层 。 数据漂移是接入层数据的一个顽疾。 数据漂移定义:接入层ODS表同一个业务日期数据中包含前一天或者后一天凌晨附近的数据或者丢失当天的变更数据。 数据漂移出现的原因 通常落地数 阅读全文
posted @ 2021-01-09 15:00 foolangirl 阅读(2674) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 10 下一页