09 2019 档案

摘要:1. 数据采集之Flume Taildir Source 相当于exec + spool的功能,还有断点续传功能。Flume1.7版本以上才有此功能,可以监控一个目录,并且根据正则表达式对目录中文件名对文件进行实时收集。 注意1:当只以文件大小的方式进行滚动,如果文件不满足条件,会永远处于临时状态。 阅读全文
posted @ 2019-09-28 15:09 单词计数程序大牛 阅读(317) 评论(0) 推荐(0) 编辑
摘要:1. 背景介绍 为了盈利,需要收集用户的访问日志来进行分析,根据分析结果提高用户的体验,最终转化为自己会员。 2. 三种角度分析 网站的眼睛(营销人员):用户喜欢什么,用户常去的页面,用户从哪里来。 网站的神经(技术人员):网站界面不好看,不合理。 网站的大脑(商业角度):投资回报率(ROI) 3. 阅读全文
posted @ 2019-09-27 20:18 单词计数程序大牛 阅读(202) 评论(0) 推荐(0) 编辑
摘要:Apache Sqoop是在Hadoop生态体系和RDBMS体系之间传送数据的一种工具。 Sqoop的工作机制是将导入导出命令转换为mapreduce名利。 2.sqoop安装 修改sqoop-env.xml: 3.全量导入 mysql导入hdfs mysql导入表结构到hive mysql导入数据 阅读全文
posted @ 2019-09-26 21:42 单词计数程序大牛 阅读(180) 评论(0) 推荐(0) 编辑
摘要:1. 数据仓库 a. 概念 数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持。不产生数据(不会新建数据),也不消费数据(只做分析),数据来源于外部,是一个仓库,不是工厂。 b. 特征 面向主题:需要先定义一个主题,比如分析计算机协会有100万人,现在需要分析所有男生的学习成绩,这时只 阅读全文
posted @ 2019-09-25 17:10 单词计数程序大牛 阅读(207) 评论(0) 推荐(0) 编辑
摘要:1. 分布式锁 总结: 其实如果有客户端C、客户端D等N个客户端争抢一个zk分布式锁,原理都是类似的。大家都是上来直接创建一个锁节点下的一个接一个的临时顺序节点,如果自己不是第一个节点,就对自己上一个节点加监听器只要上一个节点释放锁,自己就排到前面去了,相当于是一个排队机制。 而且用临时顺序节点的另 阅读全文
posted @ 2019-09-23 19:45 单词计数程序大牛 阅读(253) 评论(0) 推荐(0) 编辑
摘要:1.HDFS的设计目标 故障的检测和自动快速恢复 数据访问的高吞吐量 支持大文件 一次写入多次查看 移动计算的代价比移动数据代价小 可移植性 2.基本原理 NameNode仅存储元数据:文件系统所有文件的目录树,并跟踪集群中的文件 NameNode不持久化各个块位置的所在的DataNode信息,Da 阅读全文
posted @ 2019-09-22 20:11 单词计数程序大牛 阅读(116) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示