01 2019 档案

摘要:Creating Permanent Functions Copy the JAR file to HDFS and make sure the hive user can access this JAR file.Copy the JAR file to the host on which Hiv 阅读全文
posted @ 2019-01-25 11:10 爱知菜 阅读(23) 评论(0) 推荐(0) 编辑
摘要:Cloudera Manager 简称 CM, 是企业级的大数据集群安装/升级/管理平台, 帮助用户通过网页上的简单操作控制整个集群. 其功能如下: 1. 提供一个software repository, 方便在各个节点上安装大数据的组件 2. 批量配置 3. 集群监控 4. 集群升级/回滚/备份 阅读全文
posted @ 2019-01-15 14:14 爱知菜 阅读(79) 评论(0) 推荐(0) 编辑
摘要:目前实时层比较流行的一个解决方案是Flume + Kafka + Storm/Spark Streaming/Flink + Redis. Redis 是一个很有意思的内存数据库, 它支持五种数据结构, 并且有很多很有意思的API和使用方式, 在Speed layer中, 它充当数据库的角色. St 阅读全文
posted @ 2019-01-04 18:56 爱知菜 阅读(25) 评论(0) 推荐(0) 编辑
摘要:前文链接: https://blog.csdn.net/rav009/article/details/85690985 继续介绍 Lambda结构 一些理念: fact-based model 在关系型数据库的时代,我们通过维度表和事实表来组成数据仓库。但是到了大数据时代,由于数据的容量不再受到限制 阅读全文
posted @ 2019-01-03 16:16 爱知菜 阅读(36) 评论(0) 推荐(0) 编辑
摘要:上图就是lambda结构的一个示意, 来自图书Big Data Principles and best practices of scalable realtime data system, 该书的作者就是lambda架构的创造者Nathan Marz。 大数据的技术手段百花齐放, 各种NoSQL数 阅读全文
posted @ 2019-01-03 13:55 爱知菜 阅读(60) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示