随笔分类 -  大数据

摘要:初学hadoop之linux系统操作的hdfs的常用命令 Hadoop之HDFS文件操作 Hadoop fs命令详解 官网doc sudo su - hdfs:免密,以hdfs账户登陆。可操作hdfs文件 logout sudo su - root hadoop fs -ls / rm -rf 目录 阅读全文
posted @ 2017-11-13 13:01 PanPan003 阅读(348) 评论(0) 推荐(0) 编辑
摘要:doc Hadoop初探之Stream Hadoop Stream 用python + hadoop streaming 编写分布式程序(一) -- 原理介绍,样例程序与本地调试 用python + hadoop streaming 编写分布式程序(二) -- 在集群上运行与监控 用python + 阅读全文
posted @ 2017-11-10 11:38 PanPan003 阅读(150) 评论(0) 推荐(0) 编辑
摘要:hive常用命令 Hadoop Hive概念学习系列之hive里的分区(九) DOC hive分区(partition)简介 Hive分区(静态分区+动态分区) Hive分区、分桶操作及其比较 hive学习4(hive的脚本执行) 通过自动化shell脚本,每日定时执行导入hive数据仓库 每天一个 阅读全文
posted @ 2017-11-09 14:26 PanPan003 阅读(283) 评论(0) 推荐(0) 编辑
摘要:mysql安装,hive环境的搭建 ambari部署hadoop 博客大牛:董的博客 ambari使用 ambari官方文档 hadoop 2.0 详细配置教程 使用Ambari快速部署Hadoop大数据环境 hadoop相关shell命令 Ambari安装指南 Hadoop之hive学习 Hive 阅读全文
posted @ 2017-11-08 09:49 PanPan003 阅读(10307) 评论(0) 推荐(0) 编辑
摘要:原理 官网 doc cube介绍 安装 案例 企业级特性 Apache Kylin 1.5的新功能和架构改变 Java API 通过java代码对kylin进行cube build kylin从入门到实战:实际案例:创建project;添加数据源;创建model;创建cube;查询 阅读全文
posted @ 2017-10-23 18:33 PanPan003 阅读(193) 评论(0) 推荐(0) 编辑
摘要:来源 一种为分布式应用所设计的高可用、高性能且一致的开源协调服务,它提供了一项基本服务:分布式锁服务。 特点: 能够用在大型的、分布式的系统当中 可靠性方面来说,它并不会因为一个节点的错误而崩溃 严格的序列访问控制意味着复杂的控制原语可以应用在客户端上 一致性、可用性、容错性的保证,也是ZooKee 阅读全文
posted @ 2017-10-18 13:17 PanPan003 阅读(307) 评论(0) 推荐(0) 编辑
摘要:来源 Cube: 用空间换时间(类似:BI分析) 预计算把用户需要查询的维度以及他们所对应的考量的值,存储在多维空间里 当用户查询某几个维度的时候,通过这些维度条件去定位到预计算的向量空间,通过再聚合处理,快速返回最终结果给用户。 Kylin的cube不是单一维度的组合,而是所有组合都可以计算。N个 阅读全文
posted @ 2017-10-18 12:04 PanPan003 阅读(3771) 评论(0) 推荐(0) 编辑
摘要:Hive 是什么?干什么? 数据类型 Hadoop 文件系统浅析 MapReduce 准备工作 框架介绍 Kylin 阅读全文
posted @ 2017-08-16 19:16 PanPan003 阅读(154) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示