上一页 1 2 3 4 5 6 7 8 ··· 10 下一页
摘要: 社区hadoop2.2.0 release版本开始支持NameNode的HA,本文将详细描述NameNode HA内部的设计与实现。 为什么要Namenode HA? 1. NameNode High Availability即高可用。 2. NameNode 很重要,挂掉会导致存储停止服务,无法进 阅读全文
posted @ 2017-10-15 10:06 小丑进场 阅读(607) 评论(0) 推荐(0) 编辑
摘要: 使用pdfminer遇到的pdf文件加密问题: raise PDFEncryptionError('Unknown algorithm: param=%r' % param) pdfminer.pdfdocument.PDFEncryptionError: Unknown algorithm: pa 阅读全文
posted @ 2017-09-19 10:04 小丑进场 阅读(1919) 评论(1) 推荐(0) 编辑
摘要: 1. 两者分别是什么? Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能,但是Hive不能够进行交互查询--因为它只能 阅读全文
posted @ 2017-08-27 13:09 小丑进场 阅读(495) 评论(0) 推荐(0) 编辑
摘要: 一、索引 简介 Hive支持索引,但是Hive的索引与关系型数据库中的索引并不相同,比如,Hive不支持主键或者外键。 Hive索引可以建立在表中的某些列上,以提升一些操作的效率,例如减少MapReduce任务中需要读取的数据块的数量。 为什么要创建索引? Hive的索引目的是提高Hive表指定列的 阅读全文
posted @ 2017-08-24 20:26 小丑进场 阅读(16076) 评论(0) 推荐(4) 编辑
摘要: Map Join 实现方式一 ● 使用场景:一个大表(整张表内存放不下,但表中的key内存放得下),一个超大表 ● 实现方式:分布式缓存 ● 用法: SemiJoin就是所谓的半连接,其实仔细一看就是reduce join的一个变种,就是在map端过滤掉一些数据,在网络中只传输参与连接的数据不参与连 阅读全文
posted @ 2017-08-13 16:40 小丑进场 阅读(906) 评论(0) 推荐(0) 编辑
摘要: Map Join 实现方式一:分布式缓存 ● 使用场景:一张表十分小、一张表很大。 ● 用法: 在提交作业的时候先将小表文件放到该作业的DistributedCache中,然后从DistributeCache中取出该小表进行join (比如放到Hash Map等等容器中)。然后扫描大表,看大表中的每 阅读全文
posted @ 2017-08-13 16:30 小丑进场 阅读(1365) 评论(0) 推荐(0) 编辑
摘要: 在关系型数据库中 Join 是非常常见的操作,各种优化手段已经到了极致。在海量数据的环境下,不可避免的也会碰到这种类型的需求, 例如在数据分析时需要连接从不同的数据源中获取到数据。不同于传统的单机模式,在分布式存储下采用 MapReduce 编程模型,也有相应的处理措施和优化方法。 我们先简要地描述 阅读全文
posted @ 2017-08-13 16:20 小丑进场 阅读(2462) 评论(0) 推荐(0) 编辑
摘要: 很多视频网站都有电视剧热度排名,一般是依据用户在自己站的行为数据所体现出的受欢迎程度来排名。这里有一份来自优酷、爱奇艺、搜索视频等五大视频网站的一份视频播放数据,我们利用这份数据做些有意义的事情。 金婚第一部 3 9851 0 0 0 0金婚第一部 3 9851 0 0 0 0金婚第一部 3 985 阅读全文
posted @ 2017-08-12 10:14 小丑进场 阅读(954) 评论(0) 推荐(0) 编辑
摘要: 今天我们来用docker-compose 快速安装一个Django+PostgreSQL的开发环境。 Compose简介 Compose 定位是“defining and running complex applications with Docker”,前身是 Fig,兼容 Fig 的模板文件。 阅读全文
posted @ 2017-06-10 11:07 小丑进场 阅读(3970) 评论(0) 推荐(1) 编辑
摘要: 一、Docker是什么? KVM, Virtualbox, Vmware是虚拟出机器,让每个实例看到一个单独的机器;而Docker是虚拟出操作系统,实现应用之间的隔离,让各个应用觉得自己有一个自己的操作系统,而且彼此之间隔离。假设没有Docker,然后有进程1和进程2,它们的运行将类似下图,进程1和 阅读全文
posted @ 2017-06-08 15:12 小丑进场 阅读(819) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 ··· 10 下一页