2016 年 1月 12 日随笔档案 - 五三中

2016年1月12日

摘要：转自：http://blog.sina.com.cn/s/blog_4a1f59bf01018apd.html附hbase如何创建二级索引以及创建二级索引实例：http://www.aboutyun.com/thread-8857-1-1.html华为二级索引（原理）：http://my.oschi... 阅读全文

posted @ 2016-01-12 22:28 五三中阅读(15037) 评论(0) 推荐(0) 编辑

solr学习2

摘要： 1：solr中的时间问题 solr中显示的时间默认会比我们本机时间少八个小时，因为时区不一样。在solr的web页面查看会发现时间少八个小时。但是使用java代码操作的时候是整成的的，所以在这只需要知道sorl有这个现象就可以了。可以给这个时间字段添加默认值。添加default字段即可 ... 阅读全文

posted @ 2016-01-12 21:29 五三中阅读(836) 评论(0) 推荐(0) 编辑

HBase参数配置及说明

摘要：转自：http://www.cnblogs.com/nexiyi/p/hbase_config_94.html目的是看下生产环境配置与默认配置情况。hbase.hregion.max.filesize:100Ghbase.regionserver.hlog.blocksize:512Mhbase.r... 阅读全文

posted @ 2016-01-12 20:57 五三中阅读(2101) 评论(0) 推荐(0) 编辑

Storm ack和fail机制再论

摘要：转自：http://www.cnblogs.com/fxjwind/p/3806404.html之前对这个的理解有些问题，今天用到有仔细梳理了一遍，记录一下首先开启storm tracker机制的前提是，1. 在spout emit tuple的时候，要加上第3个参数messageid2. 在配置中... 阅读全文

posted @ 2016-01-12 16:20 五三中阅读(1165) 评论(0) 推荐(0) 编辑

如何保障流式处理的数据一致性

摘要：转自：http://www.cnblogs.com/fxjwind/p/4689607.html背景相对于传统的Hadoop这样的batch分析平台，流式分析的优点就是实时性，即可以在秒级别延迟上得到分析结果。当然缺点是, 很难保证强一致性，即Exactly-Once语义（在海量数据的前提下，... 阅读全文

posted @ 2016-01-12 16:07 五三中阅读(1269) 评论(0) 推荐(0) 编辑

Kafka可靠性的思考

摘要：转自：http://www.cnblogs.com/fxjwind/p/3810740.html?utm_source=tuicool&utm_medium=referral附kafka consumer防止数据丢失：http://www.fwqtg.net/kafka-consumer%E9%98... 阅读全文

posted @ 2016-01-12 16:01 五三中阅读(2423) 评论(0) 推荐(0) 编辑

Zookeeper 快速理解

摘要：转自：http://blog.csdn.net/colorant/article/details/8444283==是什么==目标Scope（解决什么问题）为分布式系统提供高可靠性的协同工作机制官方定义ZooKeeper is acentralized service for maintaining... 阅读全文

posted @ 2016-01-12 15:58 五三中阅读(237) 评论(0) 推荐(0) 编辑

快速理解 Phoenix : SQL on HBASE

摘要：转自：http://blog.csdn.net/colorant/article/details/8645081==是什么==目标ScopeEasyStandard SQL access on top of HBase官方定义ASQL layer over HBase delivered as a ... 阅读全文

posted @ 2016-01-12 15:57 五三中阅读(2038) 评论(0) 推荐(0) 编辑

YARN : Architecture of Next Generation Apache Hadoop MapReduceFramework

摘要：转自：http://blog.csdn.net/colorant/article/details/9146201==目标问题==下一代的Hadoop框架，支持10,000+节点规模的Hadoop集群，支持更灵活的编程模型==核心思想==固定的编程模型，单点的资源调度和任务管理方式，使得Hadoop ... 阅读全文

posted @ 2016-01-12 15:55 五三中阅读(371) 评论(0) 推荐(0) 编辑

【采集层】Kafka 与 Flume 如何选择

摘要：转自：http://my.oschina.net/frankwu/blog/355298采集层主要可以使用Flume, Kafka两种技术。Flume：Flume是管道流方式，提供了很多的默认实现，让用户通过参数部署，及扩展API.Kafka：Kafka是一个可持久化的分布式的消息队列。Kafka是... 阅读全文

posted @ 2016-01-12 15:52 五三中阅读(626) 评论(0) 推荐(0) 编辑

Storm快速理解

摘要：转自：http://blog.csdn.net/colorant/article/details/8256039更多云计算相关项目快速理解文档http://blog.csdn.net/colorant/article/details/8255910==是什么==目标Scope（解决什么问题）分布式实... 阅读全文

posted @ 2016-01-12 15:51 五三中阅读(732) 评论(0) 推荐(0) 编辑

快速理解Kafka分布式消息队列框架

摘要：转自：http://blog.csdn.net/colorant/article/details/12081909==是什么==简单的说，Kafka是由Linkedin开发的一个分布式的消息队列系统(Message Queue)目标Scope（解决什么问题）kafka开发的主要初衷目标是构建一个用来... 阅读全文

posted @ 2016-01-12 15:47 五三中阅读(2099) 评论(0) 推荐(0) 编辑

Kafka 之入门

摘要：转自：http://my.oschina.net/frankwu/blog/303745Kafka 之中级：http://my.oschina.net/frankwu/blog/305010摘要最近研究采集层，对Kafka做了一个研究。分为入门，中级，高级步步进阶。本篇主要介绍基本概念，适用场景。... 阅读全文

posted @ 2016-01-12 15:41 五三中阅读(455) 评论(0) 推荐(0) 编辑

Kafka深度解析

摘要：转自：http://blog.csdn.net/qqqq724/article/details/43228863背景介绍Kafka简介 Kafka是一种分布式的，基于发布/订阅的消息系统。主要设计目标如下：以时间复杂度为O(1)的方式提供消息持久化能力，即使对TB级以上数据也能保证常数时间的访问性... 阅读全文

posted @ 2016-01-12 15:31 五三中阅读(4445) 评论(0) 推荐(0) 编辑

Hadoop集群作业调度算法

摘要：转自：http://blog.csdn.net/chen_jp/article/details/7983076Hadoop集群中有三种作业调度算法，分别为FIFO，公平调度算法和计算能力调度算法先来先服务（FIFO）FIFO比较简单，hadoop中只有一个作业队列，被提交的作业按照先后顺序在作业队列... 阅读全文

posted @ 2016-01-12 15:16 五三中阅读(937) 评论(0) 推荐(0) 编辑

cxzdy

公告