随笔分类 -  大数据与云计算

上一页 1 2 3 4 5 6 下一页
分布式计算 大数据 虚拟化
SolrCloud之分布式索引及与Zookeeper的集成--转载
摘要:原文地址:http://josh-persistence.iteye.com/blog/2234411一、概述Lucene是一个Java语言编写的利用倒排原理实现的文本检索类库,Solr是以Lucene为基础实现的文本检索应用服务,SolrCloud是Solr4.0版本开发出的具有开创意义的基于So... 阅读全文
posted @ 2015-11-17 19:54 一天不进步,就是退步 阅读(3402) 评论(0) 推荐(0) 编辑
solrCloud源码分析之CloudSolrClient
摘要:CloudSolrClient是solrj提供的客户端与solrCloud交互的类。该类的实例与zookeeper进行通信来确定solrCloud collections中的solr endpoint,然后使用LBHttpSolrClient发送请求。CloudSolrClient查询简单代码:im... 阅读全文
posted @ 2015-11-17 19:02 一天不进步,就是退步 阅读(14729) 评论(0) 推荐(1) 编辑
大数据读书笔记(2)-流式计算
摘要:早期和当前的"流式计算"系统分别称为"连续查询处理类"和"可扩展数据流平台类"计算系统。流式计算系统的特点:1)低延迟 2)极佳的系统容错性 3)极强的系统扩展能力 4)灵活强大的应用逻辑表达能力目前典型的流式计算系统:S4,storm,millwheel,samza,d-stream,hadoop... 阅读全文
posted @ 2015-11-06 11:37 一天不进步,就是退步 阅读(338) 评论(0) 推荐(0) 编辑
大数据读书笔记(1)
摘要:1. 数据分片与路由 抽象模型为两级映射关系,第一级映射是key-partition映射,第二级映射是partition-machine映射。 数据分片有哈希分片和范围分片: 哈希分片只支持点查询,如cassandra,voltmort,membase; 范围分片支持范围查询,google的b... 阅读全文
posted @ 2015-11-02 20:02 一天不进步,就是退步 阅读(520) 评论(0) 推荐(0) 编辑
Apache Hadoop YARN – NodeManager--转载
摘要:原文地址:http://zh.hortonworks.com/blog/apache-hadoop-yarn-nodemanager/The NodeManager (NM) is YARN’s per-node agent, and takes care of the individual com... 阅读全文
posted @ 2015-10-20 15:36 一天不进步,就是退步 阅读(429) 评论(0) 推荐(0) 编辑
Apache Hadoop YARN – ResourceManager--转载
摘要:原文地址:http://zh.hortonworks.com/blog/apache-hadoop-yarn-resourcemanager/ResourceManager (RM)is the master that arbitrates all the available cluster res... 阅读全文
posted @ 2015-10-20 15:32 一天不进步,就是退步 阅读(2490) 评论(0) 推荐(0) 编辑
hadoop2.7之Mapper/reducer源码分析
摘要:一切从示例程序开始: 示例程序 Hadoop2.7 提供的示例程序WordCount.java 1.Mapper 将输入的键值对映射到一组中间的键值对。 映射将独立的任务的输入记录转换成中间的记录。装好的中间记录不需要和输入记录保持同一种类型。一个给定的输入对可以映射成0个或者多个输出对。 Hado 阅读全文
posted @ 2015-10-20 10:54 一天不进步,就是退步 阅读(5928) 评论(0) 推荐(1) 编辑
Streaming Big Data: Storm, Spark and Samza--转载
摘要:原文地址:http://www.javacodegeeks.com/2015/02/streaming-big-data-storm-spark-samza.htmlThere are a number of distributed computation systems that can proc... 阅读全文
posted @ 2015-10-19 16:18 一天不进步,就是退步 阅读(397) 评论(0) 推荐(0) 编辑
SolrPerformanceFactors--官方文档
摘要:原文地址:http://wiki.apache.org/solr/SolrPerformanceFactorsContentsSchema Design Considerationsindexed fieldsStored fieldsConfiguration Considerationsmerg... 阅读全文
posted @ 2015-10-10 13:36 一天不进步,就是退步 阅读(389) 评论(0) 推荐(0) 编辑
Guide: Solr performance tuning--转载
摘要:原文地址:http://h3x.no/2011/05/10/guide-solr-performance-tuningIntroductionI have for the last year been working a lot with the Solr search engine, and fi... 阅读全文
posted @ 2015-10-09 16:08 一天不进步,就是退步 阅读(480) 评论(0) 推荐(0) 编辑
Solr实现SQL的查询与统计--转载
摘要:原文地址:http://shiyanjun.cn/archives/78.htmlCloudera公司已经推出了基于Hadoop平台的查询统计分析工具Impala,只要熟悉SQL,就可以熟练地使用Impala来执行查询与分析的功能。不过Impala的SQL和关系数据库的SQL还是有一点微妙地不同的。... 阅读全文
posted @ 2015-09-18 11:41 一天不进步,就是退步 阅读(2756) 评论(0) 推荐(0) 编辑
hbase快速入门
摘要:hbase 是什么? Apache HBase is an open-source, distributed, versioned, non-relational database modeled after Google's Bigtable: A Distributed Storage Syst... 阅读全文
posted @ 2015-09-11 15:30 一天不进步,就是退步 阅读(4844) 评论(0) 推荐(1) 编辑
Java Machine Learning Tools & Libraries--转载
摘要:原文地址:http://www.demnag.com/b/java-machine-learning-tools-libraries-cm570/?ref=dzoneThis is a list of 25 Java Machine learning tools & libraries.Wekaha... 阅读全文
posted @ 2015-09-11 13:45 一天不进步,就是退步 阅读(539) 评论(0) 推荐(0) 编辑
hdfs源码分析第二弹
摘要:以写文件为例,串联整个流程的源码: FSDataOutputStream out = fs.create(outFile);1. DistributedFileSystem继承并实现了FileSystem,该对象是终端用户和hadoop分布式文件系统交互的接口。原文说明:/*************... 阅读全文
posted @ 2015-09-07 16:39 一天不进步,就是退步 阅读(3223) 评论(0) 推荐(0) 编辑
solr源码分析之solrclound
摘要:一.简介SolrCloud是Solr4.0版本以后基于Solr和Zookeeper的分布式搜索方案。SolrCloud是Solr的基于Zookeeper一种部署方式。Solr可以以多种方式部署,例如单机方式,多机Master-Slaver方式。二.特色功能SolrCloud有几个特色功能:集中式的配... 阅读全文
posted @ 2015-09-01 19:57 一天不进步,就是退步 阅读(4240) 评论(0) 推荐(2) 编辑
Impala:新一代开源大数据分析引擎--转载
摘要:原文地址:http://www.parallellabs.com/2013/08/25/impala-big-data-analytics/文/耿益锋陈冠诚大数据处理是云计算中非常重要的问题,自Google公司提出MapReduce分布式处理框架以来,以Hadoop为代表的开源软件受到越来越多公司的... 阅读全文
posted @ 2015-08-31 19:46 一天不进步,就是退步 阅读(570) 评论(0) 推荐(0) 编辑
HDFS集中式的缓存管理原理与代码剖析--转载
摘要:原文地址:http://yanbohappy.sinaapp.com/?p=468Hadoop 2.3.0已经发布了,其中最大的亮点就是集中式的缓存管理(HDFS centralized cache management)。这个功能对于提升Hadoop系统和上层应用的执行效率与实时性有很大帮助,本文... 阅读全文
posted @ 2015-08-31 19:38 一天不进步,就是退步 阅读(751) 评论(0) 推荐(0) 编辑
Hadoop基于Protocol Buffer的RPC实现代码分析-Server端--转载
摘要:原文地址:http://yanbohappy.sinaapp.com/?p=110 最新版本的Hadoop代码中已经默认了Protocol buffer(以下简称PB,http://code.google.com/p/protobuf/)作为RPC的默认实现,原来的WritableRpcEng... 阅读全文
posted @ 2015-08-31 19:37 一天不进步,就是退步 阅读(2683) 评论(1) 推荐(1) 编辑
Hadoop RPC protocol description--转
摘要:原文地址:https://spotify.github.io/snakebite/hadoop_rpc.htmlSnakebite currently implements the following protocol insnakebite.channel.SocketRpcChannelto c... 阅读全文
posted @ 2015-08-31 19:24 一天不进步,就是退步 阅读(450) 评论(0) 推荐(0) 编辑
hdfs源码分析第一弹
摘要:1. hdfs定义HDFS is the primary distributed storage used by Hadoop applications. A HDFS cluster primarily consists of a NameNode that manages the file sy... 阅读全文
posted @ 2015-08-31 16:45 一天不进步,就是退步 阅读(3250) 评论(0) 推荐(0) 编辑

上一页 1 2 3 4 5 6 下一页