大数据与云计算 - 随笔分类(第5页) - 一天不进步，就是退步

SolrCloud之分布式索引及与Zookeeper的集成--转载

摘要：原文地址：http://josh-persistence.iteye.com/blog/2234411一、概述Lucene是一个Java语言编写的利用倒排原理实现的文本检索类库，Solr是以Lucene为基础实现的文本检索应用服务，SolrCloud是Solr4.0版本开发出的具有开创意义的基于So... 阅读全文

posted @ 2015-11-17 19:54 一天不进步，就是退步阅读(3402) 评论(0) 推荐(0) 编辑

solrCloud源码分析之CloudSolrClient

摘要：CloudSolrClient是solrj提供的客户端与solrCloud交互的类。该类的实例与zookeeper进行通信来确定solrCloud collections中的solr endpoint，然后使用LBHttpSolrClient发送请求。CloudSolrClient查询简单代码：im... 阅读全文

posted @ 2015-11-17 19:02 一天不进步，就是退步阅读(14729) 评论(0) 推荐(1) 编辑

大数据读书笔记(2)-流式计算

摘要：早期和当前的"流式计算"系统分别称为"连续查询处理类"和"可扩展数据流平台类"计算系统。流式计算系统的特点：1)低延迟 2)极佳的系统容错性 3)极强的系统扩展能力 4）灵活强大的应用逻辑表达能力目前典型的流式计算系统：S4，storm，millwheel，samza，d-stream，hadoop... 阅读全文

posted @ 2015-11-06 11:37 一天不进步，就是退步阅读(338) 评论(0) 推荐(0) 编辑

大数据读书笔记(1)

摘要：1. 数据分片与路由抽象模型为两级映射关系，第一级映射是key-partition映射，第二级映射是partition-machine映射。数据分片有哈希分片和范围分片：哈希分片只支持点查询，如cassandra，voltmort，membase；范围分片支持范围查询，google的b... 阅读全文

posted @ 2015-11-02 20:02 一天不进步，就是退步阅读(520) 评论(0) 推荐(0) 编辑

Apache Hadoop YARN – NodeManager--转载

摘要：原文地址：http://zh.hortonworks.com/blog/apache-hadoop-yarn-nodemanager/The NodeManager (NM) is YARN’s per-node agent, and takes care of the individual com... 阅读全文

posted @ 2015-10-20 15:36 一天不进步，就是退步阅读(429) 评论(0) 推荐(0) 编辑

Apache Hadoop YARN – ResourceManager--转载

摘要：原文地址：http://zh.hortonworks.com/blog/apache-hadoop-yarn-resourcemanager/ResourceManager (RM)is the master that arbitrates all the available cluster res... 阅读全文

posted @ 2015-10-20 15:32 一天不进步，就是退步阅读(2490) 评论(0) 推荐(0) 编辑

hadoop2.7之Mapper/reducer源码分析

摘要：一切从示例程序开始：示例程序 Hadoop2.7 提供的示例程序WordCount.java 1.Mapper 将输入的键值对映射到一组中间的键值对。映射将独立的任务的输入记录转换成中间的记录。装好的中间记录不需要和输入记录保持同一种类型。一个给定的输入对可以映射成0个或者多个输出对。 Hado 阅读全文

posted @ 2015-10-20 10:54 一天不进步，就是退步阅读(5928) 评论(0) 推荐(1) 编辑

Streaming Big Data: Storm, Spark and Samza--转载

摘要：原文地址：http://www.javacodegeeks.com/2015/02/streaming-big-data-storm-spark-samza.htmlThere are a number of distributed computation systems that can proc... 阅读全文

posted @ 2015-10-19 16:18 一天不进步，就是退步阅读(397) 评论(0) 推荐(0) 编辑

SolrPerformanceFactors--官方文档

摘要：原文地址：http://wiki.apache.org/solr/SolrPerformanceFactorsContentsSchema Design Considerationsindexed fieldsStored fieldsConfiguration Considerationsmerg... 阅读全文

posted @ 2015-10-10 13:36 一天不进步，就是退步阅读(389) 评论(0) 推荐(0) 编辑

Guide: Solr performance tuning--转载

摘要：原文地址：http://h3x.no/2011/05/10/guide-solr-performance-tuningIntroductionI have for the last year been working a lot with the Solr search engine, and fi... 阅读全文

posted @ 2015-10-09 16:08 一天不进步，就是退步阅读(480) 评论(0) 推荐(0) 编辑

Solr实现SQL的查询与统计--转载

摘要：原文地址：http://shiyanjun.cn/archives/78.htmlCloudera公司已经推出了基于Hadoop平台的查询统计分析工具Impala，只要熟悉SQL，就可以熟练地使用Impala来执行查询与分析的功能。不过Impala的SQL和关系数据库的SQL还是有一点微妙地不同的。... 阅读全文

posted @ 2015-09-18 11:41 一天不进步，就是退步阅读(2756) 评论(0) 推荐(0) 编辑

hbase快速入门

摘要：hbase 是什么？ Apache HBase is an open-source, distributed, versioned, non-relational database modeled after Google's Bigtable: A Distributed Storage Syst... 阅读全文

posted @ 2015-09-11 15:30 一天不进步，就是退步阅读(4844) 评论(0) 推荐(1) 编辑

Java Machine Learning Tools & Libraries--转载

摘要：原文地址：http://www.demnag.com/b/java-machine-learning-tools-libraries-cm570/?ref=dzoneThis is a list of 25 Java Machine learning tools & libraries.Wekaha... 阅读全文

posted @ 2015-09-11 13:45 一天不进步，就是退步阅读(539) 评论(0) 推荐(0) 编辑

hdfs源码分析第二弹

摘要：以写文件为例，串联整个流程的源码： FSDataOutputStream out = fs.create(outFile);1. DistributedFileSystem继承并实现了FileSystem，该对象是终端用户和hadoop分布式文件系统交互的接口。原文说明：/*************... 阅读全文

posted @ 2015-09-07 16:39 一天不进步，就是退步阅读(3223) 评论(0) 推荐(0) 编辑

solr源码分析之solrclound

摘要：一.简介SolrCloud是Solr4.0版本以后基于Solr和Zookeeper的分布式搜索方案。SolrCloud是Solr的基于Zookeeper一种部署方式。Solr可以以多种方式部署，例如单机方式，多机Master-Slaver方式。二.特色功能SolrCloud有几个特色功能：集中式的配... 阅读全文

posted @ 2015-09-01 19:57 一天不进步，就是退步阅读(4240) 评论(0) 推荐(2) 编辑

Impala：新一代开源大数据分析引擎--转载

摘要：原文地址：http://www.parallellabs.com/2013/08/25/impala-big-data-analytics/文/耿益锋陈冠诚大数据处理是云计算中非常重要的问题，自Google公司提出MapReduce分布式处理框架以来，以Hadoop为代表的开源软件受到越来越多公司的... 阅读全文

posted @ 2015-08-31 19:46 一天不进步，就是退步阅读(570) 评论(0) 推荐(0) 编辑

HDFS集中式的缓存管理原理与代码剖析--转载

摘要：原文地址：http://yanbohappy.sinaapp.com/?p=468Hadoop 2.3.0已经发布了，其中最大的亮点就是集中式的缓存管理(HDFS centralized cache management)。这个功能对于提升Hadoop系统和上层应用的执行效率与实时性有很大帮助，本文... 阅读全文

posted @ 2015-08-31 19:38 一天不进步，就是退步阅读(751) 评论(0) 推荐(0) 编辑

Hadoop基于Protocol Buffer的RPC实现代码分析-Server端--转载

摘要：原文地址：http://yanbohappy.sinaapp.com/?p=110 最新版本的Hadoop代码中已经默认了Protocol buffer（以下简称PB，http://code.google.com/p/protobuf/）作为RPC的默认实现，原来的WritableRpcEng... 阅读全文

posted @ 2015-08-31 19:37 一天不进步，就是退步阅读(2683) 评论(1) 推荐(1) 编辑

Hadoop RPC protocol description--转

摘要：原文地址：https://spotify.github.io/snakebite/hadoop_rpc.htmlSnakebite currently implements the following protocol insnakebite.channel.SocketRpcChannelto c... 阅读全文

posted @ 2015-08-31 19:24 一天不进步，就是退步阅读(450) 评论(0) 推荐(0) 编辑

hdfs源码分析第一弹

摘要：1. hdfs定义HDFS is the primary distributed storage used by Hadoop applications. A HDFS cluster primarily consists of a NameNode that manages the file sy... 阅读全文

posted @ 2015-08-31 16:45 一天不进步，就是退步阅读(3250) 评论(0) 推荐(0) 编辑

随笔分类 - 大数据与云计算