2015 年 11月随笔档案 - 五三中

Hadoop、Pig、Hive、NOSQL 学习资源收集

摘要：转自：http://www.cnblogs.com/zzjhn/p/3855566.html（一）hadoop 相关安装部署1、hadoop在windows cygwin下的部署：http://lib.open-open.com/view/1333428291655http://blog.csdn.... 阅读全文

posted @ 2015-11-30 15:03 五三中阅读(718) 评论(0) 推荐(0) 编辑

Lucene学习总结之一：全文检索的基本原理

摘要：转自：http://www.cnblogs.com/forfuture1978/archive/2009/12/14/1623594.html之前从事.net的时候已经做过lucene.net的实践，但学的不深，现在转向大数据solr和elasticsearch的时候发现很多东西又不能很好的解释，m... 阅读全文

posted @ 2015-11-30 12:04 五三中阅读(875) 评论(0) 推荐(0) 编辑

Solr学习和总结（线下1）

摘要：2015-09-08 上午~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~1：solr简介 solr是一个开源的搜索引擎，是对lucene做了封装，对外提供类似于web... 阅读全文

posted @ 2015-11-30 10:30 五三中阅读(876) 评论(0) 推荐(0) 编辑

HBase学习系列

摘要：转自：http://www.aboutyun.com/thread-8391-1-1.html问题导读：1.hbase是什么？2.hbase原理是什么？3.hbase使用中会遇到什么问题？4.如何通过eclipse，操作hbase？5.hbase经常和哪些软件一起使用？。。。。。。。。。。hbase... 阅读全文

posted @ 2015-11-29 01:49 五三中阅读(574) 评论(0) 推荐(0) 编辑

Hadoop家族系列文章

摘要：转自：http://blog.fens.me/series-hadoop-family/Hadoop家族系列文章，主要介绍Hadoop家族产品，常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukw... 阅读全文

posted @ 2015-11-29 01:42 五三中阅读(203) 评论(0) 推荐(0) 编辑

SQL on Hadoop系统的最新进展（1）

摘要：转自：http://blog.jobbole.com/47892/为什么非要把SQL放到Hadoop上？ SQL易于使用。那为什么非得基于Hadoop呢？the robust and scalable architecture of Hadoop目前SQL on Hadoop产品主要有以下几种：Hi... 阅读全文

posted @ 2015-11-29 01:35 五三中阅读(607) 评论(0) 推荐(0) 编辑

SQL on Hadoop 的真相（1）

摘要：转自：http://blog.jobbole.com/86710/这是一组系列博文，目的是详尽介绍 SQL-on-Hadoop 。本系列的第一篇会介绍 Hadoop 系统的存储引擎和在线事务处理（简称 OLTP ）；第二篇将介绍在线分析处理（简称 OLAP ）；第三篇将介绍对 Hadoop 引擎的改... 阅读全文

posted @ 2015-11-29 01:33 五三中阅读(411) 评论(0) 推荐(0) 编辑

SQL on Hadoop 的真相（2）

摘要：转自：http://blog.jobbole.com/87159/这是一组系列博客，目的是详尽介绍 SQL-on-Hadoop 。该系列的第一篇会介绍一些存储引擎和在线事务处理（简称 OLTP ）相关话题，这一篇将介绍联机分析处理（简称 OLAP ），第三篇将介绍对 Hadoop 引擎改造以及在相关... 阅读全文

posted @ 2015-11-29 01:33 五三中阅读(932) 评论(0) 推荐(0) 编辑

举例说明：Hadoop vs. NoSql vs. Sql vs. NewSql

摘要：转自：http://blog.jobbole.com/86269/尽管层次数据库如今在大型机上依然被广泛使用，但关系数据库（RDBMS）（SQL）已经占领了数据库市场，并且表现的相当优异。我们存的钱不会跑到别人的账户，我们预定机票可以确保我们在飞机上有一个专属的座位，而且我们也不会因为没有做过的事而... 阅读全文

posted @ 2015-11-29 01:30 五三中阅读(626) 评论(0) 推荐(0) 编辑

学习笔记：Twitter核心数据类库团队的Hadoop优化经验

摘要：转自：http://blog.jobbole.com/88283/一、来源Streaming Hadoop Performance Optimization at Scale, Lessons Learned at Twitter(Data platform @Twitter)二、观后感2.1 概要... 阅读全文

posted @ 2015-11-29 01:29 五三中阅读(263) 评论(0) 推荐(0) 编辑

Storm：最火的流式处理框架

摘要：转自：http://blog.jobbole.com/48595/诞生在2011年Storm开源之前，由于Hadoop的火红，整个业界都在喋喋不休地谈论大数据。Hadoop的高吞吐，海量数据处理的能力使得人们可以方便地处理海量数据。但是，Hadoop的缺点也和它的优点同样鲜明——延迟大，响应缓慢，... 阅读全文

posted @ 2015-11-29 01:27 五三中阅读(428) 评论(0) 推荐(0) 编辑

MapReduce原理与设计思想

摘要：转自：http://www.cnblogs.com/archimedes/p/mapreduce-principle.html简单解释 MapReduce 算法一个有趣的例子你想数出一摞牌中有多少张黑桃。直观方式是一张一张检查并且数出有多少张是黑桃？MapReduce方法则是：给在座的所有玩家中分配... 阅读全文

posted @ 2015-11-29 01:26 五三中阅读(417) 评论(0) 推荐(0) 编辑

mapreduce框架详解

摘要：转自：http://www.cnblogs.com/sharpxiajun/p/3151395.html开始聊mapreduce，mapreduce是hadoop的计算框架，我学hadoop是从hive开始入手，再到hdfs，当我学习hdfs时候，就感觉到hdfs和mapreduce关系的紧密。这个... 阅读全文

posted @ 2015-11-29 01:24 五三中阅读(1113) 评论(0) 推荐(0) 编辑

8天学通MongoDB（mark）

摘要：转自：http://www.cnblogs.com/huangxincheng/archive/2012/02/18/2356595.html关于mongodb的好处，优点之类的这里就不说了，唯一要讲的一点就是mongodb中有三元素：数据库，集合，文档，其中“集合”就是对应关系数据库中的“表”，“... 阅读全文

posted @ 2015-11-29 01:21 五三中阅读(222) 评论(0) 推荐(0) 编辑

15天玩转redis（mark，redis学习系列）

摘要：转自：http://www.cnblogs.com/huangxincheng/p/4966258.html双十一终于还是过去了，我负责的mongodb由于做了副本集，最终还是挺过去了，同事负责的redis，还是遗憾的在早上8点左右宕机了，然后大家就是马不停蹄的赶往公司解决问题，因为我对redis也... 阅读全文

posted @ 2015-11-29 01:16 五三中阅读(435) 评论(0) 推荐(0) 编辑

Hadoop家族学习路线图

摘要：转自：http://blog.fens.me/hadoop-family-roadmap/Hadoop家族系列文章，主要介绍Hadoop家族产品，常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chuk... 阅读全文

posted @ 2015-11-29 01:04 五三中阅读(221) 评论(0) 推荐(0) 编辑

大数据和Hadoop生态圈

摘要：转自：http://www.cnblogs.com/hadoopdev/p/3528616.html一、前言：非常感谢Hadoop专业解决方案群：313702010，兄弟们的大力支持，在此说一声辛苦了，经过两周的努力，已经有啦初步的成果，目前第1章大数据和Hadoop生态圈小组已经翻译完成，在... 阅读全文

posted @ 2015-11-29 00:58 五三中阅读(841) 评论(0) 推荐(0) 编辑

5G的7位电话号码，去重，内存20mb，代码实现。

摘要：转自：http://www.aboutyun.com/thread-11139-1-1.html答案：首先，这个题考的不是分布式7位数，至少要用int来保存，那么int为4字节，20MB内存 10^7*4/1024*1024=38.14697265625至少需要38MB，显然7位的数字不能全部保存保... 阅读全文

posted @ 2015-11-25 23:58 五三中阅读(969) 评论(0) 推荐(0) 编辑

怎样从10亿查询词找出出现频率最高的10个

摘要：转自：http://dongxicheng.org/big-data/select-ten-from-billions/1．问题描述在大规模数据处理中，常遇到的一类问题是，在海量数据中找出出现频率最高的前K个数，或者从海量数据中找出最大的前K个数，这类问题通常称为“top K”问题，如：在搜索引擎... 阅读全文

posted @ 2015-11-25 23:57 五三中阅读(2957) 评论(0) 推荐(0) 编辑

十道海量数据处理面试题与十个方法大总结

摘要：转自：http://blog.csdn.net/v_JULY_v/article/details/6279498海量数据处理：十道面试题与十个海量数据处理方法总结作者：July、youwang、yanxionglu。时间：二零一一年三月二十六日本文之总结：教你如何迅速秒杀掉：99%的海量数据处理面试... 阅读全文

posted @ 2015-11-25 23:51 五三中阅读(259) 评论(0) 推荐(0) 编辑

TopK的一个简单实现

摘要：转自：http://rangerwolf.iteye.com/blog/2119096题外话：《Hadoop in Action》是一本非常不错的交Hadoop的入门书，而且建议看英文版。此书作者的英文表达非常简单易懂。相信有一定英文阅读能力的同学直接用英文版就能非常容易的上手~进入正题。这个题... 阅读全文

posted @ 2015-11-25 22:55 五三中阅读(423) 评论(0) 推荐(0) 编辑

Spark1.0.0 学习路线指导

摘要：转自：http://www.aboutyun.com/thread-8421-1-1.html问题导读1.什么是spark？2.spark编程模型是什么？3.spark运维需要具有什么知识？4.spark如何监控？5.如何搭建开发spark?2014-05-30 Spark1.0.0 Relaeas... 阅读全文

posted @ 2015-11-25 15:00 五三中阅读(241) 评论(0) 推荐(0) 编辑

Apache Spark源码走读之1 -- Spark论文阅读笔记

摘要：转自：http://www.cnblogs.com/hseagle/p/3664933.html楔子源码阅读是一件非常容易的事，也是一件非常难的事。容易的是代码就在那里，一打开就可以看到。难的是要通过代码明白作者当初为什么要这样设计，设计之初要解决的主要问题是什么。在对Spark的源码进行具体的走读... 阅读全文

posted @ 2015-11-25 09:45 五三中阅读(400) 评论(0) 推荐(0) 编辑

倾情大奉送--Spark入门实战系列

摘要：转自：http://www.cnblogs.com/shishanyuan/p/4699644.html这一两年Spark技术很火，自己也凑热闹，反复的试验、研究，有痛苦万分也有欣喜若狂，抽空把这些整理成文章共享给大家。这个系列基本上围绕了Spark生态圈进行介绍，从Spark的简介、编译、部署，再... 阅读全文

posted @ 2015-11-24 23:33 五三中阅读(239) 评论(0) 推荐(0) 编辑

分布式发布订阅消息系统 Kafka 架构设计

摘要：转自：http://blog.csdn.net/zhongwen7710/article/details/41251779我们为什么要搭建该系统Kafka是一个消息系统，原本开发自LinkedIn，用作LinkedIn的活动流（activity stream）和运营数据处理管道（pipeline）的... 阅读全文

posted @ 2015-11-20 12:15 五三中阅读(2753) 评论(0) 推荐(0) 编辑

hive入门学习线路指导

摘要：转自：http://www.aboutyun.com/thread-7598-1-1.htmlhive被大多数企业使用，学习它，利于自己掌握企业所使用的技术，这里从安装使用到概念、原理及如何使用遇到的问题，来讲解hive，希望对大家有所帮助。此篇内容较多：看完之后需要达到的目标1.hive是什么2.... 阅读全文

posted @ 2015-11-19 01:18 五三中阅读(502) 评论(0) 推荐(0) 编辑

HDFS详解

摘要：转自：http://www.cnblogs.com/chinacloud/archive/2010/12/03/1895369.html【一】HDFS简介HDFS的基本概念1.1、数据块(block)HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64... 阅读全文

posted @ 2015-11-13 23:53 五三中阅读(358) 评论(0) 推荐(0) 编辑

Hadoop学习路线图

摘要：转自：http://blog.csdn.net/zhoudaxia/article/details/8801769按照这个路线图来学习即可。 1、M. Tim Jones的三篇文章：用Hadoop进行分布式数据处理第1部分（入门）：http://www.ibm.com/developerworks... 阅读全文

posted @ 2015-11-13 23:20 五三中阅读(2455) 评论(1) 推荐(0) 编辑

SecureCRT工具

摘要：技巧收集：文本文件内容复制该行内容yy，p粘贴2+yy复制两行dd 删除该行文件内容搜索非编辑状态/+查找内容查找指定行 :+行号阅读全文

posted @ 2015-11-09 21:37 五三中阅读(184) 评论(0) 推荐(0) 编辑

Eclipse使用技巧收集

摘要：因为学习Java相关，对Eclipse这个开发工具用的不习惯，许多操作以及快捷键在百度得到解决后下次又忘记了。有时使用VS又混淆了它的快捷键操作。所以写个备忘录持续更新收集平时遇到的操作。导入项目，发现很多地方报错，Remove '@override' annotation 原因是1.5和1.6之阅读全文

posted @ 2015-11-09 21:25 五三中阅读(461) 评论(0) 推荐(0) 编辑

如何确定 Hadoop map和reduce的个数--map和reduce数量之间的关系是什么？

摘要：转自：http://www.aboutyun.com/thread-6945-1-1.html阅读本文可以带着下面问题：1.map和reduce的数量过多会导致什么情况？2.Reduce可以通过什么设置来增加任务个数？3.一个task的map数量由谁来决定？4.一个task的reduce数量由谁来决... 阅读全文

posted @ 2015-11-07 11:38 五三中阅读(5407) 评论(0) 推荐(0) 编辑

HBase基本概念

摘要：转自：http://www.bcmeng.com/hbase-basic/HBase是什么HBase构建在 HDFS 之上的分布式列式键值存储系统。HBase内部管理的文件全部存储在HDFS中。HBase VS HDFSHDFS适合批处理场景不支持数据随机查找不适合增量数据处理不支持数据更新HBas... 阅读全文

posted @ 2015-11-06 23:41 五三中阅读(613) 评论(0) 推荐(0) 编辑

Hbase Rowkey设计

摘要：转自：http://www.bcmeng.com/hbase-rowkey/建立SchemaHbase 模式建立或更新可以通过 Hbase shell 工具或者使用Hbase Java API 中的 Admin类。当列族发生变动时 hbase表必须处于 disabled 状态。例如：Configur... 阅读全文

posted @ 2015-11-06 23:38 五三中阅读(1557) 评论(0) 推荐(0) 编辑

MapReduce调度与执行原理系列文章

摘要：转自：http://blog.csdn.net/jaytalent?viewmode=contentsMapReduce调度与执行原理系列文章一、MapReduce调度与执行原理之作业提交二、MapReduce调度与执行原理之作业初始化三、MapReduce调度与执行原理之任务调度四、MapRedu... 阅读全文

posted @ 2015-11-06 20:19 五三中阅读(325) 评论(0) 推荐(0) 编辑

LVS学习笔记及总结（思维导图版）

摘要：转自： http://www.07net01.com/2015/10/944377.html下图是我在跟随马哥的脚步学习LVS过程中的学习笔记，以此为蓝本总结的，若有不足之处请谅解！阅读全文

posted @ 2015-11-06 18:09 五三中阅读(336) 评论(0) 推荐(0) 编辑

hadoop MapReduce - 从作业、任务（task）、管理员角度调优

摘要：转自：http://www.aboutyun.com/thread-10557-1-1.html问题导读1.Combiner的作用是什么？2.作业级别参数如何调优？3.任务及管理员级别有哪些可以调优？Hadoop为用户作业提供了多种可配置的参数，以允许用户根据作业特点调整这些参数值使作业运行效率达到... 阅读全文

posted @ 2015-11-06 18:05 五三中阅读(678) 评论(0) 推荐(0) 编辑

Hadoop2的Yarn和MapReduce2相关

摘要：转自： http://www.aboutyun.com/thread-7678-1-1.html。。问题导读：1、什么是yarn？2、Yarn 和MapReduce相比，它有什么特殊作用？背景Yarn是一个分布式的资源管理系统，用以提高分布式的集群环境下的资源利用率，这些资源包括内存、IO、网络、... 阅读全文

posted @ 2015-11-06 17:14 五三中阅读(4382) 评论(1) 推荐(0) 编辑

hadoop学习WordCount+Block+Split+Shuffle+Map+Reduce技术详解

摘要：转自：http://blog.csdn.net/yczws1/article/details/21899007纯干货：通过WourdCount程序示例：详细讲解MapReduce之Block+Split+Shuffle+Map+Reduce的区别及数据处理流程。 Shuffle过程是MapReduc... 阅读全文

posted @ 2015-11-06 16:41 五三中阅读(1444) 评论(0) 推荐(0) 编辑

WordCount示例深度学习MapReduce过程

摘要：转自：http://blog.csdn.net/yczws1/article/details/21794873.我们都安装完Hadoop之后，按照一些案例先要跑一个WourdCount程序，来测试Hadoop安装是否成功。在终端中用命令创建一个文件夹，简单的向两个文件中各写入一段话，然后运行Hado... 阅读全文

posted @ 2015-11-06 16:32 五三中阅读(849) 评论(0) 推荐(0) 编辑

数组的几种排序算法的实现

摘要：转自：http://blog.csdn.net/letthinking/article/details/6764996 .数组的排序方法有很多，效率也各不相同，下面简单介绍一下几种常见的排序算法。 1.选择排序法：将要排序的数组分成两部分，一部分是从大到小已经排好序的，一部分是无序的，从无序的部... 阅读全文

posted @ 2015-11-06 11:17 五三中阅读(395) 评论(0) 推荐(0) 编辑

hBase官方文档以及HBase基础操作封装类

摘要：HBase 官方文档 0.97http://abloz.com/hbase/book.htmlHBase基本操作封装类（以课堂爬虫为例）package cn.crxy.spider.utils;import java.io.IOException;import java.util.ArrayList... 阅读全文

posted @ 2015-11-05 23:13 五三中阅读(1438) 评论(0) 推荐(0) 编辑

Hive SQL执行流程分析

摘要：转自 http://www.tuicool.com/articles/qyUzQj最近在研究Impala，还是先回顾下Hive的SQL执行流程吧。Hive有三种用户接口：cli (Command line interface)bin/hive或bin/hive –service cli命令行方式（默... 阅读全文

posted @ 2015-11-04 18:39 五三中阅读(7430) 评论(0) 推荐(0) 编辑

Hive SQL的编译过程

摘要：文章转自：http://tech.meituan.com/hive-sql-to-mapreduce.htmlHive是基于Hadoop的一个数据仓库系统，在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建，每天执行近万次的Hive ETL计算流程，负责每天数百GB的数据存储和分析。Hive... 阅读全文

posted @ 2015-11-04 18:17 五三中阅读(678) 评论(0) 推荐(0) 编辑

hadoop job解决大数据量关联时数据倾斜的一种办法

摘要：转自：http://www.cnblogs.com/xuxm2007/archive/2011/09/01/2161929.htmlhttp://www.geminikwok.com/2011/04/02/hadoop-jobè§£å³å¤§æ°æ®éå³èæ—¶æ°æ®å¾æ... 阅读全文

posted @ 2015-11-04 16:42 五三中阅读(482) 评论(0) 推荐(0) 编辑

Hive中如何快速的复制一张分区表（包括数据）

摘要：转自：http://lxw1234.com/archives/2015/09/484.htm关键字：Hive 复制表Hive中有时候会遇到复制表的需求，复制表指的是复制表结构和数据。如果是针对非分区表，那很简单，可以使用CREATE TABLE new_table AS SELECT * FROM ... 阅读全文

posted @ 2015-11-04 00:36 五三中阅读(5154) 评论(0) 推荐(1) 编辑

2015-08-22 - Linux设置和CDH安装

该文被密码保护。

posted @ 2015-11-01 20:34 五三中阅读(1) 评论(0) 推荐(0) 编辑

eclipse的Maven项目pom.xml错误信息提示missingxxxjar解决方案

摘要：今天在学习的时候需要用到maven工程，当时找完所依赖的包的三要素就开始下载了，写完pom.xml需要一段时间下载这些jar包，就躺在一边等了。可能是笔记本有节能功能这个原因导致我醒来时断网发现满屏missing xxxxxxxx.jar之类信息，记得之前有过删除.updated啥文件有过使项目... 阅读全文

posted @ 2015-11-01 01:35 五三中阅读(2703) 评论(0) 推荐(0) 编辑

cxzdy

11 2015 档案

公告

搜索

随笔分类

随笔档案

文章分类

阅读排行榜

推荐排行榜

最新评论