12 2014 档案

摘要:转自http://www.dbafree.net/?p=36BloomFilter–大规模数据处理利器 Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%正确的场合。一.实例 为了说明... 阅读全文
posted @ 2014-12-30 14:32 njuzhoubing 阅读(191) 评论(0) 推荐(0) 编辑
摘要:bash脚本中出现[[:not found错误的解决方法--bash脚本总结1今天在写脚本的时候,发生了一个奇怪的问题:在脚本中使用[[的时候报错“[[: not found”。遇到问题自然是解决问题。1. 使用的bash版本太低?bash --version查看bash版本信息如下lee@lee:... 阅读全文
posted @ 2014-12-26 10:32 njuzhoubing 阅读(3294) 评论(0) 推荐(0) 编辑
摘要:回到目录转自:http://www.cnblogs.com/hseagle/p/3673132.html概要本篇主要阐述在TaskRunner中执行的task其业务逻辑是如何被调用到的,另外试图讲清楚运行着的task其输入的数据从哪获取,处理的结果返回到哪里,如何返回。准备spark已经安装完毕sp... 阅读全文
posted @ 2014-12-18 13:40 njuzhoubing 阅读(235) 评论(0) 推荐(0) 编辑
摘要:回到目录转自http://www.cnblogs.com/hseagle/p/3673123.html概要本文以wordCount为例,详细说明spark创建和运行job的过程,重点是在进程及线程的创建。实验环境搭建在进行后续操作前,确保下列条件已满足。下载spark binary 0.9.1安装s... 阅读全文
posted @ 2014-12-18 13:24 njuzhoubing 阅读(178) 评论(0) 推荐(0) 编辑
摘要:回到目录转自http://www.cnblogs.com/hseagle/p/3664933.html版本:未知楔子源码阅读是一件非常容易的事,也是一件非常难的事。容易的是代码就在那里,一打开就可以看到。难的是要通过代码明白作者当初为什么要这样设计,设计之初要解决的主要问题是什么。在对Spark的源... 阅读全文
posted @ 2014-12-18 12:47 njuzhoubing 阅读(120) 评论(0) 推荐(0) 编辑
摘要:回到目录转自:http://www.cnblogs.com/Scott007/p/3889959.html, 博客时间2014-08-05版本:未知1 概述 Spark的on Yarn模式,其资源分配是交给Yarn的ResourceManager来进行管理的,但是目前的Spark版本,Applic... 阅读全文
posted @ 2014-12-18 11:28 njuzhoubing 阅读(1646) 评论(0) 推荐(0) 编辑
摘要:回到目录Running Spark on YARNSupport for running onYARN (Hadoop NextGen)was added to Spark in version 0.6.0, and improved in subsequent releases.Preparati... 阅读全文
posted @ 2014-12-18 09:19 njuzhoubing 阅读(493) 评论(0) 推荐(0) 编辑
摘要:回到目录Submitting ApplicationsThespark-submitscript in Spark’sbindirectory is used to launch applications on a cluster. It can use all of Spark’s support... 阅读全文
posted @ 2014-12-18 09:17 njuzhoubing 阅读(220) 评论(0) 推荐(0) 编辑
摘要:回到目录Spark Programming GuideOverviewLinking with SparkInitializing SparkUsing the ShellResilient Distributed Datasets (RDDs)Parallelized CollectionsExt... 阅读全文
posted @ 2014-12-17 17:04 njuzhoubing 阅读(313) 评论(0) 推荐(0) 编辑
摘要:回到目录开发注意事项版本: spark 1.1.1 , hadoop 2.4.0, hbase 0.98.3Guide:官网说明或者 博客园内转载1.Spark 1.1.1 uses Scala 2.10. To write applications in Scala, you will need ... 阅读全文
posted @ 2014-12-17 16:49 njuzhoubing 阅读(143) 评论(0) 推荐(0) 编辑
摘要:转自: http://scala-ide.org/docs/current-user-doc/faq/index.htmlGeneralWhat Eclipse Platforms are supported?The Scala IDE 3.0 officially supports bothEcl... 阅读全文
posted @ 2014-12-17 16:46 njuzhoubing 阅读(3100) 评论(0) 推荐(0) 编辑
摘要:Version 1.1.1Apache Doc ListAdvanced Spark Internals and Tuning – Reynold Xin –SLIDES|VIDEOSpark SQL – Michael Armburst –SLIDES|VIDEOSpark Streaming –... 阅读全文
posted @ 2014-12-17 10:26 njuzhoubing 阅读(342) 评论(0) 推荐(0) 编辑
摘要:BlogDate: 2010-01-17最近,Google针对Gmail被攻击事件,全面默认启用了始终以https访问Gmail的方式了。但是,对于可以动用整个国家力量的黑客来说,从网络通讯数据中(在此不讨论对用户电脑种木马破解https的情况,只讨论在网络通讯数据中破解https的方法)破解htt... 阅读全文
posted @ 2014-12-14 11:26 njuzhoubing 阅读(297) 评论(0) 推荐(0) 编辑
摘要:配置缺省值说明name配置这个属性的意义在于,如果存在多个数据源,监控的时候可以通过名字来区分开来。如果没有配置,将会生成一个名字,格式是:"DataSource-" + System.identityHashCode(this).另外配置此属性至少在1.0.5版本中是不起作用的,强行设置name会... 阅读全文
posted @ 2014-12-12 10:42 njuzhoubing 阅读(833) 评论(0) 推荐(0) 编辑
摘要:二级索引与索引Join是多数业务系统要求存储引擎提供的基本特性,RDBMS早已支持,NOSQL阵营也在摸索着符合自身特点的最佳解决方案。这篇文章会以HBase做为对象来讨论如何基于Hbase构建二级索引与实现索引join。文末同时会列出目前已知的包括0.19.3版secondary index,IT... 阅读全文
posted @ 2014-12-11 14:06 njuzhoubing 阅读(203) 评论(0) 推荐(0) 编辑
摘要:About this DocumentApache HBase (TM) is not an ACID compliant database. However, it does guarantee certain specific properties.This specification enum... 阅读全文
posted @ 2014-12-10 17:35 njuzhoubing 阅读(262) 评论(0) 推荐(0) 编辑
摘要:命令 http://www.redisdoc.com/en/latest/安装 redis官网地址:http://www.redis.io/ 1、下载源码,解压缩后编译源码。$ wget http://download.redis.io/releases/redis-2.8.3.tar.gz$ ... 阅读全文
posted @ 2014-12-08 14:11 njuzhoubing 阅读(405) 评论(0) 推荐(0) 编辑
摘要:最早的商业列式数据库是在1995年发布的Sybase IQ,但是一直到1999年左右才慢慢稳定到能够投入生产环境。现在的大多数分析型数据库都是在2003-2005年从Postgresql 分支出来的。其中尤其是Vertica 为代表的列数据库已经在大规模数据仓库环境中证明其特别为数据仓库环境设计的思... 阅读全文
posted @ 2014-12-05 15:46 njuzhoubing 阅读(576) 评论(0) 推荐(0) 编辑
摘要:一、中断模型:http://ifeve.com/java-interrupt-mechanism/1. 协作制度, 你要我中断,只是给我一个信号,我啥时候中断,是我的事情。 比如 T1调用T2.interrupt(), T2 如果没有写 if (Thread.intterrupted()) { r... 阅读全文
posted @ 2014-12-04 00:45 njuzhoubing 阅读(191) 评论(0) 推荐(0) 编辑
摘要:http://www.cnblogs.com/MorZe/archive/2012/08/01/2618710.htmlhttp://www.tuicool.com/articles/rYV3uuhttp://blog.csdn.net/knowledgeaaa/article/details/23... 阅读全文
posted @ 2014-12-03 16:50 njuzhoubing 阅读(494) 评论(0) 推荐(0) 编辑
摘要:要求: 分布在不同机器上的进程,同时扫描某个ftp目录,得到文件目录,下载文件,但是要保证每个文件都只被一个进程获取思路:1. 文件以RW方式打开,比较暴力 ,另FTP支持RW方式打开吗。。。没了解过2. 实现一个分布式锁, 2.1 redis: redis单机的事务能否实现? 应该可以,... 阅读全文
posted @ 2014-12-03 16:49 njuzhoubing 阅读(335) 评论(0) 推荐(0) 编辑
摘要:一.CAP数据一致性(C),等同于所有节点访问同一份最新的数据副本;对数据更新具备高可用性(A);能容忍网络分区(P)。概念: 必须注意的是,P:Partition Tolerance 指的是 The system works well despite physical network partit... 阅读全文
posted @ 2014-12-03 16:47 njuzhoubing 阅读(469) 评论(0) 推荐(0) 编辑
摘要:转自http://www.infoq.com/cn/articles/cap-twelve-years-later-how-the-rules-have-changed/CAP理论断言任何基于网络的数据共享系统,最多只能满足数据一致性、可用性、分区容忍性三要素中的两个要素。但是通过显式处理分区情形,... 阅读全文
posted @ 2014-12-03 16:35 njuzhoubing 阅读(299) 评论(1) 推荐(0) 编辑