上一页 1 ··· 13 14 15 16 17 18 19 20 21 ··· 42 下一页
摘要: 当大片连续区域进行数据存储并且存储区域中数据重复性高的状况下,数据适合进行压缩。数组或者对象序列化后的数据块可以考虑压缩。所以序列化后的数据可以压缩,使数据紧缩,减少空间开销。1. Spark对压缩方式的选择 压缩采用了两种算法:Snappy和LZF,底层分别采用了两个第三方库实现,同时可以自... 阅读全文
posted @ 2015-11-03 21:46 ~风轻云淡~ 阅读(3427) 评论(0) 推荐(0) 编辑
摘要: 1. 先进先出(FIFO)调度器 先进先出调度器是Hadoop的默认调度器。就像这个名字所隐含的那样,这种调度器就是用简单按照“先到先得”的算法来调度任务的。例如,作业A和作业B被先后提交。那么在执行作业B的任务前,作业A中的所有map任务都应该已经执行完成。 配置:调度器类型的配置是在mapr... 阅读全文
posted @ 2015-11-02 16:44 ~风轻云淡~ 阅读(2698) 评论(0) 推荐(0) 编辑
摘要: 1. hadoop fs 帮助信息hadoop fs使用help选项可以获得某个具体命令的详细说明:hadoop fs -help ls2. 列出HDFS文件和目录hadoop fs -ls /user/3. 复制文件到HDFS和从HDFS复制文件 在很多方面,HDFS较之于本地0S文件系统更像一... 阅读全文
posted @ 2015-11-02 10:49 ~风轻云淡~ 阅读(2528) 评论(0) 推荐(0) 编辑
摘要: 1. 消息处理类——Handler 消息处理类(Handler)允许发送和处理Message或Runnable对象到其所在线程的MessageQueue中。Handerl有以下两个主要作用:将Message或Runnable应用post()方法或sendMessage()方法发送到Message... 阅读全文
posted @ 2015-10-30 17:11 ~风轻云淡~ 阅读(1254) 评论(0) 推荐(0) 编辑
摘要: 1. 使用Log.d方法输出Debug日志信息。 Log.d方法用来输出DEBUG故障日志信息,该方法有两种重载形式,其中开发人员经常用到的重载形式语法如下:public static int d(String tag, String msg)tag:String字符串,用来标识日志信息,它通常指... 阅读全文
posted @ 2015-10-30 10:27 ~风轻云淡~ 阅读(200) 评论(0) 推荐(0) 编辑
摘要: Apache JMeter是Apache组织开发的基于Java的压力测试工具。用于对软件做压力测试,它最初被设计用于Web应用测 试但后来扩展到其他测试领域。 它可以用于测试静态和动态资源例如静态文件、Java 小服务程序、CGI 脚本、Java 对象、 数据库, FTP 服务器, 等等。JMe... 阅读全文
posted @ 2015-10-28 22:19 ~风轻云淡~ 阅读(724) 评论(0) 推荐(0) 编辑
摘要: 基本概念:PermGen space:全称是Permanent Generation space。就是说是永久保存的区域,用于存放Class和Meta信息,Class在被Load的时候被放入该区域Heap space:存放Instance。GC(Garbage Collection)应该不会对Per... 阅读全文
posted @ 2015-10-28 21:55 ~风轻云淡~ 阅读(1179) 评论(0) 推荐(0) 编辑
摘要: 日志系统(Log System)是将信息输出到一个或者多个目标上的一种机制。一个日志器(Logger)有下面几个组件。一个或多个处理器(Handler):处理器决定目标和日志消息的格式。可以把日志消息输出到控制台上、写到文件中或保存到数据库中。一个名称(Name):一般来说,类中的日志记录器的名... 阅读全文
posted @ 2015-10-28 19:55 ~风轻云淡~ 阅读(440) 评论(0) 推荐(0) 编辑
摘要: 当需要在并发程序中使用数据集合时,必须要谨慎地选择相应的实现方式。大多数集合类不能直接用于并发应用,因为它们没有对本身数据的并发访问进行控制。如果一些并发任务共享了一个不适用于并发任务的数据结构,将会遇到数据不一致的错误,并将影响程序的准确运行。这类数据结构的一个例子是ArrayList类。 ... 阅读全文
posted @ 2015-10-27 11:31 ~风轻云淡~ 阅读(464) 评论(1) 推荐(1) 编辑
摘要: Fork/Join框架的核心是由下列两个类组成的。 工作窃取算法 工作窃取(work-stealing)算法是指某个线程从其他队列里窃取任务来执行。 那么为什么需要使用工作窃取算法呢?假如我们需要做一个比较大的任务,我们可以把这个任务分割为若干互不依赖的子任务,为了减少线程间的竞争,于是把... 阅读全文
posted @ 2015-10-26 10:43 ~风轻云淡~ 阅读(2317) 评论(0) 推荐(0) 编辑
上一页 1 ··· 13 14 15 16 17 18 19 20 21 ··· 42 下一页