逸新 - 博客园

2015年12月29日

摘要： 1、缓存persist =>storage level对运算中间数据持久化。对数据缓存了，就会重用。使用场景：步骤1=>步骤2=>【步骤3.1、步骤3.2】就需要在步骤2进行缓存；每个分片都会进行缓存；有缓存就会有丢失，分片有可能丢失，会造成数据不完整，根据RDD的依赖机制，丢失的会从前边的步骤重... 阅读全文

posted @ 2015-12-29 14:38 逸新阅读(1373) 评论(0) 推荐(0) 编辑

spark RDD 中Action的count、top、reduce、fold、aggregate -- （视频笔记）

摘要： count返回整个RDD所有元素的个数top返回最大key的top个数元素。会进行倒叙排序返回的为数组reduce针对每个分区进行reduceLeft操作。前两个进行reduce操作，然后结果与第三个元素操作。。。。。。。然后对所有分区的结果进行reduceLeft操作串行处理aggregate也是... 阅读全文

posted @ 2015-12-29 14:15 逸新阅读(637) 评论(0) 推荐(0) 编辑

RDD 中action的saveAsTextFile和saveAsObjectFile详解 -- （视频笔记）

摘要： saveAsTextFile将RDD中的每个元素变为(null,element.toString)每个分区都会存储成一个block，基本都是一一映射。 sc.textFile("hdfs://hadoop-1:9000/data/test/test.dat").flatMap(_.split(" "... 阅读全文

posted @ 2015-12-29 14:15 逸新阅读(3536) 评论(1) 推荐(0) 编辑

RDD中的action的foreach、collect、collectAsMap、reduceByKeyLocally、lookup -- （视频笔记）

摘要： foreach(较常用)直接循环遍历RDD中的元素collect (较常用)将RDD中的数据收集起来，变成一个Array，仅限数据量比较小的时候。collectAsMap()返回hashMap包含所有RDD中的分片，key如果重复，后边的元素会覆盖前面的元素。reduceByKeyLocally先执... 阅读全文

posted @ 2015-12-29 14:14 逸新阅读(2979) 评论(0) 推荐(0) 编辑

spark RDD中的cache和persist -- （视频笔记）

摘要： cache只是persist中的一种情况。cache由persist实现SotrageLevel 缓存级别，是一个枚举。从磁盘缓存到内存中cache算子对RDD转换persist(MEMORY_AND_DISK) lazy级别从磁盘获取数据，如果内存不够则缓存到磁盘中。unpersist (立即生效... 阅读全文

posted @ 2015-12-29 14:13 逸新阅读(543) 评论(0) 推荐(0) 编辑

spark RDD transformation的filter、distinct、union --（视频笔记）

摘要： filterf:T->Boolean 为true则保留，为false则丢弃。产生filter后的RDDdistinct去除重复元素cartesian笛卡尔积union单纯合并两个RDD，并不会去重。阅读全文

posted @ 2015-12-29 14:12 逸新阅读(540) 评论(0) 推荐(0) 编辑

RDD transformation的join、leftOuterJoin、rightOuterJoin -- （视频笔记）

摘要： join两个RDD，先进行cogroup操作生成一个新的RDD，对同一个key下的value进行笛卡尔积操作。leftOuterJoinrightOuterJoin直接参看源码的函数注释。阅读全文

posted @ 2015-12-29 14:12 逸新阅读(289) 评论(0) 推荐(0) 编辑

RDD中transformation的combineByKey、reduceByKey详解--（视频笔记）

摘要： combineByKey，返回相同的key的value序列reduceByKey((A,B)=(A+B)),相同key的合并，合并后接value进行累加。阅读全文

posted @ 2015-12-29 14:11 逸新阅读(232) 评论(0) 推荐(0) 编辑

spark RDD transformation的mapValues、subtract、sample、takeSample详解--(视频笔记)

摘要： mapValues针对key-value类型的value进行操作，不会对key进行操作。maValue（a=>a+2）所有的value 都变成value+2subtract对两个RDD进行运算 A∪B - A∩B sample对RDD进行采样，输入RDD，返回采样RDDfraction 百分比se... 阅读全文

posted @ 2015-12-29 14:10 逸新阅读(817) 评论(0) 推荐(0) 编辑

RDD 中transformation的groupBy,partitionBy,cogroup详解--（视频笔记）

摘要： groupBy针对key进行分组操作。partitionBy原有partitioner和现在partitioner不同才触发重新分片，如果一直则不会触发一般都是根据key进行分片的。cogroup协同，针对两个RDD进行协同划分返回的结果，key-value value为两个数据的集合的迭代器。阅读全文

posted @ 2015-12-29 14:10 逸新阅读(706) 评论(0) 推荐(0) 编辑

2015年12月28日

spark RDD 中 transformation的map、flatMap、mapPartitions、glom详解--（视频笔记）

摘要： map 通过自定义函数 f:T->u 将元数据T转换为u，不会将split进行合并flatMap通过自定义函数 f:T->u 进行数据变换，并将拆分后的小集合合并成一个大集合。mapPartitionsIter => iter.filter(_>3)作用于整个分区（例如hbase表等）进行操作glo... 阅读全文

posted @ 2015-12-28 19:30 逸新阅读(397) 评论(0) 推荐(0) 编辑

spark RDD 中runtime流程解析--（视频笔记）

摘要： cache 可以通过 persist 物化操作流程图阅读全文

posted @ 2015-12-28 19:29 逸新阅读(216) 评论(0) 推荐(0) 编辑

spark RDD中transformation的lazy特性深度解析和手动证明--（视频笔记）

摘要： lazy在action执行前是不会进行计算的，只是记录下当前要做的事情。action结果会返回给driver可以避免产生各种众多的中间数据spark lazy 配置验证，是否是完全不执行，可以在shell节点使用一个不存在的hdfs文件路径来创建RDD尝试，如果不报错，则说明没执行如果报错了，则说明... 阅读全文

posted @ 2015-12-28 19:28 逸新阅读(768) 评论(0) 推荐(0) 编辑

动手实战创建RDD的三种方式--（视频笔记）

摘要： 1、通过scala集合（数组，range）val collection = sc.parallelize(1 to 10000)2、在hdfs或者hbaseval hdfsData = sc.textFile("hdfs://hadoop-1:9000/data/test/test.dat")3、其... 阅读全文

posted @ 2015-12-28 19:27 逸新阅读(509) 评论(0) 推荐(0) 编辑

RDD 到底是什么--（视频笔记）

摘要： 1、RDD 只读的分区数据集合。2、RDD的依赖关系，生成RDD的血统。3、RDD支持基于工作集的运用。可以显性的将数据存储在内存中，可以支持高效数据重用。4、RDD是分布式数据编程的一种抽象5、RDD的特征a list of partitions（hdfs的一个分片就是一个partition，每个... 阅读全文

posted @ 2015-12-28 19:25 逸新阅读(429) 评论(0) 推荐(0) 编辑

RDD产生的技术背景--（视频笔记）

摘要： 1、RDD生成：外部文件，别的RDD结果。2、RDD是批量写，可以定位的具体读哪一行。3、在一个数据集中，执行多种或者多次交互式查询4、更好的支持多步骤迭代5、MR 在迭代中必须将中间结果写入磁盘阅读全文

posted @ 2015-12-28 19:23 逸新阅读(206) 评论(0) 推荐(0) 编辑

RDD容错处理方式和传统容错处理方式的比较--（视频笔记）

摘要： 1、HDFS只能读取，或者通过其他途径创建2、transfrmation是lazy的。3、传统的容错方式，数据检查点或者记录数据的更新容错是分布式最困难的部分。数据检查点：通过数据中心的网络，连接所在的机器之间，复制庞大的数据集。消耗网络和磁盘。记录数据的更新：更新的很多，则记录成本很高。4、RDD... 阅读全文

posted @ 2015-12-28 19:23 逸新阅读(526) 评论(0) 推荐(0) 编辑

idea+maven+scala+spark 集成

摘要： 1、安装jdk2、安装idea3、安装maven4、安装scalawindows下下载msi安装文件，因为当前spark使用的scala版本为 2.10.4，因此也选择安装2.10.4版本的scala。5、安装idea的scala扩展工具http://blog.csdn.net/stark_sum... 阅读全文

posted @ 2015-12-28 17:09 逸新阅读(5822) 评论(1) 推荐(0) 编辑

2015年12月22日

安装spark笔记

摘要： centOS准备三台机器 hadoop-1,hadoop-2,hadoop-3提前安装好 jdk，python,host name,ssh安装scala下载scala rpm包在/home/${user}/soft/下wget http://www.scala-lang.org/files/arch... 阅读全文

posted @ 2015-12-22 19:36 逸新阅读(250) 评论(0) 推荐(0) 编辑

2015年12月21日

spark概述随笔 // todo

摘要： 1、spark是一个apache开源项目2、spark可以提升程序运行速度，spark在100TB数据比赛中战胜hadoop，并且只使用了十分之一的机器。3、spark提供了java，scala和python语言api支持4、spark可以与hadoop生态系统和数据源很好的集成。5、spark可以... 阅读全文

posted @ 2015-12-21 15:49 逸新阅读(429) 评论(0) 推荐(0) 编辑

2015年12月20日

spark实时运算

摘要： spark实时运算阅读全文

posted @ 2015-12-20 23:54 逸新阅读(181) 评论(0) 推荐(0) 编辑

2015年12月16日

分布式数据库资料整理

摘要： mysql 主从加读写分离的时间差问题公司有一个主从复制的Mysql环境，一个主节点，两个从节点。应用访问采取的是读写分离。但是发现这种模式有个问题，通过读写分离，写入一条记录，立即查询这条记录，发现会查询不到，这个应该是主从库时间差导致的。有没有什么办法能减少主库同步到从库的时间差呢，或者有没有什... 阅读全文

posted @ 2015-12-16 15:42 逸新阅读(235) 评论(0) 推荐(0) 编辑

mysql cluster 整理笔记

摘要： mysql cluster是基于ndb存储引擎。整体分为三大部分，管理节点，存储节点，sql节点。管理节点用于管理整个集群；存储节点及ndb节点，用来存储数据；sql节点则负责接收客户端的sql请求。 mysql cluster 特性如下性能和扩展能力自动分片数据库自动、透明地分布... 阅读全文

posted @ 2015-12-16 14:44 逸新阅读(401) 评论(0) 推荐(0) 编辑

2015年12月10日

关于”媒体监测代码管理工具“的随笔

摘要：广告行业在媒体端部署监测代码是一件麻烦的事情，常用的办法就是根据客户需要服务人员帮助其在埋点设置监测代码，但是埋点的地方千变万化，同一个埋点地方可能要埋各种监测代码用于应对各个厂商，一旦监测代码出现变化，再将相关联的埋点重新部署一遍极为费时费力。如果有一套系统可以在界面上就可以做到修改和部署... 阅读全文

posted @ 2015-12-10 00:29 逸新阅读(297) 评论(0) 推荐(0) 编辑

2015年12月5日

关于jvm内存

摘要：《深入理解java虚拟机-jvm高级特性与最佳实践》方法区：存储已被加载的类信息，常量，静态变量，即时编辑器编译后的结果，线程共享。堆：实例化受的实例和数组等，可分为新生代和老年代，再细分可分为 eden，from survivor，to survivor；新实例化的进入新生代（可以通过设置将新实... 阅读全文

posted @ 2015-12-05 23:49 逸新阅读(185) 评论(0) 推荐(0) 编辑

2013年3月25日

Memory 与 MySQL Cluster的比较

摘要：引用链接http://www.cnblogs.com/wu-jian/希望部署内存引擎的开发者们会考虑MySQL Cluster是否是更好的选择，参考如下Memory引擎的使用场景及特点：能像会话（Session）或缓存（Caching）一样方便操作和管理。充分发挥内存引擎的特点：高速度，低延迟。只读或读为主的访问模式（不适合频繁写）。但是内存表的性能受制于单线程的执行效率和写操作时的表锁开销，这就限制了内存表高负载时的扩展性，特别是混合写操作的并发处理。此外，内存表中的数据在服务器重启后会丢失。MySQL Cluster（集群）支持与Memory引擎同样的功能并且提供更高的性能，同时拥有Me 阅读全文

posted @ 2013-03-25 18:30 逸新阅读(746) 评论(0) 推荐(0) 编辑

2013年3月12日

页面点击复制兼容 firefox ie chrome（使用js+flash）cross-browers-copy

摘要： <script type="text/javascript" src="@Url.Content("~/Scripts/cross-browers-copy/ZeroClipboard.js")"></script>ZeroClipboard.setMoviePath('@Url.Content("~/scripts/cross-browers-copy/ZeroClipboard.swf")'); var clip = new ZeroClipboard.Client(); 阅读全文

posted @ 2013-03-12 19:08 逸新阅读(491) 评论(0) 推荐(0) 编辑

2013年3月7日

infobright、mongodb优劣以及适用范围

摘要：一、infobright几大优点：1、高压缩比率，平均压缩比可达10：1，甚至可以达到40:1，我用infobright把3.1G的数据存成不足300M。2、列存储，即使数据量十分巨大，查询速度也很快。用于数据仓库，处理海量数据没一套可不行。3、不需要建索引，就避免了维护索引及索引随着数据膨胀的问题。把每列数据分块压缩存放，每块有知识网格节点记录块内的统计信息，代替索引，加速搜索。4、单一台服务器可以高效地读写30T数据。具有可扩展性，这里是指对于同样的查询，当数据量是10T时，它耗费的时间不应该比1T数据量时慢太多，基本是一个数量级内。二、infobright与mysql对比：1、infob 阅读全文

posted @ 2013-03-07 18:17 逸新阅读(1329) 评论(0) 推荐(0) 编辑

2013年1月23日

比较两个json数据对象的异同（javascript）

摘要：试用范围：未知json数据对象类型、未知json的数据结构的前提下，比较两个json对象的异同，效果：传入两个json对象，将相同部分去除，留下不相同的部分，用于对比。这个是前台javascript进行处理，后台.NET的在研究中。//created by isenhome.zhang in 2013/01/23 15:13var AdchinaJson = {};AdchinaJson.Getdifferent = function (json1, json2) { for (var key in json1) {//循环遍历其中一个json对象 if (typeof (... 阅读全文

posted @ 2013-01-23 17:49 逸新阅读(8238) 评论(0) 推荐(0) 编辑

2013年1月21日

父类与子类之间赋值转换

摘要：首先，根据继承关系，父类是无法转化为子类的，但是在某些情况下，会需要在父类的基础上进行扩展，并且需要将原父类的数据填充到新的扩展类中。实体类： class Person { public int Uid { get; set; } public string Name { get; set; } private string _Password; public string PassWord { get { return _Password; } } public void SetPassword(string ... 阅读全文

posted @ 2013-01-21 18:37 逸新阅读(4441) 评论(0) 推荐(0) 编辑

2012年11月29日

spring.net之aop加单例模式编写无try catch程序

摘要：为应付软件小白的各种无脑操作（不过话说回来，软件就是给小白使用的），常常需要在调用方法时增加众多重复的try/catch，后来拜读artech的《如何编写没有Try/Catch的程序》，了解到可以将try/catch统一处理，大大简化了程序编写。将类中的方法统一处理则需要在所有的方法外增加一层安全的防护，此方法产生的exception由防护层进行处理，牵扯到方法了，自然就想到了aop，使用aop可以拦截方法，spring.net的aop中恰好有AroundAdvice可以做环绕处理（对aop框架了解较少，只知道spring.net可以做到），说到这大家就都明白了，呵呵，直接上代码。环绕... 阅读全文

posted @ 2012-11-29 12:55 逸新阅读(801) 评论(0) 推荐(0) 编辑

逸新

公告