暗痛 - 博客园

2016年3月2日

摘要： KMP算法在介绍KMP算法之前，先介绍一下BF算法。一.BF算法 BF算法是普通的模式匹配算法，BF算法的思想就是将目标串S的第一个字符与模式串P的第一个字符进行匹配，若相等，则继续比较S的第二个字符和P的第二个字符；若不相等，则比较S的第二个字符和P的第一个字符，依次比较下去，直到得出最后的匹阅读全文

posted @ 2016-03-02 11:23 暗痛阅读(284) 评论(0) 推荐(0)

2015年12月25日

docker1.9 network跨主机安装

摘要：背景：在跨host中，如果docker任何一个重启或者销毁，docker暴露的端口以及ip将可能重新配置，这个时候需要重新记录ip跟端口。在生产环境中往往需要一个固定的ip以及端口去跟容器通信。例如mysql跟php配置，如果在php配置里面写了mysql配置如10.0.0.1:3306如果mysq... 阅读全文

posted @ 2015-12-25 11:54 暗痛阅读(1287) 评论(0) 推荐(0)

2015年12月17日

shipyard安装

摘要： Shipyard（github）是建立在docker集群管理工具Citadel之上的可以管理容器、主机等资源的web图形化工具。包括core和extension两个版本，core即shipyard主要是把多个 Docker host上的 containers 统一管理（支持跨越多个host），ext... 阅读全文

posted @ 2015-12-17 12:10 暗痛阅读(3129) 评论(0) 推荐(0)

2015年12月15日

centos6 安装 docker

摘要：一、升级内核（带aufs模块） 1、yum安装带aufs模块的3.10内核（或到这里下载kernel手动安装：http://down.51cto.com/data/1903250）cd/etc/yum.repos.dwgethttp://www.hop5.in/yum/el6/hop5.repoyu... 阅读全文

posted @ 2015-12-15 10:36 暗痛阅读(754) 评论(0) 推荐(0)

2015年9月9日

详细探究Spark的shuffle实现

摘要： Background在MapReduce框架中，shuffle是连接Map和Reduce之间的桥梁，Map的输出要用到Reduce中必须经过shuffle这个环节，shuffle的性能高低直接影响了整个程序的性能和吞吐量。Spark作为MapReduce框架的一种实现，自然也实现了shuffle的... 阅读全文

posted @ 2015-09-09 15:12 暗痛阅读(360) 评论(0) 推荐(0)

Spark Streaming原理简析

摘要：执行流程数据的接收StreamingContext实例化的时候，需要传入一个SparkContext，然后指定要连接的spark matser url，即连接一个spark engine，用于获得executor。实例化之后，首先，要指定一个接收数据的方式，如val lines = ssc.sock... 阅读全文

posted @ 2015-09-09 15:12 暗痛阅读(648) 评论(0) 推荐(0)

Spark性能优化的10大问题及其解决方案

摘要： Spark性能优化的10大问题及其解决方案问题1：reduce task数目不合适解决方式：需根据实际情况调节默认配置，调整方式是修改参数spark.default.parallelism。通常，reduce数目设置为core数目的2到3倍。数量太大，造成很多小任务，增加启动任务的开销；数目太少，任... 阅读全文

posted @ 2015-09-09 11:25 暗痛阅读(927) 评论(0) 推荐(0)

2015年9月8日

spark属性

摘要：应用属性属性名缺省值意义spark.app.name(none)The name of your application. This will appear in the UI and in log data.spark.master(none)The cluster manager to conn... 阅读全文

posted @ 2015-09-08 17:40 暗痛阅读(574) 评论(0) 推荐(0)

Spark internal - 多样化的运行模式（下）

摘要： Spark的各种运行模式虽然启动方式，运行位置，调度手段有所不同，但它们所要完成的任务基本都是一致的，就是在合适的位置安全可靠的根据用户的配置和Job的需要管理和运行Task，这里粗略的列举一下在运行调度过程中各种需要考虑的问题环境变量的传递 Jar包和各种依赖文件的分发 Task的管理和序列化等 ... 阅读全文

posted @ 2015-09-08 17:37 暗痛阅读(546) 评论(0) 推荐(0)

Spark internal - 多样化的运行模式（上）

摘要： Spark的运行模式多种多样，在单机上既可以以本地模式运行，也可以以伪分布式模式运行。而当以分布式的方式运行在Cluster集群中时，底层的资源调度可以使用Mesos 或者是Hadoop Yarn ，也可以使用Spark自带的Standalone Deploy模式Spark处于活跃的开发过程中，代码... 阅读全文

posted @ 2015-09-08 17:36 暗痛阅读(674) 评论(0) 推荐(0)

暗痛

公告