2017 年 12月 3 日随笔档案 - ^_TONY_^

2017年12月3日

摘要：一、广播变量广播变量允许程序员将一个只读的变量缓存在每台机器上，而不用在任务之间传递变量。广播变量可被用于有效地给每个节点一个大输入数据集的副本。Spark还尝试使用高效地广播算法来分发变量，进而减少通信的开销。 Spark的动作通过一系列的步骤执行，这些步骤由分布式的洗牌操作分开。Spark自阅读全文

posted @ 2017-12-03 23:15 ^_TONY_^ 阅读(3709) 评论(0) 推荐(0) 编辑

Spark基本架构及原理

摘要： Hadoop 和 Spark 的关系 Spark 运算比 Hadoop 的 MapReduce 框架快的原因是因为 Hadoop 在一次 MapReduce 运算之后,会将数据的运算结果从内存写入到磁盘中,第二次 Mapredue 运算时在从磁盘中读取数据,所以其瓶颈在2次运算间的多余 IO 消耗. 阅读全文

posted @ 2017-12-03 23:13 ^_TONY_^ 阅读(2889) 评论(0) 推荐(0) 编辑

Spark On Yarn的两种模式yarn-cluster和yarn-client深度剖析

摘要： Spark On Yarn的优势每个Spark executor作为一个YARN容器(container)运行。Spark可以使得多个Tasks在同一个容器(container)里面运行 1. Spark支持资源动态共享，运行于Yarn的框架都共享一个集中配置好的资源池 2. 可以很方便的利用Ya 阅读全文

posted @ 2017-12-03 21:21 ^_TONY_^ 阅读(18893) 评论(2) 推荐(9) 编辑

公告

夫学须静也,才须学也.非学无以广才,非志无以成学→_→^_^
① 编码实践，坚持在GitHub上写一些为了应用技术而应用的example。
② 读他人代码，各种开源框架的源码。
③ 多读书，多看Importnew、InfoQ之类的文章，多问，看到相似点时回过去看看自己做的是否还有改进的空间。
联系方式：
个人QQ：1170382650
微信：tang_liang_yun
邮箱：1170382650@qq.com
个人坐标：广州

昵称： ^_TONY_^
园龄： 12年10个月
粉丝： 1286
关注： 2

+加关注

tony~博客小屋

夫学须静也,才须学也.非学无以广才,非志无以成学→_→^_^

公告

积分与排名