2017 年 12月 2 日随笔档案 - 凯心宝牙

2017年12月2日

摘要：原文链接：http://blog.csdn.net/gavin_chun/article/details/78652638 原文件目录结构 1 更改后的目录结构 1 阅读全文

posted @ 2017-12-02 23:58 凯心宝牙阅读(365) 评论(0) 推荐(0) 编辑

摘要：摘要：PayPal高级工程总监Anil Madan写了篇大数据的文章，一共有100篇大数据的论文，涵盖大数据技术栈，全部读懂你将会是大数据的顶级高手。开源（Open Source）用之于大数据技术，其作用有二：一方面，在大数据技术变革之路上，开源在众人之力和众人之智推动下，摧枯拉朽，吐故纳新，扮演阅读全文

posted @ 2017-12-02 23:15 凯心宝牙阅读(503) 评论(0) 推荐(0) 编辑

【转载】Python中的正则表达式教程

摘要：本文http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html 正则表达式经常被用到，而自己总是记不全，转载一份完整的以备不时之需。 1. 正则表达式基础 1.1. 简单介绍正则表达式并不是Python的一部分。正则表达式是用于处理字符串阅读全文

posted @ 2017-12-02 23:12 凯心宝牙阅读(220) 评论(0) 推荐(0) 编辑

Spark共享变量

摘要：共享变量通常情况下，当向Spark操作(如map,reduce)传递一个函数时，它会在一个远程集群节点上执行，它会使用函数中所有变量的副本。这些变量被复制到所有的机器上，远程机器上并没有被更新的变量会向驱动程序回传。在任务之间使用通用的，支持读写的共享变量是低效的。尽管如此，Spark提供了两种有阅读全文

posted @ 2017-12-02 23:03 凯心宝牙阅读(212) 评论(0) 推荐(0) 编辑

Spark(Accumulator)陷阱及解决办法

摘要： Accumulator简介 Accumulator是spark提供的累加器，顾名思义，该变量只能够增加。只有driver能获取到Accumulator的值（使用value方法），Task只能对其做增加操作（使用 +=）。你也可以在为Accumulator命名（不支持Python），这样就会在spa 阅读全文

posted @ 2017-12-02 22:46 凯心宝牙阅读(3250) 评论(0) 推荐(3) 编辑

凯心大宝牙

公告