摘要:
看了Spark Summit 2014的A Deeper Understanding of Spark Internals,视频(要科学上网)详细讲解了Spark的工作原理,Slides的45页给原始算法和优化算法。
破砂锅用自己3节点的Spark集群试验了这个优化算法,并进一步找到更快的算法。测试数据是Sogou实验室的日志文件前10000000条数据。目标是对日志第2列数据,按照第一个字母合并,得到每个首字母有几条记录。 阅读全文
摘要:
调试器(如VS2008和老版GDB)往往只支持all-stop模式,调试多线程程序时,如果某个线程断在一个断点上,你的调试器会让整个程序 freeze,直到你continue这个线程,程序中的其他线程才会继续运行。这个限制使得被调试的程序不能够像真实环境中那样运行--当某个线程断在一个断点上,让其他线程并行运行。
GDBv7.0引入的non-stop模式使得这个问题迎刃而解。 阅读全文
摘要:
RedHat/Fedora的安装光盘里很多程序默认没有安装,如何不连上网络就从光盘安装程序哪?破砂锅从redhat的bugzilla上看到最便捷的方法如下。 阅读全文
摘要:
Qt里对大名鼎鼎的正则表达式有很好的支持,使用QRegExp类,你可以非常快的完成对文本的验证、数据提取、替换。Qt的SDK包里还提供了regexp的GUI小工具,方便你对正则表达式的验证。
本文在Qt4.5.3下验证通过。 阅读全文