摘要:
Google声称内部已经抛弃Map-reduce几年了,并在今年的Google IO大会高调发布Cloud Dataflow系统。本文介绍了在这个新框架下如何进行分布式计算,并与现有基于Hadoop的Twitter Summingbird以及Spark框架进行了对比。 阅读全文
摘要:
GraphX是Spark中用于图和图并行计算的API,可以认为是GraphLab(C++)和Pregel(C++)在Spark(Scala)上的重写及优化,跟其他分布式图计算框架相比,GraphX最大的贡献是,在Spark之上提供一栈式数据解决方案,可以方便且高效地完成图计算的一整套流水作业。 阅读全文
摘要:
Petuum是一个机器学习专用分布式计算框架,本文介绍其架构,并基于文章 More Effective Distributed ML via a Stale Synchronous Parallel Parameter Server,NIPS 2013 重点探讨其核心内容SSP协议。 Paramet 阅读全文
摘要:
GraphLab是一个面向大规模机器学习/图计算的分布式内存计算框架,由CMU在2009年开始的一个C++项目,这里的内容是基于论文 Low, Yucheng, et al. "Distributed GraphLab: A Framework for Machine Learning in the 阅读全文
摘要:
Word2vec 是 Google 在 2013 年年中开源的一款将词表征为实数值向量的高效工具, 其利用深度学习的思想,可以通过训练,把对文本内容的处理简化为 K 维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。Word2vec输出的词向量可以被用来做很多 NLP 相关的工作,比如聚类、找同义词、词性分析等等。如果换个思路, 把词当做特征,那么Word2vec就可以把特征映射到 K 维向量空间,可以为文本数据寻求更加深层次的特征表示。 阅读全文
摘要:
matplotlib 是python最著名的绘图库,它提供了一整套和matlab相似的命令API,十分适合交互式地行制图。而且也可以方便地将它作为绘图控件,嵌入GUI应用程序中。它的文档相当完备,并且Gallery页面中有上百幅缩略图,打开之后都有源程序。因此如果你需要绘制某种类型的图,只需要在这个... 阅读全文
2014年9月20日
摘要:
Given n points on a 2D plane, find the maximum number of points that lie on the same straight line.##思路关键是浮点数做key不靠谱,struct hash以及 int calcGCD(int a, ... 阅读全文
2014年8月24日
摘要:
[最近公共祖先LCA](https://github.com/julycoding/The-Art-Of-Programming-By-July/blob/master/ebook/zh/03.03.md)##双链BT如果每个结点都有一个指针指向它的父结点,于是我们可以从任何一个结点出发,得到一个到... 阅读全文
2014年8月20日
摘要:
说到生成任意范围内等概率随机数,如果止步于x = rand () % RANGE,恐怕有点不够意思 阅读全文
摘要:
如果不假思索地脱口而出24次,你就被直觉骗了咯 阅读全文
2014年7月3日
摘要:
当当当当~来看下新鲜出炉的Github博客 http://wli12.github.io/ 喜欢写markdown,但cnblogs对md文件的渲染简直丑爆了。。。 好奇怎么用github+Jekyll搭博客,看到jekyllbootstrap声称自己是The Quickest Way to Blo 阅读全文
2014年6月13日
摘要:
Spark是一个通用的分布式内存计算框架,本文主要研讨Spark的核心数据结构RDD的设计思路,及其在内存上的容错。内容基于论文Zaharia, Matei, et al. "Resilient Distributed Datasets: A Fault-Tolerant Abstraction f... 阅读全文