摘要: Google声称内部已经抛弃Map-reduce几年了,并在今年的Google IO大会高调发布Cloud Dataflow系统。本文介绍了在这个新框架下如何进行分布式计算,并与现有基于Hadoop的Twitter Summingbird以及Spark框架进行了对比。 阅读全文
posted @ 2014-07-13 12:38 小唯THU 阅读(11771) 评论(4) 推荐(3) 编辑

摘要: GraphX是Spark中用于图和图并行计算的API,可以认为是GraphLab(C++)和Pregel(C++)在Spark(Scala)上的重写及优化,跟其他分布式图计算框架相比,GraphX最大的贡献是,在Spark之上提供一栈式数据解决方案,可以方便且高效地完成图计算的一整套流水作业。 阅读全文
posted @ 2014-07-03 19:20 小唯THU 阅读(15705) 评论(2) 推荐(2) 编辑

摘要: Petuum是一个机器学习专用分布式计算框架,本文介绍其架构,并基于文章 More Effective Distributed ML via a Stale Synchronous Parallel Parameter Server,NIPS 2013 重点探讨其核心内容SSP协议。 Paramet 阅读全文
posted @ 2014-06-13 19:01 小唯THU 阅读(13897) 评论(1) 推荐(0) 编辑
摘要: GraphLab是一个面向大规模机器学习/图计算的分布式内存计算框架,由CMU在2009年开始的一个C++项目,这里的内容是基于论文 Low, Yucheng, et al. "Distributed GraphLab: A Framework for Machine Learning in the 阅读全文
posted @ 2014-06-13 16:03 小唯THU 阅读(5743) 评论(0) 推荐(1) 编辑

摘要: Word2vec 是 Google 在 2013 年年中开源的一款将词表征为实数值向量的高效工具, 其利用深度学习的思想,可以通过训练,把对文本内容的处理简化为 K 维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。Word2vec输出的词向量可以被用来做很多 NLP 相关的工作,比如聚类、找同义词、词性分析等等。如果换个思路, 把词当做特征,那么Word2vec就可以把特征映射到 K 维向量空间,可以为文本数据寻求更加深层次的特征表示。 阅读全文
posted @ 2014-05-16 19:59 小唯THU 阅读(76688) 评论(0) 推荐(6) 编辑

摘要: matplotlib 是python最著名的绘图库,它提供了一整套和matlab相似的命令API,十分适合交互式地行制图。而且也可以方便地将它作为绘图控件,嵌入GUI应用程序中。它的文档相当完备,并且Gallery页面中有上百幅缩略图,打开之后都有源程序。因此如果你需要绘制某种类型的图,只需要在这个... 阅读全文
posted @ 2012-05-23 07:39 小唯THU 阅读(262299) 评论(9) 推荐(18) 编辑

2014年9月20日

摘要: Given n points on a 2D plane, find the maximum number of points that lie on the same straight line.##思路关键是浮点数做key不靠谱,struct hash以及 int calcGCD(int a, ... 阅读全文
posted @ 2014-09-20 10:37 小唯THU 阅读(445) 评论(0) 推荐(0) 编辑

2014年8月24日

摘要: [最近公共祖先LCA](https://github.com/julycoding/The-Art-Of-Programming-By-July/blob/master/ebook/zh/03.03.md)##双链BT如果每个结点都有一个指针指向它的父结点,于是我们可以从任何一个结点出发,得到一个到... 阅读全文
posted @ 2014-08-24 20:31 小唯THU 阅读(2127) 评论(0) 推荐(0) 编辑

2014年8月20日

摘要: 说到生成任意范围内等概率随机数,如果止步于x = rand () % RANGE,恐怕有点不够意思 阅读全文
posted @ 2014-08-20 21:59 小唯THU 阅读(904) 评论(1) 推荐(0) 编辑
摘要: 如果不假思索地脱口而出24次,你就被直觉骗了咯 阅读全文
posted @ 2014-08-20 21:56 小唯THU 阅读(10267) 评论(9) 推荐(3) 编辑

2014年7月3日

摘要: 当当当当~来看下新鲜出炉的Github博客 http://wli12.github.io/ 喜欢写markdown,但cnblogs对md文件的渲染简直丑爆了。。。 好奇怎么用github+Jekyll搭博客,看到jekyllbootstrap声称自己是The Quickest Way to Blo 阅读全文
posted @ 2014-07-03 19:55 小唯THU 阅读(1707) 评论(1) 推荐(1) 编辑

2014年6月13日

摘要: Spark是一个通用的分布式内存计算框架,本文主要研讨Spark的核心数据结构RDD的设计思路,及其在内存上的容错。内容基于论文Zaharia, Matei, et al. "Resilient Distributed Datasets: A Fault-Tolerant Abstraction f... 阅读全文
posted @ 2014-06-13 19:21 小唯THU 阅读(4263) 评论(0) 推荐(0) 编辑

导航