05 2016 档案
摘要:写这个系列是因为最近公司在搞技术分享,学习Spark,我的任务是讲PySpark的应用,因为我主要用Python,结合Spark,就讲PySpark了。然而我在学习的过程中发现,PySpark很鸡肋(至少现在我觉得我不会拿PySpark做开发)。为什么呢?原因如下: 1.PySpark支持的算法太少
阅读全文
摘要:本来这篇是准备5.15更的,但是上周一直在忙签证和工作的事,没时间就推迟了,现在终于有时间来写写Learning Spark最后一部分内容了。 第10-11 章主要讲的是Spark Streaming 和MLlib方面的内容。我们知道Spark在离线处理数据上的性能很好,那么它在实时数据上的表现怎么
阅读全文
摘要:昨天总结了深度学习的资料,今天把机器学习的资料也总结一下(友情提示:有些网站需要"科学上网"^_^) 推荐几本好书: 1.Pattern Recognition and Machine Learning (by Hastie, Tibshirani, and Friedman's ) 2.Eleme
阅读全文
摘要:最近在学深度学习相关的东西,在网上搜集到了一些不错的资料,现在汇总一下: Free Online Books Courses Video and Lectures Papers Tutorials WebSites Datasets Frameworks Miscellaneous Github 几
阅读全文
摘要:为了方便大家阅读,我把博文目录梳理了一下,里面会有已完成和计划写的博文,希望大家多多交流,有错误的地方请随时指正^_^ 深度学习入门系列 (每周三发一篇,计划11月~6月更完) 三个月教你从零入门深度学习 (10.26更新) 【深度学习系列】手写数字识别实战(10.23更新) 【深度学习系列】卷积神
阅读全文
摘要:为了记录自己度过的书,写个帖子总结一下,不定时更新。以前度过的书有些不记得了,就先记录一下我记得的吧:) PS:现在读过的书(2016.4月以后),我会做读书总结。以前看的书,会再抽时间回顾一下,做个简单的总结。跟数据挖掘相关的书我另写了一个帖子,可以参考这个: 【原】数据分析/数据挖掘/机器学习
阅读全文
摘要:周末的任务是更新Learning Spark系列第三篇,以为自己写不完了,但为了改正拖延症,还是得完成给自己定的任务啊 = =。这三章主要讲Spark的运行过程(本地+集群),性能调优以及Spark SQL相关的知识,如果对Spark不熟的同学可以先看看之前总结的两篇文章: 【原】Learning
阅读全文
摘要:kmeans聚类相信大家都已经很熟悉了。在Python里我们用kmeans通常调用Sklearn包(当然自己写也很简单)。那么在Spark里能不能也直接使用sklean包呢?目前来说直接使用有点困难,不过我看到spark-packages里已经有了,但还没有发布。不过没关系,PySpark里有ml包
阅读全文
摘要:本来应该上周更新的,结果碰上五一,懒癌发作,就推迟了 = =。以后还是要按时完成任务。废话不多说,第四章-第六章主要讲了三个内容:键值对、数据读取与保存与Spark的两个共享特性(累加器和广播变量)。 键值对(PaiRDD) 1.创建 2.转化(Transformation) 转化操作很多,有red
阅读全文