摘要: 这次的作业主要用PySpark来分析Web Server Log。主要分成4个部分。相关ipynb文件见我 "github" 。 Part 1 Apache Web Server Log file format 这部分主要是了解log file的格式,然后处理它。我们处理的日志格式符合Common 阅读全文
posted @ 2017-04-03 23:25 james+zhao 阅读(888) 评论(0) 推荐(0) 编辑
摘要: 这是CS100.1x第一个提交的有意义的作业,自己一遍做下来对PySpark的基本应用应该是可以掌握的。相关ipynb文件见我 "github" 。 这次作业的目的如题目一样——word count,作业分成4个部分,遇到不懂的地方,时刻记得查API。 Part 1 Creating a base 阅读全文
posted @ 2017-04-03 17:06 james+zhao 阅读(1108) 评论(1) 推荐(0) 编辑