摘要:
这次的作业主要用PySpark来分析Web Server Log。主要分成4个部分。相关ipynb文件见我 "github" 。 Part 1 Apache Web Server Log file format 这部分主要是了解log file的格式,然后处理它。我们处理的日志格式符合Common 阅读全文
摘要:
这是CS100.1x第一个提交的有意义的作业,自己一遍做下来对PySpark的基本应用应该是可以掌握的。相关ipynb文件见我 "github" 。 这次作业的目的如题目一样——word count,作业分成4个部分,遇到不懂的地方,时刻记得查API。 Part 1 Creating a base 阅读全文