摘要: 怎么从一个集合中获取最大或最小的N个元素列表? heapq模块有两个函数:nlargest() 和 nsmallest() 可以完美解决这个问题。 两个函数都能接受一个关键字参数,用于更复杂的数据结构中: 以price值进行比较 In [33]: heapq.nlargest(3, portfoli 阅读全文
posted @ 2016-12-28 17:46 hexm 阅读(4270) 评论(0) 推荐(0) 编辑
摘要: useragent: 代码(不包含蜘蛛): 结果: 蜘蛛: 执行结果: 阅读全文
posted @ 2016-12-28 17:17 hexm 阅读(404) 评论(0) 推荐(0) 编辑
摘要: 代码: 结果: 代码解释: mapper()方法:接收一行访问日志,将数据解析成key=请求的URL,value=1 reducer_sum()方法:计算出每个请求的URL的访问量,并输出 null [3, "/forum.php"]这种形式 reducer_top10()方法:对[3, "/for 阅读全文
posted @ 2016-12-28 14:00 hexm 阅读(511) 评论(0) 推荐(0) 编辑
摘要: 代码: 执行结果 阅读全文
posted @ 2016-12-28 10:59 hexm 阅读(365) 评论(0) 推荐(0) 编辑
摘要: 代码: 代码解释: 定义了一个集成MRJob类的job类,这个类包含定义好的steps。 一个‘step’包含一个mapper,combiner和一个reducer,这些是可选的,但是必须使用至少一个。 mapper()方法有两个参数key,value(这个例子中,key被忽略,每行日志作为一个va 阅读全文
posted @ 2016-12-28 10:57 hexm 阅读(1579) 评论(0) 推荐(0) 编辑
摘要: 前一阵子,搭建了ELK日志分析平台,用着挺爽的,再也不用给开发拉各种日志,节省了很多时间。 这篇博文是介绍用python代码实现日志分析的,用MRJob实现hadoop上的mapreduce,可以直接放到hadoop集群上运行。 mrjob可以让我们使用Python编写MapReduce运算,并在多 阅读全文
posted @ 2016-12-28 10:08 hexm 阅读(1370) 评论(0) 推荐(0) 编辑
联系我:xiaoming.unix@gmail.com