09 2016 档案

摘要:看了《 "从数据角度解析福州美食" 》后难免心痒,动了要分析合肥餐饮业的念头,因此特地写了 "Node.js爬虫" 爬取了合肥的大众点评数据。分析数据库我并没有采用MySQL而是用的MongoDB,是因为爬取的数据存在字段缺失的情况(schema不一致)。 1. 数据准备 MongoDB简介 不同于 阅读全文
posted @ 2016-09-23 19:09 Treant 阅读(1640) 评论(3) 推荐(3)
摘要:大众点评上有很多美食餐馆的信息,正好可以拿来练练手Node.js。 1. API分析 大众点评开放了查询商家信息的API, "这里" 给出了城市与cityid之间的对应关系,链接 以GET方式给出了餐馆的信息(JSON格式)。首先解释下GET参数的含义: start为步进数,表示分步获取信息的ind 阅读全文
posted @ 2016-09-22 10:15 Treant 阅读(3863) 评论(8) 推荐(4)
摘要:Bloom Filter一般用于数据的去重计算,近似于HashSet的功能;但是不同于Bitmap(用于精确计算),其为一种估算的数据结构,存在误判(false positive)的情况。 1. 基本原理 Bloom Filter能高效地表征数据集合$S = \lbrace x_1 ,x_2 ,.. 阅读全文
posted @ 2016-09-18 16:13 Treant 阅读(1890) 评论(2) 推荐(0)