摘要: 做数据抓取和分析的各位亲们, 有没有遇到下面的难题呢?- 如何从各式各样的网页中提取正文!?虽然可以用SS为各种网站写脚本做解析, 但是互联网各类网站何止千万种, 纵使累死我们也是做不完的. 这里我给大家热情推荐使用Readability来彻底解决这个难题 (呵呵, 不是做广告, 真心热爱这个好东东)Raedability网站(www.readability.com)最引以为傲的就是其强大的解析引擎, 号称世界上最强大的文本解析神器. Safari中的"阅读器"功能就是用它来实现的! 他们还提供了API可以调用解析器的功能, 而我做了一个c#的代理类来方便大家使用.开始之前 阅读全文
posted @ 2014-01-22 23:06 Ivan Zou 阅读(3629) 评论(3) 推荐(1) 编辑
摘要: 最近一个项目中需要用到过往的天气数据, 我找到了天气后报这个网站 (www.tianqihoubao.com), 并在SS中完成了相关采集, 和大家分享一下.首先分析这个网站提供了两种信息:1. 省市关系2. 天气记录对应的我们创建数据结构:[Serializable]public class Province{ public string ProvinceName; public string ProvinceUrl;}[Serializable]public class City{ public Province Province; public string Ci... 阅读全文
posted @ 2014-01-22 11:28 Ivan Zou 阅读(5239) 评论(4) 推荐(2) 编辑