摘要: 一直以来都很傻,浪费了不少时间纠缠在语言上。这段时间一直都在忙写Web爬虫的代码,这过程当中出现过一些比较无奈的情况,对此感觉不知道怎么去做好。前几天看到很多人说PYTHON写爬虫非常快,而且极度容易上手,然后就去了。一直以来的理解偏差应该就是在这。学任何一样东西总会有它的价值,仅仅因为你不熟悉它罢了。后来翻天覆地的思考,到底该不该转换下自己的思想,跑去学深入学习PYTHON。世界上没有十全十美的事情,如果我这么做了,W3A的平台不就等于是一句空话了吗?当初想做的东西就是做一个PERL原生的东西,现在居然脱离轨道?就因为这仅仅一个需求无法解决?就因为自己不懂?错了,我应该执着下去。不应该因为小 阅读全文
posted @ 2013-06-28 21:55 墨迹哥's 阅读(433) 评论(0) 推荐(0) 编辑
摘要: 改进了一下,去掉哪些没用的。留下的都是些有用的。接着要拔下来,然后放到TXT。。#coding=utf-8import urllib2import refrom sgmllib import SGMLParser;class CatCh(SGMLParser): def reset(self): self.url=[] SGMLParser.reset(self) def start_a(self,attrs): href = [v for k, v in attrs if k == 'href'] if href: self.... 阅读全文
posted @ 2013-06-28 14:17 墨迹哥's 阅读(461) 评论(0) 推荐(0) 编辑
摘要: 那天在新浪微博上看到北北出的题目,由于最近也在做类似的爬虫研究,所以就有了这个实验。后来在QQ上和北北说了下,要求是啥都抓,就抓乌云的。。。然后就开始了。。第一个版本如下,后续不断改进直到满足需求:import urllib2;from sgmllib import SGMLParser;class CatCh(SGMLParser): def reset(self): self.url=[] SGMLParser.reset(self) def start_a(self,attrs): href = [v for k, v in attrs if k ... 阅读全文
posted @ 2013-06-28 13:30 墨迹哥's 阅读(634) 评论(0) 推荐(1) 编辑