2013 年 6月 28 日随笔档案 - 墨迹哥's

2013年6月28日

摘要：一直以来都很傻，浪费了不少时间纠缠在语言上。这段时间一直都在忙写Web爬虫的代码，这过程当中出现过一些比较无奈的情况，对此感觉不知道怎么去做好。前几天看到很多人说PYTHON写爬虫非常快，而且极度容易上手，然后就去了。一直以来的理解偏差应该就是在这。学任何一样东西总会有它的价值，仅仅因为你不熟悉它罢了。后来翻天覆地的思考，到底该不该转换下自己的思想，跑去学深入学习PYTHON。世界上没有十全十美的事情，如果我这么做了，W3A的平台不就等于是一句空话了吗？当初想做的东西就是做一个PERL原生的东西，现在居然脱离轨道？就因为这仅仅一个需求无法解决？就因为自己不懂？错了，我应该执着下去。不应该因为小阅读全文

posted @ 2013-06-28 21:55 墨迹哥's 阅读(433) 评论(0) 推荐(0) 编辑

python爬虫实验2

摘要：改进了一下，去掉哪些没用的。留下的都是些有用的。接着要拔下来，然后放到TXT。。#coding=utf-8import urllib2import refrom sgmllib import SGMLParser;class CatCh(SGMLParser): def reset(self): self.url=[] SGMLParser.reset(self) def start_a(self,attrs): href = [v for k, v in attrs if k == 'href'] if href: self.... 阅读全文

posted @ 2013-06-28 14:17 墨迹哥's 阅读(461) 评论(0) 推荐(0) 编辑

python爬虫实验

摘要：那天在新浪微博上看到北北出的题目，由于最近也在做类似的爬虫研究，所以就有了这个实验。后来在QQ上和北北说了下，要求是啥都抓，就抓乌云的。。。然后就开始了。。第一个版本如下，后续不断改进直到满足需求：import urllib2;from sgmllib import SGMLParser;class CatCh(SGMLParser): def reset(self): self.url=[] SGMLParser.reset(self) def start_a(self,attrs): href = [v for k, v in attrs if k ... 阅读全文

posted @ 2013-06-28 13:30 墨迹哥's 阅读(634) 评论(0) 推荐(1) 编辑

墨迹哥's

公告