导航

05 2011 档案

摘要:fromhttp://obmem.info/?p=753以前写过一篇使用python爬虫抓站的一些技巧总结,总结了诸多爬虫使用的方法;那篇东东现在看来还是挺有用的,但是当时很菜(现在也菜,但是比那时进步了不少),很多东西都不是很优,属于”只是能用”这么个层次。这篇进阶篇打算把“能用”提升到“用得省事省心”这个层次。一、gzip/deflate支持现在的网页普遍支持gzip压缩,这往往可以解决大量传输时间,以VeryCD的主页为例,未压缩版本247K,压缩了以后45K,为原来的1/5。这就意味着抓取速度会快5倍。然而python的urllib/urllib2默认都不支持压缩,要返回压缩格式,必须 阅读全文

posted @ 2011-05-12 23:16 Morya 阅读(1118) 评论(0) 推荐(0) 编辑

摘要:fromhttp://obmem.info/?p=476学用python也有3个多月了,用得最多的还是各类爬虫脚本:写过抓代理本机验证的脚本,写过在discuz论坛中自动登录自动发贴的脚本,写过自动收邮件的脚本,写过简单的验证码识别的脚本,本来想写google music的抓取脚本的,结果有了强大的gmbox,也就不用写了。-这些脚本有一个共性,都是和web相关的,总要用到获取链接的一些方法,再加上simplecd这个半爬虫半网站的项目,累积不少爬虫抓站的经验,在此总结一下,那么以后做东西也就不用重复劳动了。-1.最基本的抓站import urllib2content = urllib2.ur 阅读全文

posted @ 2011-05-12 23:15 Morya 阅读(871) 评论(0) 推荐(0) 编辑

摘要:copy from http://hi.baidu.com/chjj910/blog/item/7db5c24fbc699d19b2de0540.htmlpython基于http协议编程:httplib,urllib和urllib2(转)2010-11-11 20:47httplib实现了HTTP和HTTPS的客户端协议,一般不直接使用,在python更高层的封装模块中(urllib,urllib2)使用了它的http实现。importhttplibconn=httplib.HTTPConnection("google.com")conn.request('get& 阅读全文

posted @ 2011-05-12 23:06 Morya 阅读(13385) 评论(0) 推荐(0) 编辑

摘要:1 #coding:utf8 2 3 import sys 4 from PySide import QtCore 5 from PySide import QtGui 6 from PySide import QtWebKit 7 from PySide import QtNetwork 8 from pprint import pprint 9 10 class Mainwin(QtGui.QMainWindow): 11 def __init__(self, parent= None): 12 super(Mainwin, self).__init__( parent) 13 14 Q. 阅读全文

posted @ 2011-05-04 07:30 Morya 阅读(1766) 评论(7) 推荐(0) 编辑

点击右上角即可分享
微信分享提示