| | | |

2016年11月25日

摘要： <meta http-equiv="Content-Type" content="text/html; charset=gb2312">则写代码时注意转码html=html.decode("gbk","ignore").encode('utf-8') import sysreload(sys)sys 阅读全文

posted @ 2016-11-25 15:57 张家欢。。阅读(130) 评论(0) 推荐(0) 编辑

表格制作模块xlwt

摘要： import xlwtworkbook = xlwt.Workbook(encoding = 'ascii') #创建workbook 括号内容视情况而定sheetname = 'Sheet'booksheet =workbook.add_sheet(sheetname) #创建表booksheet 阅读全文

posted @ 2016-11-25 10:49 张家欢。。阅读(317) 评论(0) 推荐(0) 编辑

2016年11月22日

GUI加爬虫

摘要： # - *-coding:utf-8-*-from Tkinter import *from ScrolledText import ScrolledText #滚动文本框import urllib,reurl_name=[]a=1def get(id): global a url='http:// 阅读全文

posted @ 2016-11-22 19:32 张家欢。。阅读(470) 评论(0) 推荐(0) 编辑

标题和价格的爬取，主要是遍历的方法

摘要： import reimport urllib2def get_html(): html = urllib2.urlopen("http://uland.taobao.com/sem/tbsearch").read() r = r'target="_blank">¥ <strong>(.*)< 阅读全文

posted @ 2016-11-22 16:59 张家欢。。阅读(245) 评论(0) 推荐(0) 编辑

2016年11月21日

爬取标题和价格

摘要： coding:utf-8import reimport urllib url = "http://www.muyingzhijia.com/Shopping/subcategory.aspx?cateID=31" def getHtml(url): page = urllib.urlopen(url 阅读全文

posted @ 2016-11-21 19:51 张家欢。。阅读(132) 评论(0) 推荐(0) 编辑

finditer迭代器

摘要：恢复内容开始 findall是返回一个列表 finditer返回一个字典阅读全文

posted @ 2016-11-21 14:03 张家欢。。阅读(256) 评论(0) 推荐(0) 编辑

异常处理

摘要： 100：继续客户端应当继续发送请求。客户端应当继续发送请求的剩余部分，或者如果请求已经完成，忽略这个响应。 101：转换协议在发送完这个响应最后的空行后，服务器将会切换到在Upgrade 消息头中定义的那些协议。只有在切换新的协议更有好处的时候才应该采取类似措施。 102：继续处理由WebD 阅读全文

posted @ 2016-11-21 13:45 张家欢。。阅读(192) 评论(0) 推荐(0) 编辑

2016年11月18日

添加headers头文件反爬虫

摘要： ip代理 import urllib2 enable_proxy = True proxy_handler = urllib2.ProxyHandler({"http" : 'http://some-proxy.com:8080'}) null_proxy_handler = urllib2.Pro 阅读全文

posted @ 2016-11-18 16:41 张家欢。。阅读(517) 评论(0) 推荐(0) 编辑

爬百思不得姐的视频（爬多页时for的循环）

摘要： # -*- coding:utf -8 -*-import urllibimport refor x in range(1,10): print '正在打印第%s页'%x def getvedio(): html=urllib.urlopen("http://www.budejie.com/vide 阅读全文

posted @ 2016-11-18 16:29 张家欢。。阅读(147) 评论(0) 推荐(0) 编辑

图片爬取百思不得姐（正则的取法，下载的方法，%s的用法）

摘要： # _*_coding:utf-8_*_import urllibimport redef geturl(page=1): #加了page参数 html=urllib.urlopen("http://www.budejie.com/pic/%s"%page).read() #%s对应后边的%page 阅读全文

posted @ 2016-11-18 15:47 张家欢。。阅读(651) 评论(0) 推荐(0) 编辑