会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
张家欢。。
Powered by
博客园
博客园
|
首页
|
新随笔
|
联系
|
订阅
|
管理
上一页
1
···
6
7
8
9
10
11
12
13
下一页
2016年11月25日
如何解决编码有问题
摘要: <meta http-equiv="Content-Type" content="text/html; charset=gb2312">则写代码时注意转码html=html.decode("gbk","ignore").encode('utf-8') import sysreload(sys)sys
阅读全文
posted @ 2016-11-25 15:57 张家欢。。
阅读(130)
评论(0)
推荐(0)
编辑
表格制作模块xlwt
摘要: import xlwtworkbook = xlwt.Workbook(encoding = 'ascii') #创建workbook 括号内容视情况而定sheetname = 'Sheet'booksheet =workbook.add_sheet(sheetname) #创建表booksheet
阅读全文
posted @ 2016-11-25 10:49 张家欢。。
阅读(317)
评论(0)
推荐(0)
编辑
2016年11月22日
GUI加爬虫
摘要: # - *-coding:utf-8-*-from Tkinter import *from ScrolledText import ScrolledText #滚动文本框import urllib,reurl_name=[]a=1def get(id): global a url='http://
阅读全文
posted @ 2016-11-22 19:32 张家欢。。
阅读(470)
评论(0)
推荐(0)
编辑
标题和价格的爬取,主要是遍历的方法
摘要: import reimport urllib2def get_html(): html = urllib2.urlopen("http://uland.taobao.com/sem/tbsearch").read() r = r'target="_blank">¥ <strong>(.*)<
阅读全文
posted @ 2016-11-22 16:59 张家欢。。
阅读(245)
评论(0)
推荐(0)
编辑
2016年11月21日
爬取标题和价格
摘要: coding:utf-8import reimport urllib url = "http://www.muyingzhijia.com/Shopping/subcategory.aspx?cateID=31" def getHtml(url): page = urllib.urlopen(url
阅读全文
posted @ 2016-11-21 19:51 张家欢。。
阅读(132)
评论(0)
推荐(0)
编辑
finditer迭代器
摘要: 恢复内容开始 findall是返回一个列表 finditer返回一个字典
阅读全文
posted @ 2016-11-21 14:03 张家欢。。
阅读(256)
评论(0)
推荐(0)
编辑
异常处理
摘要: 100:继续 客户端应当继续发送请求。客户端应当继续发送请求的剩余部分,或者如果请求已经完成,忽略这个响应。 101: 转换协议 在发送完这个响应最后的空行后,服务器将会切换到在Upgrade 消息头中定义的那些协议。只有在切换新的协议更有好处的时候才应该采取类似措施。 102:继续处理 由WebD
阅读全文
posted @ 2016-11-21 13:45 张家欢。。
阅读(192)
评论(0)
推荐(0)
编辑
2016年11月18日
添加headers头文件反爬虫
摘要: ip代理 import urllib2 enable_proxy = True proxy_handler = urllib2.ProxyHandler({"http" : 'http://some-proxy.com:8080'}) null_proxy_handler = urllib2.Pro
阅读全文
posted @ 2016-11-18 16:41 张家欢。。
阅读(517)
评论(0)
推荐(0)
编辑
爬百思不得姐的视频(爬多页时for的循环)
摘要: # -*- coding:utf -8 -*-import urllibimport refor x in range(1,10): print '正在打印第%s页'%x def getvedio(): html=urllib.urlopen("http://www.budejie.com/vide
阅读全文
posted @ 2016-11-18 16:29 张家欢。。
阅读(147)
评论(0)
推荐(0)
编辑
图片爬取百思不得姐(正则的取法,下载的方法,%s的用法)
摘要: # _*_coding:utf-8_*_import urllibimport redef geturl(page=1): #加了page参数 html=urllib.urlopen("http://www.budejie.com/pic/%s"%page).read() #%s对应后边的%page
阅读全文
posted @ 2016-11-18 15:47 张家欢。。
阅读(651)
评论(0)
推荐(0)
编辑
上一页
1
···
6
7
8
9
10
11
12
13
下一页