会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
不可叽叽歪歪
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
8
···
10
下一页
2017年12月6日
文本简单处理
摘要: 1 words2=re.sub("[\s+\.\!\/_,$%^*(+\"\'\n]+|[+——;!,”。《》,。:“?、~@#¥%……&*()1234567①②③④)]+", "", words)
阅读全文
posted @ 2017-12-06 14:55 不可叽叽歪歪
阅读(117)
评论(0)
推荐(0)
编辑
AttributeError: module 're' has no attribute 'sub'
摘要: 文件不能同名(import re re.py)
阅读全文
posted @ 2017-12-06 14:43 不可叽叽歪歪
阅读(512)
评论(0)
推荐(0)
编辑
2017年12月5日
爬取招聘具体要求
摘要: 1 from selenium import webdriver 2 browser=webdriver.Chrome() 3 import time 4 from lxml import etree 5 import requests 6 import re 7 import json 8 import random 9 10 def search(): 11 br...
阅读全文
posted @ 2017-12-05 23:05 不可叽叽歪歪
阅读(221)
评论(0)
推荐(0)
编辑
2017年12月4日
知乎登录(session)
摘要: https://github.com/lzjun567/crawler_html2pdf/blob/master/zhihu/auto_login.py
阅读全文
posted @ 2017-12-04 23:23 不可叽叽歪歪
阅读(1001)
评论(0)
推荐(0)
编辑
知乎登录
摘要: https://github.com/xchaoinfo/fuck-login/blob/master/001%20zhihu/zhihu.py
阅读全文
posted @ 2017-12-04 23:06 不可叽叽歪歪
阅读(569)
评论(0)
推荐(0)
编辑
代理池
摘要: https://github.com/qiyeboy/IPProxyPool
阅读全文
posted @ 2017-12-04 23:06 不可叽叽歪歪
阅读(74)
评论(0)
推荐(0)
编辑
编码识别
摘要: pip install chardet
阅读全文
posted @ 2017-12-04 21:15 不可叽叽歪歪
阅读(105)
评论(0)
推荐(0)
编辑
多页url
摘要: 'url1'+str(page)+'url2' url{ofssset} url.formate(20)
阅读全文
posted @ 2017-12-04 19:08 不可叽叽歪歪
阅读(64)
评论(0)
推荐(0)
编辑
验证码(待整理)
摘要: 1:存入本地(返回二进制,r.content,'wb')
阅读全文
posted @ 2017-12-04 19:05 不可叽叽歪歪
阅读(67)
评论(0)
推荐(0)
编辑
模拟登录(知乎为例)
摘要: requests.Session() _xsrf
阅读全文
posted @ 2017-12-04 19:04 不可叽叽歪歪
阅读(91)
评论(0)
推荐(0)
编辑
上一页
1
2
3
4
5
6
7
8
···
10
下一页
公告