会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
biyeee
博客园
首页
新随笔
联系
管理
订阅
2018年9月25日
分布式爬虫踩的坑
摘要: 今天用scrapy-redis尝试了分布式爬虫,当爬虫结束后你会发现程序不会中断,而是一直在挂起,找了很多地方,一直以为是代码的问题。最后想到分布式爬虫是不断从redis获取爬取的链接,当redis为空时,scrapy只会等待获取redis新的链接,而不会中断程序,故该程序是会不断的运行而不会停止。
阅读全文
posted @ 2018-09-25 17:25 biyeee
阅读(200)
评论(0)
推荐(0)
编辑
2018年8月6日
lxml.etree._ElementUnicodeResult转化为其他字符类型
摘要: 仅限python3 今天在用到lxml库时遇到了这样一个问题 在用到xml获取到的数字数据想进一步处理,遇到了这个问题。百度了一遍答案千篇一律的说是编码问题。 想了很久尝试了下直接用强制转化居然可以用。 将上面的错误代码改为: 就ok了。 实际上就是直接加入你想转换的数据类
阅读全文
posted @ 2018-08-06 11:37 biyeee
阅读(9623)
评论(0)
推荐(0)
编辑
2018年7月23日
关于git的一些操作
摘要: 上传github遇到的小问题
阅读全文
posted @ 2018-07-23 16:28 biyeee
阅读(149)
评论(0)
推荐(0)
编辑
2018年7月21日
基于scrapy+mongodb的智联招聘网站信息爬取
摘要: 基于scrapy框架的智联招聘爬虫
阅读全文
posted @ 2018-07-21 22:43 biyeee
阅读(824)
评论(0)
推荐(0)
编辑
公告