五杀摇滚小拉夫

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

2018年11月16日

摘要: 这里是完整的工商信息采集代码,不过此程序需要配合代理ip软件使用。问题:1.网站对ip之前没做限制,但是采集了一段时间就被检测到设置了反爬,每个ip只能访问十多次左右就被限制访问。2.网站对请求头的检测识别解决:1.配合代理ip软件(风讯代理)设置自动切换ip时间,执行爬虫程序。2.中间件设置随机user-agent采集结果:正常采集速度一天大概采集1万条数据左右。问题:切换ip会造成程序断网一... 阅读全文
posted @ 2018-11-16 17:50 五杀摇滚小拉夫 阅读(3930) 评论(1) 推荐(0) 编辑

摘要: 简单测试: 阅读全文
posted @ 2018-11-16 16:12 五杀摇滚小拉夫 阅读(452) 评论(0) 推荐(0) 编辑