摘要: 在网站看到编码是utf-8的,但是出现了乱码,感觉肯定不是使用了utf-8的中文编码形式 import requests r = requests.get('http://www.baidu.com/') print (type(r)) # <class 'requests.models.Respo 阅读全文
posted @ 2019-05-29 17:32 Trunkslisa 阅读(904) 评论(0) 推荐(0) 编辑
摘要: 一、模板使用 scrapy 在建立爬虫的时候,还可以指定使用的模板进行建立 默认建立爬虫文件的命令: 可以用 scrapy genspider --list 命令 查看scrapy的模板 通过crawl模板生成拉钩网爬虫文件 二、编写lagou.py import scrapy from scrap 阅读全文
posted @ 2018-10-24 11:53 Trunkslisa 阅读(581) 评论(0) 推荐(0) 编辑
摘要: user-agent大全页面: https://fake-useragent.herokuapp.com/browsers/0.1.6 使用fake-useragent模块 模块github地址:https://github.com/hellysmile/fake-useragent 安装方法: 使 阅读全文
posted @ 2018-10-24 09:55 Trunkslisa 阅读(1078) 评论(0) 推荐(0) 编辑
摘要: 一、先在MySQL中创建test数据库,和相应的site数据表 二、创建Scrapy工程 #scrapy startproject 工程名 scrapy startproject demo4 三、进入工程目录,根据爬虫模板生成爬虫文件 #scrapy genspider -l # 查看可用模板 #s 阅读全文
posted @ 2018-10-23 13:52 Trunkslisa 阅读(311) 评论(0) 推荐(0) 编辑
摘要: 并发访问网站的例子 下面就是一个并发访问proxypool中实现的服务器的例子,以这个例子来说明如何实现并发。 import aiohttp import asyncio async def localserver(semaphore): async with semaphore: async wi 阅读全文
posted @ 2018-10-22 16:04 Trunkslisa 阅读(542) 评论(0) 推荐(0) 编辑
摘要: 使用python asyncio实现了一个异步代理池,根据规则爬取代理网站上的免费代理,在验证其有效后存入redis中,定期扩展代理的数量并检验池中代理的有效性,移除失效的代理。同时用aiohttp实现了一个server,其他的程序可以通过访问相应的url来从代理池中获取代理。 源码 Github 阅读全文
posted @ 2018-10-22 16:02 Trunkslisa 阅读(1340) 评论(0) 推荐(0) 编辑
摘要: 以前一直在windows下用SSH Secure Shell连接远程服务器,它自带了一个可视化的文件传输工具,跟ftp差不多 但是它也存在一个缺陷,不支持编码的选择,遇到utf8就自动乱码了,另外mac下也没有这个工具 在mac下我用终端登录上去之后,想传个文件上去就犯愁了,难不成要开个ftp? 搜 阅读全文
posted @ 2018-10-19 11:44 Trunkslisa 阅读(28153) 评论(0) 推荐(1) 编辑
摘要: 1、新建一个扩展文件,定义一个类,必须包含from_crawler方法: 2、设置settings 3、可以挂钩子的地方 阅读全文
posted @ 2018-10-19 09:55 Trunkslisa 阅读(499) 评论(0) 推荐(0) 编辑
摘要: 在yeild item以后,会依次通过所有的pipelines 在存在多个pipelines的class的情况的时候,如果不希望交给下一个pipeline进行处理: 1、需要导入 2、在process_item方法中抛出异常 如果希望交给下一个pipeline处理的话: 另外:如果只希望交给某一个p 阅读全文
posted @ 2018-10-18 17:53 Trunkslisa 阅读(298) 评论(0) 推荐(0) 编辑
摘要: 1、首先自定义一个‘duplication.py’文件: 2、修改settings文件,添加 阅读全文
posted @ 2018-10-18 16:43 Trunkslisa 阅读(765) 评论(0) 推荐(0) 编辑