摘要:
在网站看到编码是utf-8的,但是出现了乱码,感觉肯定不是使用了utf-8的中文编码形式 import requests r = requests.get('http://www.baidu.com/') print (type(r)) # <class 'requests.models.Respo 阅读全文
摘要:
一、模板使用 scrapy 在建立爬虫的时候,还可以指定使用的模板进行建立 默认建立爬虫文件的命令: 可以用 scrapy genspider --list 命令 查看scrapy的模板 通过crawl模板生成拉钩网爬虫文件 二、编写lagou.py import scrapy from scrap 阅读全文
摘要:
user-agent大全页面: https://fake-useragent.herokuapp.com/browsers/0.1.6 使用fake-useragent模块 模块github地址:https://github.com/hellysmile/fake-useragent 安装方法: 使 阅读全文
摘要:
一、先在MySQL中创建test数据库,和相应的site数据表 二、创建Scrapy工程 #scrapy startproject 工程名 scrapy startproject demo4 三、进入工程目录,根据爬虫模板生成爬虫文件 #scrapy genspider -l # 查看可用模板 #s 阅读全文
摘要:
并发访问网站的例子 下面就是一个并发访问proxypool中实现的服务器的例子,以这个例子来说明如何实现并发。 import aiohttp import asyncio async def localserver(semaphore): async with semaphore: async wi 阅读全文
摘要:
使用python asyncio实现了一个异步代理池,根据规则爬取代理网站上的免费代理,在验证其有效后存入redis中,定期扩展代理的数量并检验池中代理的有效性,移除失效的代理。同时用aiohttp实现了一个server,其他的程序可以通过访问相应的url来从代理池中获取代理。 源码 Github 阅读全文
摘要:
以前一直在windows下用SSH Secure Shell连接远程服务器,它自带了一个可视化的文件传输工具,跟ftp差不多 但是它也存在一个缺陷,不支持编码的选择,遇到utf8就自动乱码了,另外mac下也没有这个工具 在mac下我用终端登录上去之后,想传个文件上去就犯愁了,难不成要开个ftp? 搜 阅读全文
摘要:
1、新建一个扩展文件,定义一个类,必须包含from_crawler方法: 2、设置settings 3、可以挂钩子的地方 阅读全文