09 2022 档案
摘要:继续以起点小说为例子,我们要做的就是把对象存储到item(类似于一个字典)中,在通过pipelines持久化到txt文件中。 之前我们在运行爬虫的后面加“-o 爬虫名称” 这样很方便,但是也有很多的弊端,比如只能存为特定的格式,像txt这种就不可以。同时在使用pipelines存储前可以写一些存储前
阅读全文
摘要:以起点小说网举例子 网址 https://www.qidian.com/rank/yuepiao/ 默认大家已经生成好scrapy项目了,如果不会请参考我之前的文章scrapy框架之创建项目运行爬虫 爬取网页 获取元素位置 通过XPath Helper插件检查是否爬取成功 编写爬虫文件 1.先在控制
阅读全文
摘要:创建scrapy scrapy startproject 项目名称 创建蜘蛛(爬虫文件) scrapy genspider 蜘蛛名称 网址 爬取网页(举百度的列子) 编写爬虫文件 import scrapy class BaiduSpider(scrapy.Spider): name = 'baid
阅读全文
摘要:修改APT的访问服务器地址 Ubuntu的软件资源配置文件etc/apt/sources.list 步骤 1.备份ubuntu的默认地址(防止改错) sudo cp /etc/apt/sources.list /etc/apt/sources.list.bak 2.清空sources.list ec
阅读全文
摘要:ubuntu是一个以桌面应用为主的开源CNU/Linux操作系统,专业的Python开发者一般会选择Ubuntu这款Linux系统作为生产平台. 安装地址 https://cn.ubuntu.com/download/desktop 通过VMware安装ubuntu 设置后不会立刻生效,下次登录才会
阅读全文