摘要: 任务目标:以分布式的方式爬取链家网上二手房信息,包括标题、城市、行政区、总价、户型、面积、朝向等信息 分布式爬虫,即在多台电脑上同时执行同一个爬虫任务,在分布式爬取之前,需要先完成单机爬虫,然后部署到多台机器上,完成分布式。 链家网单机爬虫:从城市页面开始爬取,到每个城市的不同行政区,以及每个行政区 阅读全文
posted @ 2020-11-12 18:57 脱下长日的假面 阅读(320) 评论(0) 推荐(0) 编辑
摘要: 任务目标: 下载“编辑精选”下所有页面所有文章内的图片,保存到指定文件夹 打开zcool主页,点击“发现”,出现“编辑精选”标签,下载该标签下所有页面所有文章内的图片。 通过查看翻页url以及文章详情url发现,这两个url都符合一定的规则,且都可以在网页源代码中找到,因此选择scrapy的Craw 阅读全文
posted @ 2020-11-12 11:58 脱下长日的假面 阅读(292) 评论(0) 推荐(0) 编辑
摘要: 任务目标: 爬取猎云网(https://www.lieyunwang.com)的新闻数据,包括标题、发布时间、作者、新闻内容、原始url等,以异步的方式存入MySQL数据库。 分析猎云网主页的新闻列表页url及新闻详情页url发现: 新闻列表页的url格式为 https://www.lieyunwa 阅读全文
posted @ 2020-11-11 23:50 脱下长日的假面 阅读(159) 评论(0) 推荐(0) 编辑
摘要: 任务目标:下载王者荣耀官方壁纸页面的所有页面所有规格的壁纸到指定总文件夹中,每种壁纸都有一个该壁纸名称的文件夹,该文件夹中下载的是所有规格的该壁纸 王者荣耀官方壁纸网页url为 https://pvp.qq.com/web201605/wallpaper.shtml 经查看网页结构,发现网页源代码中 阅读全文
posted @ 2020-11-11 16:08 脱下长日的假面 阅读(1507) 评论(0) 推荐(0) 编辑
摘要: 接上文 https://www.cnblogs.com/achangblog/p/13956140.html 第五步:编辑中间件文件middlewares.py并启用 在上一步破解js代码得到正确响应内容后,即可把破解方法复制进middlewares.py文件中,稍作修改即可: import re 阅读全文
posted @ 2020-11-11 12:07 脱下长日的假面 阅读(758) 评论(0) 推荐(0) 编辑
摘要: 任务目标: 获取瓜子二手车网站所有二手车信息,包括车源号、上牌时间、表显里程、排量、变速箱、标题、价格等网页内所展示信息,存入mongodb数据库 第一步:新建scrapy项目: 在指定项目文件夹中打开命令行终端(shift + 鼠标右键,选择“在此处打开命令窗口”),键入命令 scrapy sta 阅读全文
posted @ 2020-11-11 00:02 脱下长日的假面 阅读(779) 评论(0) 推荐(0) 编辑
摘要: 1.文件传输协议(File Transfer Protocol,FTP) FTP是一种在互联网中进行文件传输的协议,基于客户端/服务器模式,默认使用20、21号端口,其中端口20(数据端口)用于进行数据传输,端口21(命令端口)用于接受客户端发出的相关FTP命令与参数。 FTP服务器是按照FTP协议 阅读全文
posted @ 2018-02-18 22:49 脱下长日的假面 阅读(3391) 评论(0) 推荐(0) 编辑
摘要: 1.网站服务程序 Web网络服务,一般是指允许用户通过浏览器访问到互联网中各种资源的服务。Apache程序是目前拥有很高市场占有率的Web服务程序之一,其跨平台和安全性广泛被认可且拥有快速、可靠、简单的API扩展。Apache也是RHEL 5、6、7系统中默认的Web服务程序。 第一步:把光盘设备中 阅读全文
posted @ 2018-02-14 14:21 脱下长日的假面 阅读(11491) 评论(0) 推荐(2) 编辑
摘要: 保障数据的安全性是继保障数据的可用性之后最为重要的一项工作。防火墙作为公网与内网之间的保护屏障,在保障数据的安全性方面起着至关重要的作用。 1.防火墙管理工具 相较于企业内网,外部的公网环境更加恶劣,罪恶丛生。在公网与企业内网之间充当保护屏障的防火墙虽然有软件或硬件之分,但主要功能都是依据策略对穿越 阅读全文
posted @ 2018-02-11 13:02 脱下长日的假面 阅读(293) 评论(0) 推荐(0) 编辑
摘要: 1.RAID(独立冗余磁盘阵列,Redundant Arrays of Independent Disks) RAID技术通过把多个硬盘设备组合成一个容量更大、安全性更好的磁盘阵列,并把数据切割成多个区段后分别存放在各个不同的物理硬盘设备上,然后利用分散读写技术来提升磁盘阵列整体的性能,同时把多个重 阅读全文
posted @ 2018-02-09 22:43 脱下长日的假面 阅读(507) 评论(0) 推荐(0) 编辑