摘要: 一、完善目标: 1、为方便使用,把小说拼音或英文名,小说输出中文名,第一章节url地址变量化,修改这些参数即可爬取不同的小说。 2、修改settings.py设置文件,配置为记录debug的log信息,以方便排错。 3、修改字符集编码,解决部分网页有emoji符号,导致无法把爬取的网页内容存入数据表 阅读全文
posted @ 2019-12-17 19:02 sfccl 阅读(325) 评论(0) 推荐(0) 编辑
摘要: 一、背景: 在win10的dos窗口下使用命令pip install scrapy安装scrapy时,出现“ error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": h 阅读全文
posted @ 2019-10-18 17:35 sfccl 阅读(1464) 评论(0) 推荐(0) 编辑
摘要: 一、背景: 2019年9月下旬到10月上旬,到海南澄迈福山度假。随身带的笔记本电脑中windows10系统因硬盘故障挂了,在另一块硬盘上的ubuntu18.04系统正常。因媳妇需要在10月1日远程回公司对同事工作进行指导和支持。需要及时提供远程桌面回公司办公电脑的服务。经网上查询,获得l2tpvpn 阅读全文
posted @ 2019-10-01 01:19 sfccl 阅读(1212) 评论(0) 推荐(0) 编辑
摘要: 一、背景:在vi中使用命令:%!xxd无法进行十六进制编辑,为缺少xxd命令所致二、yum直接安装xxd无法成功[root@ELK ~]# yum install xxd已加载插件:fastestmirrorLoading mirror speeds from cached hostfile * b 阅读全文
posted @ 2019-08-24 22:23 sfccl 阅读(2360) 评论(0) 推荐(0) 编辑
摘要: 一、背景:在爬取网络小说生成的文件中,发现有些空格没法替换,使用十六进制编辑器查看,发现这些空格字符的十六进制值是“c2a0”,其来源是网页控制的特殊字符,这是一个叫做Non-breaking space的东西,用于阻止在此处自动换行和阻止多个空格被压缩成一个。就是&nbsp。二、替换的有效方法:使 阅读全文
posted @ 2019-08-24 22:11 sfccl 阅读(2033) 评论(0) 推荐(0) 编辑
摘要: 一、背景:近期学习python爬虫技术,感觉挺有趣。由于手动自制爬虫感觉效率低,了解到爬虫界有先进的工具可用,尝试学学scrapy爬虫框架的使用。 二、环境:centos7,python3.7,scrapy1.7.3 三、scrapy原理简述: 1、scrapy框架组成:引擎、调度器、下载器(含下载 阅读全文
posted @ 2019-08-23 18:02 sfccl 阅读(357) 评论(0) 推荐(0) 编辑
摘要: 一、背景:近期学习python爬虫中看到,在对网页内容进行解析的技术中,re正则表达式工具也是一个很好的工具,使用re编制爬虫工具正好熟悉re正则表达式的使用。 二、环境及爬取目标 1、linux centos7系统 2、小说网站:http://www.xbiquge.la/15/15158 ,小说 阅读全文
posted @ 2019-08-14 16:31 sfccl 阅读(424) 评论(0) 推荐(0) 编辑
摘要: 一、背景:个人喜欢在网上看小说,但是,在浏览器中阅读小说不是很方便,喜欢找到小说的txt版下载到手机上阅读,但是有些小说不太好找txt版本,考虑自己从网页上爬一爬,自己搞定小说的txt版本。正好学习一下有关爬虫技术。 二、环境及爬取目标 1、linux centos7系统 2、小说网站:http:/ 阅读全文
posted @ 2019-08-14 16:00 sfccl 阅读(422) 评论(0) 推荐(0) 编辑
摘要: 一、背景 学习ELK,动手实验。 参考:https://blog.csdn.net/qq_33406938/article/details/80307679 二、环境 虚拟机一台,已安装jdk1.8,nginx,ip:192.168.1.8。 三、步骤 1、配置limit.conf [root@lo 阅读全文
posted @ 2019-07-31 15:39 sfccl 阅读(346) 评论(0) 推荐(0) 编辑
摘要: 一、环境: 服务器一台,已安装centos7.5系统,做ansible服务器; 客户机三台:hadoop-master(192.168.1.18)、hadoop-slave1(192.168.1.19)、hadoop-slave2(192.168.1.20) 二、ansible软件安装: [root 阅读全文
posted @ 2019-07-25 21:33 sfccl 阅读(1077) 评论(0) 推荐(0) 编辑