08 2019 档案
摘要:一、背景:在vi中使用命令:%!xxd无法进行十六进制编辑,为缺少xxd命令所致二、yum直接安装xxd无法成功[root@ELK ~]# yum install xxd已加载插件:fastestmirrorLoading mirror speeds from cached hostfile * b
阅读全文
摘要:一、背景:在爬取网络小说生成的文件中,发现有些空格没法替换,使用十六进制编辑器查看,发现这些空格字符的十六进制值是“c2a0”,其来源是网页控制的特殊字符,这是一个叫做Non-breaking space的东西,用于阻止在此处自动换行和阻止多个空格被压缩成一个。就是 。二、替换的有效方法:使
阅读全文
摘要:一、背景:近期学习python爬虫技术,感觉挺有趣。由于手动自制爬虫感觉效率低,了解到爬虫界有先进的工具可用,尝试学学scrapy爬虫框架的使用。 二、环境:centos7,python3.7,scrapy1.7.3 三、scrapy原理简述: 1、scrapy框架组成:引擎、调度器、下载器(含下载
阅读全文
摘要:一、背景:近期学习python爬虫中看到,在对网页内容进行解析的技术中,re正则表达式工具也是一个很好的工具,使用re编制爬虫工具正好熟悉re正则表达式的使用。 二、环境及爬取目标 1、linux centos7系统 2、小说网站:http://www.xbiquge.la/15/15158 ,小说
阅读全文
摘要:一、背景:个人喜欢在网上看小说,但是,在浏览器中阅读小说不是很方便,喜欢找到小说的txt版下载到手机上阅读,但是有些小说不太好找txt版本,考虑自己从网页上爬一爬,自己搞定小说的txt版本。正好学习一下有关爬虫技术。 二、环境及爬取目标 1、linux centos7系统 2、小说网站:http:/
阅读全文