08 2019 档案

摘要:一、背景:在vi中使用命令:%!xxd无法进行十六进制编辑,为缺少xxd命令所致二、yum直接安装xxd无法成功[root@ELK ~]# yum install xxd已加载插件:fastestmirrorLoading mirror speeds from cached hostfile * b 阅读全文
posted @ 2019-08-24 22:23 sfccl 阅读(2383) 评论(0) 推荐(0) 编辑
摘要:一、背景:在爬取网络小说生成的文件中,发现有些空格没法替换,使用十六进制编辑器查看,发现这些空格字符的十六进制值是“c2a0”,其来源是网页控制的特殊字符,这是一个叫做Non-breaking space的东西,用于阻止在此处自动换行和阻止多个空格被压缩成一个。就是&nbsp。二、替换的有效方法:使 阅读全文
posted @ 2019-08-24 22:11 sfccl 阅读(2045) 评论(0) 推荐(0) 编辑
摘要:一、背景:近期学习python爬虫技术,感觉挺有趣。由于手动自制爬虫感觉效率低,了解到爬虫界有先进的工具可用,尝试学学scrapy爬虫框架的使用。 二、环境:centos7,python3.7,scrapy1.7.3 三、scrapy原理简述: 1、scrapy框架组成:引擎、调度器、下载器(含下载 阅读全文
posted @ 2019-08-23 18:02 sfccl 阅读(358) 评论(0) 推荐(0) 编辑
摘要:一、背景:近期学习python爬虫中看到,在对网页内容进行解析的技术中,re正则表达式工具也是一个很好的工具,使用re编制爬虫工具正好熟悉re正则表达式的使用。 二、环境及爬取目标 1、linux centos7系统 2、小说网站:http://www.xbiquge.la/15/15158 ,小说 阅读全文
posted @ 2019-08-14 16:31 sfccl 阅读(427) 评论(0) 推荐(0) 编辑
摘要:一、背景:个人喜欢在网上看小说,但是,在浏览器中阅读小说不是很方便,喜欢找到小说的txt版下载到手机上阅读,但是有些小说不太好找txt版本,考虑自己从网页上爬一爬,自己搞定小说的txt版本。正好学习一下有关爬虫技术。 二、环境及爬取目标 1、linux centos7系统 2、小说网站:http:/ 阅读全文
posted @ 2019-08-14 16:00 sfccl 阅读(435) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示