摘要: 由于喜欢玩POE流放之路,所以用这个论坛试试自己的新技能 程序语句都做了注释说明,下面是步骤 1.建立项目 2.建立爬虫 3.编辑items.py 4.编辑poebd.py 5.编辑settings.py 6.运行爬虫 结果 2019-05-03 阅读全文
posted @ 2019-05-03 21:18 再次路过之 阅读(346) 评论(0) 推荐(0) 编辑
摘要: 保存json和txt文件,出现这种东西不是乱码,是unicode,例如: 在settings.py文件中加入下面一句code,之后就是中文了。 保存csv表格文件时,会出现中文乱码,这个确实是乱码,例如: 在settings.py文件中加入下面一句code,表格就是中文了 所以,编程时,只要有中文, 阅读全文
posted @ 2019-04-30 16:21 再次路过之 阅读(2279) 评论(0) 推荐(0) 编辑
摘要: 公式 f是定义的函数,l是你的list,所有功能都在f函数里完成, map(f,l) 有些网址爬虫出来的链接是一部分,省略了前端通用的,这时我们需要补充进去, 这时就用到了map函数,批量补充网址, 举个栗子: 结果是 阅读全文
posted @ 2019-04-30 11:00 再次路过之 阅读(2379) 评论(0) 推荐(0) 编辑
摘要: HTML 是什么 HTML 指的是超文本标记语言 (Hyper Text Markup Language) HTML 标签(tag) HTML 标签是由尖括号包围的关键词,比如 <html> 通常是成对出现的,比如 <b> 和 </b> 第一个标签是开始标签,第二个标签是结束标签 HTML 文档 = 阅读全文
posted @ 2019-04-27 19:35 再次路过之 阅读(158) 评论(0) 推荐(0) 编辑
摘要: 提取标签里的内容 下面标签title的内容是:我只是个实验 - SCRAPY。用response.css('title::text').extract_first()提取。 标签名后::加text的方法。 结果: 有时候,没有标签名可以用,只有class,标签名换成class名,前面加个点,点是cs 阅读全文
posted @ 2019-04-26 22:53 再次路过之 阅读(3692) 评论(0) 推荐(1) 编辑
摘要: 基本命令 建立项目 scrapy startproject projectname #在CMD命令框内执行,路径是你需要保存的位置 建立爬虫 cd projectname #在CMD命令框内执行,目的是建立py文件,必须cd进入到爬虫项目文件夹才可以用 scrapy genspider spider 阅读全文
posted @ 2019-04-24 23:05 再次路过之 阅读(543) 评论(0) 推荐(0) 编辑
摘要: 前言 我自己是个python小白,工作也不是软件行业,但是日常没事时喜欢捣鼓一些小玩意,自身有点C语言基础。 听说python很火,可以做出爬虫去爬一些数据图片视频之类的东东,我的兴趣一下子就来了。然后,开始了不归路,各种百度,各种实验。。。 最终的代码环境是安装了python 3.7,安装了PyC 阅读全文
posted @ 2019-04-11 19:29 再次路过之 阅读(388) 评论(0) 推荐(1) 编辑