再次路过之

2019年5月3日

摘要：由于喜欢玩POE流放之路，所以用这个论坛试试自己的新技能程序语句都做了注释说明，下面是步骤 1.建立项目 2.建立爬虫 3.编辑items.py 4.编辑poebd.py 5.编辑settings.py 6.运行爬虫结果 2019-05-03 阅读全文

posted @ 2019-05-03 21:18 再次路过之阅读(402) 评论(0) 推荐(0)

2019年4月30日

scrapy抓中文，保存csv文件乱码解决方法

摘要：保存json和txt文件，出现这种东西不是乱码，是unicode，例如：在settings.py文件中加入下面一句code，之后就是中文了。保存csv表格文件时，会出现中文乱码，这个确实是乱码，例如：在settings.py文件中加入下面一句code，表格就是中文了所以，编程时，只要有中文，阅读全文

posted @ 2019-04-30 16:21 再次路过之阅读(2325) 评论(0) 推荐(0)

python 3 map函数用法

摘要：公式 f是定义的函数，l是你的list，所有功能都在f函数里完成， map(f,l) 有些网址爬虫出来的链接是一部分，省略了前端通用的，这时我们需要补充进去，这时就用到了map函数，批量补充网址，举个栗子：结果是阅读全文

posted @ 2019-04-30 11:00 再次路过之阅读(2417) 评论(0) 推荐(0)

2019年4月27日

HTML基础信息笔记

摘要： HTML 是什么 HTML 指的是超文本标记语言 (Hyper Text Markup Language) HTML 标签（tag） HTML 标签是由尖括号包围的关键词，比如 <html> 通常是成对出现的，比如 <b> 和 </b> 第一个标签是开始标签，第二个标签是结束标签 HTML 文档 = 阅读全文

posted @ 2019-04-27 19:35 再次路过之阅读(177) 评论(0) 推荐(0)

2019年4月26日

css提取数据2个常用方法

摘要：提取标签里的内容下面标签title的内容是：我只是个实验 - SCRAPY。用response.css('title::text').extract_first()提取。标签名后：：加text的方法。结果：有时候，没有标签名可以用，只有class，标签名换成class名，前面加个点，点是cs 阅读全文

posted @ 2019-04-26 22:53 再次路过之阅读(3854) 评论(0) 推荐(1)

2019年4月24日

Python3 scrapy 新手命令

摘要：基本命令建立项目 scrapy startproject projectname #在CMD命令框内执行，路径是你需要保存的位置建立爬虫 cd projectname #在CMD命令框内执行，目的是建立py文件，必须cd进入到爬虫项目文件夹才可以用 scrapy genspider spider 阅读全文

posted @ 2019-04-24 23:05 再次路过之阅读(558) 评论(0) 推荐(0)

2019年4月11日

Python3.0 urllib request自己第一成功做出爬虫

摘要：前言我自己是个python小白，工作也不是软件行业，但是日常没事时喜欢捣鼓一些小玩意，自身有点C语言基础。听说python很火，可以做出爬虫去爬一些数据图片视频之类的东东，我的兴趣一下子就来了。然后，开始了不归路，各种百度，各种实验。。。最终的代码环境是安装了python 3.7，安装了PyC 阅读全文

posted @ 2019-04-11 19:29 再次路过之阅读(404) 评论(0) 推荐(1)

公告