2018 年 10月 3 日随笔档案 - CrossPython

2018年10月3日

摘要：基础知识 class scrapy.spiders.CrawlSpider 这是抓取一般网页最常用的类，除了从Spider继承过来的属性外，其提供了一个新的属性rules，它提供了一种简单的机制，能够为将要爬取的链接定义一组提取规则。 rules 这是一个Rule对象列表，每条规则定义了爬取网站链接阅读全文

posted @ 2018-10-03 20:38 CrossPython 阅读(955) 评论(0) 推荐(0) 编辑

使用sqlalchemy用orm方式写pipeline将scrapy item快速存入 MySQL

摘要：传统的使用scrapy爬下来的数据存入mysql,用的是在pipeline里用pymysql存入数据库, 这种方法需要写sql语句,如果item字段数量非常多的情况下,编写起来会造成很大的麻烦. 我使用的python 库:sqlalchemy来编写,用orm的方式,使代码变得非常简洁,按照数据库阅读全文

posted @ 2018-10-03 20:34 CrossPython 阅读(1853) 评论(0) 推荐(0) 编辑

mysql INSERT ... ON DUPLICATE KEY UPDATE语句

摘要：网上关于INSERT ... ON DUPLICATE KEY UPDATE大多数文章都是同一篇文章转来转去，首先这个语法的目的是为了解决重复性，当数据库中存在某个记录时，执行这条语句会更新它，而不存在这条记录时，会插入它。相当于先判断一条记录是否存在，存在则update，否则insert。其语阅读全文

posted @ 2018-10-03 20:05 CrossPython 阅读(867) 评论(0) 推荐(0) 编辑

Scrapy小技巧-MySQL存储, MYSQL拼接

摘要：这两天上班接手，别人留下来的爬虫发现一个很好玩的 SQL脚本拼接。只要你的Scrapy Field字段名字和数据库字段的名字一样。那么恭喜你你就可以拷贝这段SQL拼接脚本。进行MySQL入库处理。具体拼接代码如下：这个SQL拼接实现了，如果数据库存在相同数据则更新，不存在则插入的SQL 阅读全文

posted @ 2018-10-03 20:00 CrossPython 阅读(241) 评论(0) 推荐(0) 编辑

scrapy 去重 dont_filter=False

摘要： yield Request(...... 阅读全文

posted @ 2018-10-03 19:09 CrossPython 阅读(3479) 评论(0) 推荐(0) 编辑

Spider, CrawlSpider 实例

摘要： https://www.jb51.net/article/129351.htm 阅读全文

posted @ 2018-10-03 18:25 CrossPython 阅读(104) 评论(0) 推荐(0) 编辑

公告