摘要: 基础知识 class scrapy.spiders.CrawlSpider 这是抓取一般网页最常用的类,除了从Spider继承过来的属性外,其提供了一个新的属性rules,它提供了一种简单的机制,能够为将要爬取的链接定义一组提取规则。 rules 这是一个Rule对象列表,每条规则定义了爬取网站链接 阅读全文
posted @ 2018-10-03 20:38 CrossPython 阅读(955) 评论(0) 推荐(0) 编辑
摘要: 传统的使用scrapy爬下来的数据存入mysql,用的是在pipeline里用pymysql存入数据库, 这种方法需要写sql语句,如果item字段数量非常多的 情况下,编写起来会造成很大的麻烦. 我使用的python 库:sqlalchemy来编写,用orm的方式,使代码变得非常简洁,按照数据库 阅读全文
posted @ 2018-10-03 20:34 CrossPython 阅读(1853) 评论(0) 推荐(0) 编辑
摘要: 网上关于INSERT ... ON DUPLICATE KEY UPDATE大多数文章都是同一篇文章转来转去,首先这个语法的目的是为了解决重复性,当数据库中存在某个记录时,执行这条语句会更新它,而不存在这条记录时,会插入它。 相当于 先判断一条记录是否存在,存在则update,否则insert。其语 阅读全文
posted @ 2018-10-03 20:05 CrossPython 阅读(867) 评论(0) 推荐(0) 编辑
摘要: 这两天上班接手,别人留下来的爬虫发现一个很好玩的 SQL脚本拼接。 只要你的Scrapy Field字段名字和 数据库字段的名字 一样。那么恭喜你你就可以拷贝这段SQL拼接脚本。进行MySQL入库处理。 具体拼接代码如下: 这个SQL拼接实现了,如果数据库存在相同数据则 更新,不存在则插入 的SQL 阅读全文
posted @ 2018-10-03 20:00 CrossPython 阅读(241) 评论(0) 推荐(0) 编辑
摘要: yield Request(...... 阅读全文
posted @ 2018-10-03 19:09 CrossPython 阅读(3479) 评论(0) 推荐(0) 编辑
摘要: https://www.jb51.net/article/129351.htm 阅读全文
posted @ 2018-10-03 18:25 CrossPython 阅读(104) 评论(0) 推荐(0) 编辑