摘要:
基础知识 class scrapy.spiders.CrawlSpider 这是抓取一般网页最常用的类,除了从Spider继承过来的属性外,其提供了一个新的属性rules,它提供了一种简单的机制,能够为将要爬取的链接定义一组提取规则。 rules 这是一个Rule对象列表,每条规则定义了爬取网站链接 阅读全文
摘要:
传统的使用scrapy爬下来的数据存入mysql,用的是在pipeline里用pymysql存入数据库, 这种方法需要写sql语句,如果item字段数量非常多的 情况下,编写起来会造成很大的麻烦. 我使用的python 库:sqlalchemy来编写,用orm的方式,使代码变得非常简洁,按照数据库 阅读全文
摘要:
网上关于INSERT ... ON DUPLICATE KEY UPDATE大多数文章都是同一篇文章转来转去,首先这个语法的目的是为了解决重复性,当数据库中存在某个记录时,执行这条语句会更新它,而不存在这条记录时,会插入它。 相当于 先判断一条记录是否存在,存在则update,否则insert。其语 阅读全文
摘要:
这两天上班接手,别人留下来的爬虫发现一个很好玩的 SQL脚本拼接。 只要你的Scrapy Field字段名字和 数据库字段的名字 一样。那么恭喜你你就可以拷贝这段SQL拼接脚本。进行MySQL入库处理。 具体拼接代码如下: 这个SQL拼接实现了,如果数据库存在相同数据则 更新,不存在则插入 的SQL 阅读全文
摘要:
yield Request(...... 阅读全文
摘要:
https://www.jb51.net/article/129351.htm 阅读全文