tulintao

2019年10月18日

摘要：在创建一个scrapy项目的时候，会自动生成一个pipeliens.py文件，它是用来放置用户自定义的item pipeline，一个 item pipeline不需要继承特定的基类，只需要实现某些特定的方法，例如process_item、open_spider、close_spider 一个it 阅读全文

posted @ 2019-10-18 19:53 tulintao 阅读(251) 评论(0) 推荐(0) 编辑

在scrapy中利用Selector来提取数据

摘要： 1、创建对象 Selector类的实现位于scrapy.selector模块，创建Selector对象的时候，可以将页面的Html文档字符串传递给Selector构造器方法 2、选中数据调用Selector对象的xpath或者css方法（传入xpath或者css选择器表达式），可以选中文档中的某一阅读全文

posted @ 2019-10-18 13:55 tulintao 阅读(279) 评论(0) 推荐(0) 编辑

scrapy中的Request和Response对象

摘要：前言：如果框架中的组件比做成是人的各个器官的话，那个Request和Response就是血液，Item就是代谢产物 Request对象：是用来描述一个HTTP请求，其构造参数有这里面虽然有很多参数，但是除了url意外其它的都是可选参数，是带有默认值的。在构造Request对象的时候，通常我们只阅读全文

posted @ 2019-10-18 13:34 tulintao 阅读(692) 评论(0) 推荐(0) 编辑

2019年10月15日

CrawlSpider

摘要： CrawlSpider类通过一些规则（rules），使对于链接（网页）的爬取更具有通用性，换句话说CrawlSpider爬虫是通用性爬虫，那么Spider爬虫就更像是为了一些特殊网站制定的爬虫创建一个工程： scrapy startproject crawlspider scrapy genspi 阅读全文

posted @ 2019-10-15 19:09 tulintao 阅读(213) 评论(0) 推荐(0) 编辑

2019年10月14日

python爬虫

摘要：什么是爬虫：爬虫也就是网络爬虫（Web Spider）。翻译过来就是在网络上爬行的蜘蛛🕷️，这时候如果把互联网看成是一张大网来的话，那么爬虫就是在大网上爬来爬去的蜘蛛，根据想要的东西，就将它提取出来我们在浏览器中输入一个网址，点击了回车，就可以看到网页上的信息。这个其实就是浏览器通过请求网站的阅读全文

posted @ 2019-10-14 10:20 tulintao 阅读(177) 评论(0) 推荐(0) 编辑

2019年10月11日

提高scrapy的抓取效率

摘要：增加并发默认scrapy开启的并发线程的个数是32个，可以适当的进行增加。在settings中进行设置CONCURRENT_REQUESTS=100 降低日志级别在运行的时候，会有大量的日志信息的输出，为了减少CPU的使用率。可以设置log输出的信息是INFO或者是ERROR就可以了LOG_LEVEL=‘INFO’ 禁止cookie 如果不是真的需要cookie的话，可以在scrapy爬... 阅读全文

posted @ 2019-10-11 11:13 tulintao 阅读(325) 评论(0) 推荐(0) 编辑

2019年10月8日

redis常见的面试题

摘要： redis和memched有什么区别，为什么单线程的redis比多线程的memched效率高 string：ky类型 hash：字典redis的哈希结构可以使你像在数据库中更新一个属性一样只修改某一项属性值 list：实现消息队列 set：利用唯一性 zset：可以进行排序，可以实现数据的持久化数阅读全文

posted @ 2019-10-08 19:42 tulintao 阅读(189) 评论(0) 推荐(0) 编辑

2019年10月5日

scrapy运行的整个流程

摘要： Spiders：负责处理所有的response，从这里面分析提取数据，获取Item字段所需要的数据，并将需要跟进的URL提交给引擎，再次进入到Scheduler调度器中 Engine：框架的核心，负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号阅读全文

posted @ 2019-10-05 16:10 tulintao 阅读(2413) 评论(2) 推荐(0) 编辑

使用RequestsCookieJar自动保存并传递cookie

摘要：使用python的requests开发爬虫程序的时候，经常需要将之前请求返回的cookie值作为下一个请求的cookie进行调用，比如模拟登录之后的返回的sessionID，就是需要作为后续请求的cookie参数分成三步走： 1、通过requests模块导入 from requests.cooki 阅读全文

posted @ 2019-10-05 11:05 tulintao 阅读(6999) 评论(0) 推荐(0) 编辑

2019年10月3日

使用Scrapyd部署Scrapy爬虫到远程服务器上

摘要： 1、准备好爬虫程序 2、修改项目配置找到项目配置文件scrapy.cnf,将里面注释掉的url解开来本代码需要连接数据库，因此需要修改对应的数据库配置其实就是将里面的数据库地址进行修改，变成远程数据库服务器地址，需要保证scrapy服务器能够连接数据库服务器 3、部署项目在部署项目之前要保证阅读全文

posted @ 2019-10-03 23:07 tulintao 阅读(1393) 评论(0) 推荐(0) 编辑

公告