爬虫 - 文章分类 - myworldworld

scrapy实战二：scrapy item pipeline组件实现细节

摘要：一、 scrapy item pipeline组件实现细节 Scrapy存入MySQL或是其他数据库，虽然scrapy没有给我们提供拿来就用的类，但是她已经给我们实现了部分方法，我们继承它给我们实现的方法就能轻松的把数据存入你想存入的数据库，那我们要肿么继承呢？其实就是编写一个pipeline组件阅读全文

posted @ 2018-11-15 18:01 myworldworld 阅读(154) 评论(0) 推荐(0)

scrapy实战一：爬虫图片存在不同目录

摘要：可能有些朋友使用scrapy下载图片，并不满足简单下载，还需要重命名，还需要图片归类（把同一url里的图片放入同一文件夹）。那scrapy图片下再要如何处理？其实横简单，如果你看了我们继承的scrapy类：ImagesPipeline的一些实现，你会发现里面有这么一个方法：def file_pat 阅读全文

posted @ 2018-11-15 17:33 myworldworld 阅读(361) 评论(0) 推荐(0)

scrapy常见问题一

摘要：1 常见错误 1.1 错误： ImportError: No module named win32api 官方参考： https://doc.scrapy.org/en/latest/faq.html#scrapy-crashes-with-importerror-no-module-named-w 阅读全文

posted @ 2018-11-02 18:11 myworldworld 阅读(285) 评论(0) 推荐(0)

scrapy十一：settings

摘要：Scrapy设定(settings)提供了定制Scrapy组件的方法。你可以控制包括核心(core)，插件(extension)，pipeline及spider组件。设定为代码提供了提取以key-value映射的配置值的的全局命名空间(namespace)。 Scrapy内置设置下面给出scrap 阅读全文

posted @ 2018-10-31 14:08 myworldworld 阅读(143) 评论(0) 推荐(0)

scrapy使用十：图片的抓取和下载

摘要：1.目标：http://car.bitauto.com/qichepinpai 2.创建爬虫项目 3.items.py 这里我们先使用火狐浏览器的Firefinder插件找找我们需要提取的图片，图片如下：代码简介：通常我们使用官方的那个imagepipeline导出的文件是SHA1 hash 你的阅读全文

posted @ 2018-10-30 18:09 myworldworld 阅读(113) 评论(0) 推荐(0)

scrapy使用十：动态网页技术之selenium、splinter

摘要：Selenium浏览器自动化测试框架简介简介 Selenium 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中，就像真正的用户在操作一样。支持的浏览器包括IE（7, 8, 9, 10, 11），Mozilla Firefox，Safari，Google Chrome 阅读全文

posted @ 2018-10-26 10:38 myworldworld 阅读(2349) 评论(0) 推荐(0)

scrapy使用九：设置IP代理池及IP变换方案

摘要：设置IP代理池及IP变换方案方案一：使用国内免费的IP代理 1 http://www.xicidaili.com # 创建一个tools文件夹，新建一个py文件，用于获取代理IP和PORT from scrapy.selector import Selector import MySQLdb i 阅读全文

posted @ 2018-10-26 10:10 myworldworld 阅读(340) 评论(0) 推荐(0)

scrapy使用八：验证码

摘要：3种实现方案 1. 编码实现 tesseract-ocr 谷歌开源的识别工具，自己实现代码编码，投入精力大，回馈低。且平台验证码更换周期短，编好的代码容易失效 2. 在线打码在线平台提供，识别率90%以上 http://www.yunzhuan.com/ 3. 人工打码效率低，准确率高基本上，阅读全文

posted @ 2018-10-25 16:47 myworldworld 阅读(135) 评论(0) 推荐(0)

scrapy示例一：Python 爬虫知识点 - 淘宝商品检索结果抓包分析

摘要：https://www.cnblogs.com/defineconst/p/6181331.html https://www.cnblogs.com/defineconst/p/6185396.html https://www.cnblogs.com/defineconst/p/6209274.ht 阅读全文

posted @ 2018-10-25 16:44 myworldworld 阅读(241) 评论(0) 推荐(0)

scrapy使用七：防ban

摘要：scrapy官方文档：https://doc.scrapinghub.com/index.html 根据scrapy官方文档：http://doc.scrapy.org/en/master/topics/practices.html#avoiding-getting-banned里面的描述，要防止s 阅读全文

posted @ 2018-10-25 16:14 myworldworld 阅读(312) 评论(0) 推荐(0)

scrapy使用七：部署scrapyd

摘要：本文的目的在于介绍 scrapyd 的安装与使用，为节省篇幅，scrapy 的安装与 scrapy爬虫的开发在本文不予介绍，默认已经开发完成，当然，本机的Python环境变量也是配置好的。笔者所用的环境如下：系统：Windows 10Python：Python 3.6.3Scrapy：Scrapy 阅读全文

posted @ 2018-10-21 10:52 myworldworld 阅读(317) 评论(0) 推荐(0)

scrapy使用六：爬取动态网页

摘要：ajax介绍与网页展示从js文件读取内容构造目标地址 t视频评论爬虫一、ajax介绍 ajax：asynchronous javascript and xml，异步js和xml，一种创建交互式网页应用的网页开发技术通过在后台与服务进行少量数据交换，AJAX可以使网页实现异步更新。这意味着，可阅读全文

posted @ 2018-10-05 19:05 myworldworld 阅读(508) 评论(0) 推荐(0)

scrapy使用六：使用cookies，模拟登录

摘要：cookie：指某些网站为了辨别用户身份而存储在用户本地终端上的数据，通常经过加密。保持登录：当登录一个网站时，网站往往会请求用户名和密码，进行登录；并且用户可以勾选下次自动登录。如果勾选了，那么下次访问同一网站时，用户会发现没有输入用户名和密码就已经登录了。这正是因为前一次登录时，服务器发送了阅读全文

posted @ 2018-10-05 18:00 myworldworld 阅读(586) 评论(0) 推荐(0)

scrapy使用五.一：自定义json和mysql处理数据，与使用scrapy自带模块处理

摘要：自定义json处理pipeline：使用json模块处理JSON数据使用内置JSON处理对象JsonItemExporter，处理json数据自定义数据库：处理数据存取，阻塞型的数据写入操作使用twisted提供的数据库连接池，异步化写入，缓解写数据操作堵塞阅读全文

posted @ 2018-10-05 17:34 myworldworld 阅读(163) 评论(0) 推荐(0)

scrapy使用五：scrapy配置mysql、mongodb和redis

摘要：一、配置MYSQL 修改settings.py 修改pipelines.py 修改setting.py配置文件，添加MySQLStoreCnblogsPipeline的支持二、配置mongoDB 安装pymongo 在settings.py中配置MongoDB的IP地址、端口号、数据记录名称，可以阅读全文

posted @ 2018-10-05 15:53 myworldworld 阅读(498) 评论(0) 推荐(0)

scrapy使用四：使用手机app抓取某站图片

摘要：1.创建项目、爬虫的脚本： 2.打开网站，得到json字符串：http://capi.douyucdn.cn/api/v1/getVerticalRoom?limit=20&offset= 3.明确需求，编写items.py 4.编写爬虫文件，douyucdn.py 5.编写pipelines.py 阅读全文

posted @ 2018-10-05 14:16 myworldworld 阅读(283) 评论(0) 推荐(0)

scrapy使用三：某网站自动翻页采集

摘要：爬虫项目编写流程： 1.创建项目 2.创建一个爬虫在引用模块、settings配置时，不是从项目文件夹开始，面是从项目文件夹的下一层开始。 3.打开网址，查看数据：https://hr.tencent.com/position.php?keywords=python&lid=2218&tid=87 阅读全文

posted @ 2018-10-04 21:17 myworldworld 阅读(843) 评论(0) 推荐(0)

scrapy使用二：一个简单的爬虫示例

摘要：爬虫项目过程：创建一个scrapy项目定义提取结构化数据item 编写爬取网站的spider，并提出结构化数据item 编写 item piplines，来存储提取到的item，即结构化数据一、创建一个简单的爬虫项目 1.创建scrapy项目：在命令行下， 2.目录结构，类似djano：阅读全文

posted @ 2018-10-04 16:55 myworldworld 阅读(423) 评论(0) 推荐(0)

windows下安装scrapy

摘要：1.Scrapy的依赖库众多，首先使用pip install Scrapy 命令来安装可以自动安装的依赖库（包括lxml、zope.interface、pyopenssl等），注意，如果Error中错误是由于Read time out引起的，请重新输入命令，直到错误不是由Read time out引阅读全文

posted @ 2018-10-04 14:55 myworldworld 阅读(136) 评论(0) 推荐(0)

scrapy使用一：介绍及安装

摘要：scrapy框架：基于twisted异步网络框架来处理网络通讯，集成了爬虫(如之前用到的beatifulsoup，xpath)的功能。 scrapy架构图： scrapy engine引擎：负责spider，itempipeline，downloader，scheduler中间的通讯、信号、数据传递阅读全文

posted @ 2018-10-03 15:27 myworldworld 阅读(127) 评论(0) 推荐(0)

myworldworld

文章分类 - 爬虫