爬虫 - 随笔分类(第5页) - 阿布_alone

基于scrapy的一些实例

摘要：一.爬取斗鱼主播 1.　爬虫文件 2.item 3.pipeline 4.settings # -*- coding: utf-8 -*- # Scrapy settings for Douyu project # # For simplicity, this file contains only 阅读全文

posted @ 2019-03-13 14:45 阿布_alone 阅读(305) 评论(0) 推荐(0) 编辑

scrapy框架的另一种分页处理以及mongodb的持久化储存以及from_crawler类方法的使用

摘要：一.scrapy框架处理 1.分页处理以爬取亚马逊为例爬虫文件.py 2.mongodb持久化储存以及from_crawl的使用 pipelines.py settings.py # -*- coding: utf-8 -*- # Scrapy settings for Amazon proje 阅读全文

posted @ 2019-03-07 23:30 阿布_alone 阅读(548) 评论(0) 推荐(0) 编辑

基于scrapy-redis的分布式爬虫

摘要：一.问题导入 scrapy能否实现分布式爬虫? 因为多台机器上部署的scrapy会各自拥有各自的调度器，这样就使得多台机器无法分配start_urls列表中的url。（多台机器无法共享同一个调度器）多台机器爬取到的数据无法通过同一个管道对数据进行统一的数据持久出存储。（多台机器无法共享同一个管道）阅读全文

posted @ 2019-03-07 11:09 阿布_alone 阅读(404) 评论(0) 推荐(0) 编辑

pymongodb的使用和一个腾讯招聘爬取的案例

摘要：一.在python3中操作mongodb 1.连接条件安装好pymongo库启动mongodb的服务端(如果是前台启动后就不关闭窗口,窗口关闭后服务端也会跟着关闭) 3.使用二.爬取腾讯招聘爬虫文件 # -*- coding: utf-8 -*- import scrapy from Ten 阅读全文

posted @ 2019-03-06 21:41 阿布_alone 阅读(390) 评论(0) 推荐(0) 编辑

中间件使用之（UA，IP，selenium）的使用

摘要：一.UA池：User-Agent池 - 作用：尽可能多的将scrapy工程中的请求伪装成不同类型的浏览器身份。 - 操作流程： 1.在下载中间件中拦截请求 2.将拦截到的请求的请求头信息中的UA进行篡改伪装 3.在配置文件中开启下载中间件代码展示：二.代理池 - 作用：尽可能多的将scrapy工阅读全文

posted @ 2019-03-05 23:54 阿布_alone 阅读(1513) 评论(0) 推荐(0) 编辑

移动端数据爬取(fidlde)

摘要：一.什么是Fiddler? 二.手机APP抓包设置 1. Fiddler设置打开Fiddler软件，打开工具的设置。(Fiddler软件菜单栏：Tools->Options) 在HTTPS中设置如下： 2.在Connections中设置如下，这里使用默认8888端口，当然也可以自己更改，但是注意不阅读全文

posted @ 2019-03-03 10:49 阿布_alone 阅读(284) 评论(0) 推荐(0) 编辑

scrapy框架之(CrawlSpider)

摘要：一.CrawlSpider简介如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话，有几种实现方法？方法一：基于Scrapy框架中的Spider的递归爬取进行实现（Request模块递归回调parse方法）。方法二：基于CrawlSpider的自动爬取进行实现（更加简洁和高效）。一.简介阅读全文

posted @ 2019-03-02 23:05 阿布_alone 阅读(223) 评论(0) 推荐(0) 编辑

scraoy之日志等级处理/多pipeline的处理/多item的处理

摘要：一.Scrapy的日志等级 1.配置 - 设置日志信息指定输出：在settings.py配置文件中，加入 LOG_LEVEL = ‘指定日志信息种类’即可。 LOG_FILE = 'log.txt'则表示将日志信息写入到指定文件中进行存储,设置后终端不显示日志内容 2.使用 3.扩展,在普通程序中阅读全文

posted @ 2019-03-02 19:07 阿布_alone 阅读(1170) 评论(0) 推荐(0) 编辑

scrapy模块之分页处理,post请求,cookies处理,请求传参

摘要：一.scrapy分页处理 1.分页处理 2.post请求 - 问题：在之前代码中，我们从来没有手动的对start_urls列表中存储的起始url进行过请求的发送，但是起始url的确是进行了请求的发送，那这是如何实现的呢？ - 解答：其实是因为爬虫文件中的爬虫类继承到了Spider父类中的start_ 阅读全文

posted @ 2019-03-02 16:52 阿布_alone 阅读(1438) 评论(0) 推荐(0) 编辑

scrapy框架初识

摘要：一.scrapy简介 Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，非常出名，非常强悍。所谓的框架就是一个已经被集成了各种功能（高性能异步下载，队列，分布式，解析，持久化等）的具有很强通用性的项目模板。对于框架的学习，重点是要学习其框架的特性、各个功能的用法即可。五大核心组件阅读全文

posted @ 2019-03-01 18:13 阿布_alone 阅读(279) 评论(0) 推荐(0) 编辑

phantomjs的和谷歌浏览器的简单使用

摘要：一.phantomjs的简单使用二.谷歌无头浏览器的简单使用三.通过selenium和phtantosJs配合抓取到更多数据(ajax) selenium+phantomjs 就是爬虫终极解决方案:有些网站上的内容信息是通过动态加载js形成的，所以使用普通爬虫程序无法回去动态加载的js内容。例阅读全文

posted @ 2019-02-27 20:46 阿布_alone 阅读(1117) 评论(0) 推荐(0) 编辑

selenium模块的而简单使用

摘要：一.seleniu的简单使用 1.简单使用 Selenium支持非常多的浏览器，如Chrome、Firefox、Edge等，还有Android、BlackBerry等手机端的浏览器。另外，也支持无界面浏览器PhantomJS。 2.元素定位 webdriver 提供了一系列的元素定位方法，常用的有以阅读全文

posted @ 2019-02-27 20:45 阿布_alone 阅读(312) 评论(0) 推荐(0) 编辑

代理ip的使用以及多进程爬取

摘要：一.代理皮的简单使用二.多进程爬取阅读全文

posted @ 2019-02-27 15:29 阿布_alone 阅读(894) 评论(0) 推荐(0) 编辑

爬虫之re块解析

摘要：一.re 这个去匹配比较麻烦,以后也比较少用,简单看一个案例就行二.使用re的注意点 1.Windows转义符 2.避免出错在正则表达式中尽量使用原始字符串，在待匹配字符中看到什么就在正则表达式中写什么，不容易出问题原始字符串的查看，可以借助ipython去查看，不要使用print 3. 阅读全文

posted @ 2019-02-26 21:09 阿布_alone 阅读(307) 评论(0) 推荐(0) 编辑

爬虫初识和request使用

摘要：一.什么是爬虫爬虫的概念: 通过编写程序,模拟浏览器上网,让其去互联网上爬取数据的过程. 爬虫的工作流程: 模拟浏览器发送请求->下载网页代码->只提取有用的数据->存放于数据库或文件中爬虫的分类: 通用爬虫:爬取全部的页面数据. 聚焦爬虫: 抓取页面中局部的页面数据增量式爬虫:爬取网站中更新阅读全文

posted @ 2019-02-26 15:39 阿布_alone 阅读(3073) 评论(0) 推荐(1) 编辑

xpath的基础使用

摘要：一.xpath简介 XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航。 XPath 使用路径表达式在 XML 文档中进行导航 XPath 包含一个标准函数库 XPath 是 XSLT 中的主要元素 XPath 是一个 W3C 标准 `节点阅读全文

posted @ 2019-02-25 21:03 阿布_alone 阅读(849) 评论(0) 推荐(0) 编辑

bs4的简单使用

摘要：一.使用流程二.基本语法三.重点语法find和find_all 不带过滤器: print(soup.find_all()) #没有过滤,查找所有标签字符串过滤器: print (soup.find_all()) #字符串过滤器,即标签名列表: print(soup.find_(['a','b 阅读全文

posted @ 2019-02-24 22:32 阿布_alone 阅读(1914) 评论(0) 推荐(0) 编辑

fiddler抓包出现错误 creation of the root certificate was not successful

摘要：fiddler安装完要配置才可以抓取HTTP 但有时候没有弹窗安装证书或根本就没有提示，这种情况一般在Win7中较多出现，Win7的系统https方面在.net Framework4.0上有bug 网上搜罗一番之后解决方案是 1.cmd 命令行找到fiddler的安装目录如: cd C:\Us 阅读全文

posted @ 2019-02-20 15:51 阿布_alone 阅读(935) 评论(0) 推荐(1) 编辑

阿布alone

随笔分类 - 爬虫

公告