阿布_alone - 博客园

2019年3月4日

摘要：一.下载二.安装 1.自定义安装路径 2.取消install mongoDB compass,否则可能要很长时间都一直在执行安装，MongoDB Compass 是一个图形界面管理工具，我们可以在后面自己到官网下载安装，下载地址：https://www.mongodb.com/download-c 阅读全文

posted @ 2019-03-04 16:02 阿布_alone 阅读(498) 评论(0) 推荐(0) 编辑

2019年3月3日

移动端数据爬取(fidlde)

摘要：一.什么是Fiddler? 二.手机APP抓包设置 1. Fiddler设置打开Fiddler软件，打开工具的设置。(Fiddler软件菜单栏：Tools->Options) 在HTTPS中设置如下： 2.在Connections中设置如下，这里使用默认8888端口，当然也可以自己更改，但是注意不阅读全文

posted @ 2019-03-03 10:49 阿布_alone 阅读(284) 评论(0) 推荐(0) 编辑

2019年3月2日

scrapy框架之(CrawlSpider)

摘要：一.CrawlSpider简介如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话，有几种实现方法？方法一：基于Scrapy框架中的Spider的递归爬取进行实现（Request模块递归回调parse方法）。方法二：基于CrawlSpider的自动爬取进行实现（更加简洁和高效）。一.简介阅读全文

posted @ 2019-03-02 23:05 阿布_alone 阅读(224) 评论(0) 推荐(0) 编辑

scraoy之日志等级处理/多pipeline的处理/多item的处理

摘要：一.Scrapy的日志等级 1.配置 - 设置日志信息指定输出：在settings.py配置文件中，加入 LOG_LEVEL = ‘指定日志信息种类’即可。 LOG_FILE = 'log.txt'则表示将日志信息写入到指定文件中进行存储,设置后终端不显示日志内容 2.使用 3.扩展,在普通程序中阅读全文

posted @ 2019-03-02 19:07 阿布_alone 阅读(1172) 评论(0) 推荐(0) 编辑

scrapy模块之分页处理,post请求,cookies处理,请求传参

摘要：一.scrapy分页处理 1.分页处理 2.post请求 - 问题：在之前代码中，我们从来没有手动的对start_urls列表中存储的起始url进行过请求的发送，但是起始url的确是进行了请求的发送，那这是如何实现的呢？ - 解答：其实是因为爬虫文件中的爬虫类继承到了Spider父类中的start_ 阅读全文

posted @ 2019-03-02 16:52 阿布_alone 阅读(1441) 评论(0) 推荐(0) 编辑

2019年3月1日

scrapy框架初识

摘要：一.scrapy简介 Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，非常出名，非常强悍。所谓的框架就是一个已经被集成了各种功能（高性能异步下载，队列，分布式，解析，持久化等）的具有很强通用性的项目模板。对于框架的学习，重点是要学习其框架的特性、各个功能的用法即可。五大核心组件阅读全文

posted @ 2019-03-01 18:13 阿布_alone 阅读(279) 评论(0) 推荐(0) 编辑

2019年2月28日

git入门

摘要：一.简介与安装 1.简介安装注意：openssl 一定选它安装完成后，右击菜单栏，有如下菜单，表示安装完成二.初始配置 1.用户名和邮件(使用者是谁) > git config --global user.name "tjp40922"> git config --global user.e 阅读全文

posted @ 2019-02-28 22:30 阿布_alone 阅读(294) 评论(0) 推荐(0) 编辑

2019年2月27日

phantomjs的和谷歌浏览器的简单使用

摘要：一.phantomjs的简单使用二.谷歌无头浏览器的简单使用三.通过selenium和phtantosJs配合抓取到更多数据(ajax) selenium+phantomjs 就是爬虫终极解决方案:有些网站上的内容信息是通过动态加载js形成的，所以使用普通爬虫程序无法回去动态加载的js内容。例阅读全文

posted @ 2019-02-27 20:46 阿布_alone 阅读(1117) 评论(0) 推荐(0) 编辑

selenium模块的而简单使用

摘要：一.seleniu的简单使用 1.简单使用 Selenium支持非常多的浏览器，如Chrome、Firefox、Edge等，还有Android、BlackBerry等手机端的浏览器。另外，也支持无界面浏览器PhantomJS。 2.元素定位 webdriver 提供了一系列的元素定位方法，常用的有以阅读全文

posted @ 2019-02-27 20:45 阿布_alone 阅读(312) 评论(0) 推荐(0) 编辑

代理ip的使用以及多进程爬取

摘要：一.代理皮的简单使用二.多进程爬取阅读全文

posted @ 2019-02-27 15:29 阿布_alone 阅读(894) 评论(0) 推荐(0) 编辑

阿布alone

公告