随笔档案「2019年3月」 - 阿布_alone

模拟登陆

摘要：1. github 注意点: 1.要获取token,而且要一一对应 2.headers,两次请求的请求头是不一样的,否则会报错,422状态码 2.scrapy模拟登陆人人 3.scrapy模拟登录豆瓣阅读全文

posted @ 2019-03-29 15:23 阿布_alone 阅读(343) 评论(0) 推荐(0)

摘要：1. 还是以虎嗅为例,他给我返回的是一个json格式的json串 2.那么我需要操作的就是把json串转换成我们的字典格式再进行操作 3.自己导入选择器 4.使用Selector的xpath方法获取内容 5.使用效果我把上一篇虎嗅的在parse中修改了来示范一下 5.文档阅读全文

posted @ 2019-03-28 21:08 阿布_alone 阅读(1273) 评论(0) 推荐(0)

scrapy爬取虎嗅(典型的post请求在scrapy中的应用)

只有注册用户登录后才能阅读该文。

posted @ 2019-03-28 20:54 阿布_alone 阅读(17) 评论(0) 推荐(0)

基于pydpier爬取1药网(转载)

摘要：1.商品爬取 2.评论爬取阅读全文

posted @ 2019-03-27 22:45 阿布_alone

pyspider的基本操作

摘要：一.安装 1.修改 pyspider/webui/webdav.py 第209行：否则启动会报错 2.启动报错 3.phatomjs 其他问题参考：https://www.cnblogs.com/wisir/p/10666185.html 二.启动 1.启动 2.帮助 3.文件 4.界面 5.操作阅读全文

posted @ 2019-03-27 21:17 阿布_alone 阅读(573) 评论(0) 推荐(0)

pyquery的简单操作

摘要：一.初始化 1.html初始化 2.url初始化 3,文件初始化二.基本选择器三.查找元素 1.子元素 2.父元素 3.兄弟元素四.遍历 1.单个元素 2.多个元素五.获取信息 1.获取属性 2.获取文件 3.获取HTML 六.DOM操作 1.addClass、removeClass¶ 2. 阅读全文

posted @ 2019-03-27 18:41 阿布_alone 阅读(595) 评论(0) 推荐(0)

关于字体反爬的思路(猫眼电影)

摘要：一.关于字体反爬的思路 1.打开猫眼电影我们发现其很多关于数值在网页显示正常,通过element看到是方框 2.打开network看到所有的请求(找到字体的请求,直接那请求url就能拿到他的字体文件) 3.字体处理 <glyf...> 标签内包含着每一个字符的对象<TTGlyph>，同样第一个和最后阅读全文

posted @ 2019-03-26 21:22 阿布_alone 阅读(1069) 评论(0) 推荐(1)

路飞学城搭建值前后端结合

摘要：一.首页搭建 1.轮播图 admin站点配置支持图片上传默认情况下，Django会将上传的图片保存在本地服务器上，需要配置保存的路径。我们可以将上传的文件保存在静态文件statics目录中，添加如下上传保存目录信息配置代码：把Home子应用注册到settings的INSTALLED_APPS 阅读全文

posted @ 2019-03-26 09:47 阿布_alone 阅读(378) 评论(0) 推荐(0)

git平台创建项目(码云)

摘要：一.在码云创建项目 1.新建仓库 2,项目名称等 3.创建后的界面 4.克隆远程项目到本地(项目地址和用户名密码) 克隆后本地效果 5.创建并切换分支到dev 6.git提交和推送到远程仓库 1. 把线上的代码执行以下命令,拉取到本地,进行同步 git pull 2. 根据提示,移除多余的冲突的文件阅读全文

posted @ 2019-03-24 12:03 阿布_alone 阅读(627) 评论(0) 推荐(0)

Json与jsonpath再认识与初识

摘要：一.json格式的数据 1.认识 2.格式转换 2.1 json.loads() 把Json格式字符串解码转换成Python对象，从json到python的类型转化对照如下： 2.2 json.dumps() python类型转化为json字符串，返回一个str对象把一个Python对象编码转换成J 阅读全文

posted @ 2019-03-22 20:39 阿布_alone 阅读(625) 评论(0) 推荐(0)

b站弹幕的爬取以及词云的简单使用

摘要：一.B站弹幕的爬取 5. 效果: 二.关于B站直播弹幕的爬取 3.代码三.b站小视频的爬取需求:爬取b站的小视频 url=url = http://vc.bilibili.com/p/eden/rank#/?tab=全部 4.看一下请求结果 5.对ajax发起跟过请求可以看到,带着参数就可以拿阅读全文

posted @ 2019-03-22 17:01 阿布_alone 阅读(2844) 评论(0) 推荐(0)

关于抓取js加载出来的内容抓取

摘要：一.抓取页面 url=https://www.xuexi.cn/f997e76a890b0e5a053c57b19f468436/018d244441062d8916dd472a4c6a0a0b.html 1..首先通过分析页面会发现该页面中的新闻数据都是动态加载出来的，并且通过抓包工具抓取数据可以阅读全文

posted @ 2019-03-21 21:57 阿布_alone 阅读(3591) 评论(0) 推荐(0)

简单爬取微医网

摘要：一.利用request和xpath爬取微医网阅读全文

posted @ 2019-03-21 21:23 阿布_alone 阅读(475) 评论(0) 推荐(0)

项目搭建之虚拟环境和项目配置

摘要：一.虚拟环境virtualenv 如果在一台电脑上, 想开发多个不同的项目, 需要用到同一个包的不同版本, 如果使用上面的命令, 在同一个目录下安装或者更新, 新版本会覆盖以前的版本, 其它的项目就无法运行了.而公司里面往往会存在多个项目的情况，所以需要使用虚拟环境，把当前项目所需要用到的模块及其阅读全文

posted @ 2019-03-21 17:47 阿布_alone 阅读(915) 评论(0) 推荐(0)

drf之视图案例

摘要：views.py urls.py serializer.py model.py 阅读全文

posted @ 2019-03-20 22:48 阿布_alone 阅读(258) 评论(0) 推荐(0)

drf之视图

摘要：一.视图(视图函数) Django REST framwork 提供的视图的主要作用：控制序列化器的执行（检验、保存、转换数据）控制数据库查询的执行控制序列化器的执行（检验、保存、转换数据）控制数据库查询的执行 1.请求与响应 1.request request.data 返回解析之后的请求阅读全文

posted @ 2019-03-20 22:26 阿布_alone 阅读(311) 评论(0) 推荐(0)

drf序列化器的实例

摘要：应用目录结构: views.py serializers.py(自己创建的,管理序列化器使用) models.py urls.py 主路由,项目路由: 阅读全文

posted @ 2019-03-19 22:35 阿布_alone 阅读(826) 评论(0) 推荐(0)

drf之序列化器的使用

摘要：一.序列化器-Serializer 作用: 1.定义序列化器 Django REST framework中的Serializer使用类来定义，须继承自rest_framework.serializers.Serializer。例如，我们已有了一个数据库模型类BookInfo 我们想为这个模型类提供阅读全文

posted @ 2019-03-19 22:19 阿布_alone 阅读(918) 评论(0) 推荐(0)

drf的安装和配置

摘要：一.安装 1.安装 2.配置注:以上两部就OK了二.最简单的drf版本 1.创建应用 2.编写视图 3.编写路由 4.在应用的根目录创建一个序列化器文件 serializers.py 5.总路由分发 6.测试阅读全文

posted @ 2019-03-18 21:56 阿布_alone 阅读(1051) 评论(0) 推荐(0)

drf(djangorestframework)

摘要：一.django restful_framework 二..drf安装与环境配置 DRF需要以下依赖： Python (2.7, 3.2, 3.3, 3.4, 3.5, 3.6) Django (1.10, 1.11, 2.0) Python (2.7, 3.2, 3.3, 3.4, 3.5, 3. 阅读全文

posted @ 2019-03-18 17:58 阿布_alone 阅读(538) 评论(0) 推荐(0)

前后端分离和restful开发规范

摘要：一.web开发的两种模式 1.前后端不分离 2.前后端分离二.API接口三. RESTful API规范 1.概念 2.域名 3. 版本（Versioning）因为不同的版本，可以理解成同一种资源的不同表现形式，所以应该采用同一个URL。版本号可以在HTTP请求头信息的Accept字段中进行区阅读全文

posted @ 2019-03-18 17:14 阿布_alone 阅读(7341) 评论(2) 推荐(0)

requests模块的一些总结

摘要：一.cookie模拟登录的三种方式关于方式三的扩展：可参考：http://codingdict.com/sources/py/requests.utils/18814.html 二.requests编码问题 1.response.text 类型:str 解码方式:根据HTTP头部对应的编码做出有阅读全文

posted @ 2019-03-17 12:36 阿布_alone 阅读(678) 评论(0) 推荐(0)

初识shell编程

摘要：一.认识shell 1.什么是shell Shell 是一个命令行解释器,,他为用户提供一个向Linux内核发送请求以便运行程序的界面系统,用户可以用shell来启动,挂起,关闭甚至停止编写一些程序. 2.shell的编写 1. shell以#!/bin/bash开头 (告诉系统用那个shell) 阅读全文

posted @ 2019-03-16 10:00 阿布_alone 阅读(331) 评论(0) 推荐(0)

基于vue-cli搭建路飞

摘要：一.项目搭建 1. 首先进入到项目要保存的文件夹,然后执行命令如下命令初始化项目 2. 命令执行后,除了第一个填一下项目名称,其他的一路选no,这样建立的项目才是干净的,后边需要什么我们再临时安装就行 3.在第一步,第二部执行成功后,会在目录文件夹生成lufei目录,然后我们进入lufei这个目录, 阅读全文

posted @ 2019-03-14 19:54 阿布_alone 阅读(188) 评论(0) 推荐(0)

RabbitMq

摘要：一.消息队列的概念二.为何使用消息队列三.RabbitMq 四.rabbitMq的工作模型一.简单模式 1.最简单的模式代码: 2.no-ack 参数的使用上面是no-act=True的模式,就无应答的模式(默认是false),如果no-act=false(即有应答的)模式呢? 有应答的模阅读全文

posted @ 2019-03-13 20:31 阿布_alone 阅读(241) 评论(0) 推荐(0)

windows10环境下的RabbitMQ安装步骤（图文）

摘要：第一步：下载并安装erlang 原因：RabbitMQ服务端代码是使用并发式语言Erlang编写的，安装Rabbit MQ的前提是安装Erlang。下载地址：http://www.erlang.org/downloads 根据本机位数选择erlang下载版本。下载完是这么个东西：双击，点nex 阅读全文

posted @ 2019-03-13 16:09 阿布_alone 阅读(215) 评论(0) 推荐(0)

基于scrapy的一些实例

摘要：一.爬取斗鱼主播 1.　爬虫文件 2.item 3.pipeline 4.settings # -*- coding: utf-8 -*- # Scrapy settings for Douyu project # # For simplicity, this file contains only 阅读全文

posted @ 2019-03-13 14:45 阿布_alone 阅读(329) 评论(0) 推荐(0)

Vue自动化工具（Vue-CLI）

摘要：一.组件的概念 1.概念所以，组件就是一个html网页中的功能，一般就是一个标签，标签中有自己的内容结构，样式和特效。这样，前端人员就可以在开发时，只需要书写一次代码，随处引入即可使用。组件有两种：默认组件[全局组件] 和单文件组件 2.默认组件(全局组件) <!DOCTYPE html> 阅读全文

posted @ 2019-03-12 18:17 阿布_alone 阅读(2271) 评论(0) 推荐(0)

vue过滤器

摘要：一.过滤器filter 概念：Vue.js 允许你自定义过滤器，可被用作一些常见的文本格式化。过滤器可以用在两个地方：mustache 插值和 v-bind 表达式。过滤器应该被添加在 JavaScript 表达式的尾部，由“管道”符指示；代码: 注意:全局的过滤器名称是带有引号的,而局部是不带引阅读全文

posted @ 2019-03-10 10:28 阿布_alone 阅读(336) 评论(0) 推荐(0)

vue指令与事件修饰符

摘要：一.条件渲染指令 vue中提供了两个指令可以用于判断是否要显示元素，分别是v-if和v-show。实例: <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <meta name="viewport" content="wi 阅读全文

posted @ 2019-03-09 16:46 阿布_alone 阅读(518) 评论(0) 推荐(0)

vue学习

摘要：一.Vue.js 是什么 Vue.js 是目前最火的一个前端框架，React是最流行的一个前端框架（React除了开发网站，还可以开发手机App， Vue语法也是可以用于进行手机App开发的，需要借助于Weex） Vue.js 是前端的主流框架之一，和Angular.js、React.js 一起，并阅读全文

posted @ 2019-03-08 22:52 阿布_alone 阅读(224) 评论(0) 推荐(0)

scrapy框架的另一种分页处理以及mongodb的持久化储存以及from_crawler类方法的使用

摘要：一.scrapy框架处理 1.分页处理以爬取亚马逊为例爬虫文件.py 2.mongodb持久化储存以及from_crawl的使用 pipelines.py settings.py # -*- coding: utf-8 -*- # Scrapy settings for Amazon proje 阅读全文

posted @ 2019-03-07 23:30 阿布_alone 阅读(575) 评论(0) 推荐(0)

基于scrapy-redis的分布式爬虫

摘要：一.问题导入 scrapy能否实现分布式爬虫? 因为多台机器上部署的scrapy会各自拥有各自的调度器，这样就使得多台机器无法分配start_urls列表中的url。（多台机器无法共享同一个调度器）多台机器爬取到的数据无法通过同一个管道对数据进行统一的数据持久出存储。（多台机器无法共享同一个管道）阅读全文

posted @ 2019-03-07 11:09 阿布_alone 阅读(438) 评论(0) 推荐(0)

pymongodb的使用和一个腾讯招聘爬取的案例

摘要：一.在python3中操作mongodb 1.连接条件安装好pymongo库启动mongodb的服务端(如果是前台启动后就不关闭窗口,窗口关闭后服务端也会跟着关闭) 3.使用二.爬取腾讯招聘爬虫文件 # -*- coding: utf-8 -*- import scrapy from Ten 阅读全文

posted @ 2019-03-06 21:41 阿布_alone 阅读(416) 评论(0) 推荐(0)

中间件使用之（UA，IP，selenium）的使用

摘要：一.UA池：User-Agent池 - 作用：尽可能多的将scrapy工程中的请求伪装成不同类型的浏览器身份。 - 操作流程： 1.在下载中间件中拦截请求 2.将拦截到的请求的请求头信息中的UA进行篡改伪装 3.在配置文件中开启下载中间件代码展示：二.代理池 - 作用：尽可能多的将scrapy工阅读全文

posted @ 2019-03-05 23:54 阿布_alone 阅读(1574) 评论(0) 推荐(0)

windos下redis服务的后台启动

摘要：1. 进入 DOS窗口 2. 在进入Redis的安装目录 3. 输入：redis-server --service-install redis.windows.conf --loglevel verbose ( 安装redis服务 ) 4. 输入：redis-server --service-sta 阅读全文

posted @ 2019-03-05 11:43 阿布_alone 阅读(1588) 评论(0) 推荐(0)

mongodb的初步使用

摘要：一.mongodb简介 MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。 MongoDB是一个介于关系数据库和非关系数据库之间的产品，是非关系数据库当中功能最丰富，最像关系数据库的。它支持的数据结构非常松散，是类似json的bso 阅读全文

posted @ 2019-03-04 21:37 阿布_alone 阅读(1209) 评论(0) 推荐(0)

windos下安装mongodb

摘要：一.下载二.安装 1.自定义安装路径 2.取消install mongoDB compass,否则可能要很长时间都一直在执行安装，MongoDB Compass 是一个图形界面管理工具，我们可以在后面自己到官网下载安装，下载地址：https://www.mongodb.com/download-c 阅读全文

posted @ 2019-03-04 16:02 阿布_alone 阅读(525) 评论(0) 推荐(0)

移动端数据爬取(fidlde)

摘要：一.什么是Fiddler? 二.手机APP抓包设置 1. Fiddler设置打开Fiddler软件，打开工具的设置。(Fiddler软件菜单栏：Tools->Options) 在HTTPS中设置如下： 2.在Connections中设置如下，这里使用默认8888端口，当然也可以自己更改，但是注意不阅读全文

posted @ 2019-03-03 10:49 阿布_alone 阅读(315) 评论(0) 推荐(0)

scrapy框架之(CrawlSpider)

摘要：一.CrawlSpider简介如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话，有几种实现方法？方法一：基于Scrapy框架中的Spider的递归爬取进行实现（Request模块递归回调parse方法）。方法二：基于CrawlSpider的自动爬取进行实现（更加简洁和高效）。一.简介阅读全文

posted @ 2019-03-02 23:05 阿布_alone 阅读(236) 评论(0) 推荐(0)

scraoy之日志等级处理/多pipeline的处理/多item的处理

摘要：一.Scrapy的日志等级 1.配置 - 设置日志信息指定输出：在settings.py配置文件中，加入 LOG_LEVEL = ‘指定日志信息种类’即可。 LOG_FILE = 'log.txt'则表示将日志信息写入到指定文件中进行存储,设置后终端不显示日志内容 2.使用 3.扩展,在普通程序中阅读全文

posted @ 2019-03-02 19:07 阿布_alone 阅读(1277) 评论(0) 推荐(0)

scrapy模块之分页处理,post请求,cookies处理,请求传参

摘要：一.scrapy分页处理 1.分页处理 2.post请求 - 问题：在之前代码中，我们从来没有手动的对start_urls列表中存储的起始url进行过请求的发送，但是起始url的确是进行了请求的发送，那这是如何实现的呢？ - 解答：其实是因为爬虫文件中的爬虫类继承到了Spider父类中的start_ 阅读全文

posted @ 2019-03-02 16:52 阿布_alone 阅读(1522) 评论(0) 推荐(0)

scrapy框架初识

摘要：一.scrapy简介 Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，非常出名，非常强悍。所谓的框架就是一个已经被集成了各种功能（高性能异步下载，队列，分布式，解析，持久化等）的具有很强通用性的项目模板。对于框架的学习，重点是要学习其框架的特性、各个功能的用法即可。五大核心组件阅读全文

posted @ 2019-03-01 18:13 阿布_alone 阅读(290) 评论(0) 推荐(0)

阿布alone

03 2019 档案

公告