03 2019 档案

摘要:1. github 注意点: 1.要获取token,而且要一一对应 2.headers,两次请求的请求头是不一样的,否则会报错,422状态码 2.scrapy模拟登陆人人 3.scrapy模拟登录豆瓣 阅读全文
posted @ 2019-03-29 15:23 阿布_alone 阅读(310) 评论(0) 推荐(0) 编辑
摘要:1. 还是以虎嗅为例,他给我返回的是一个json格式的json串 2.那么我需要操作的就是把json串转换成我们的字典格式再进行操作 3.自己导入选择器 4.使用Selector的xpath方法获取内容 5.使用效果 我把上一篇虎嗅的在parse中修改了来示范一下 5.文档 阅读全文
posted @ 2019-03-28 21:08 阿布_alone 阅读(1251) 评论(0) 推荐(0) 编辑
只有注册用户登录后才能阅读该文。
posted @ 2019-03-28 20:54 阿布_alone 阅读(17) 评论(0) 推荐(0) 编辑
摘要:1.商品爬取 2.评论爬取 阅读全文
posted @ 2019-03-27 22:45 阿布_alone 编辑
摘要:一.安装 1.修改 pyspider/webui/webdav.py 第209行:否则启动会报错 2.启动报错 3.phatomjs 其他问题参考:https://www.cnblogs.com/wisir/p/10666185.html 二.启动 1.启动 2.帮助 3.文件 4.界面 5.操作 阅读全文
posted @ 2019-03-27 21:17 阿布_alone 阅读(550) 评论(0) 推荐(0) 编辑
摘要:一.初始化 1.html初始化 2.url初始化 3,文件初始化 二.基本选择器 三.查找元素 1.子元素 2.父元素 3.兄弟元素 四.遍历 1.单个元素 2.多个元素 五.获取信息 1.获取属性 2.获取文件 3.获取HTML 六.DOM操作 1.addClass、removeClass¶ 2. 阅读全文
posted @ 2019-03-27 18:41 阿布_alone 阅读(584) 评论(0) 推荐(0) 编辑
摘要:一.关于字体反爬的思路 1.打开猫眼电影我们发现其很多关于数值在网页显示正常,通过element看到是方框 2.打开network看到所有的请求(找到字体的请求,直接那请求url就能拿到他的字体文件) 3.字体处理 <glyf...> 标签内包含着每一个字符的对象<TTGlyph>,同样第一个和最后 阅读全文
posted @ 2019-03-26 21:22 阿布_alone 阅读(1008) 评论(0) 推荐(1) 编辑
摘要:一.首页搭建 1.轮播图 admin站点配置支持图片上传 默认情况下,Django会将上传的图片保存在本地服务器上,需要配置保存的路径。 我们可以将上传的文件保存在静态文件statics目录中,添加如下上传保存目录信息 配置代码: 把Home子应用注册到settings的INSTALLED_APPS 阅读全文
posted @ 2019-03-26 09:47 阿布_alone 阅读(353) 评论(0) 推荐(0) 编辑
摘要:一.在码云创建项目 1.新建仓库 2,项目名称等 3.创建后的界面 4.克隆远程项目到本地(项目地址和用户名密码) 克隆后本地效果 5.创建并切换分支到dev 6.git提交和推送到远程仓库 1. 把线上的代码执行以下命令,拉取到本地,进行同步 git pull 2. 根据提示,移除多余的冲突的文件 阅读全文
posted @ 2019-03-24 12:03 阿布_alone 阅读(597) 评论(0) 推荐(0) 编辑
摘要:一.json格式的数据 1.认识 2.格式转换 2.1 json.loads() 把Json格式字符串解码转换成Python对象,从json到python的类型转化对照如下: 2.2 json.dumps() python类型转化为json字符串,返回一个str对象把一个Python对象编码转换成J 阅读全文
posted @ 2019-03-22 20:39 阿布_alone 阅读(599) 评论(0) 推荐(0) 编辑
摘要:一.B站弹幕的爬取 5. 效果: 二.关于B站直播弹幕的爬取 3.代码 三.b站小视频的爬取 需求:爬取b站的小视频 url=url = http://vc.bilibili.com/p/eden/rank#/?tab=全部 4.看一下请求结果 5.对ajax发起跟过请求 可以看到,带着参数就可以拿 阅读全文
posted @ 2019-03-22 17:01 阿布_alone 阅读(2754) 评论(0) 推荐(0) 编辑
摘要:一.抓取页面 url=https://www.xuexi.cn/f997e76a890b0e5a053c57b19f468436/018d244441062d8916dd472a4c6a0a0b.html 1..首先通过分析页面会发现该页面中的新闻数据都是动态加载出来的,并且通过抓包工具抓取数据可以 阅读全文
posted @ 2019-03-21 21:57 阿布_alone 阅读(3471) 评论(0) 推荐(0) 编辑
摘要:一.利用request和xpath爬取微医网 阅读全文
posted @ 2019-03-21 21:23 阿布_alone 阅读(404) 评论(0) 推荐(0) 编辑
摘要:一.虚拟环境virtualenv 如果在一台电脑上, 想开发多个不同的项目, 需要用到同一个包的不同版本, 如果使用上面的命令, 在同一个目录下安装或者更新, 新版本会覆盖以前的版本, 其它的项目就无法运行了.而公司里面往往会 存在多个项目的情况,所以需要使用虚拟环境,把当前项目所需要用到的模块及其 阅读全文
posted @ 2019-03-21 17:47 阿布_alone 阅读(878) 评论(0) 推荐(0) 编辑
摘要:views.py urls.py serializer.py model.py 阅读全文
posted @ 2019-03-20 22:48 阿布_alone 阅读(249) 评论(0) 推荐(0) 编辑
摘要:一.视图(视图函数) Django REST framwork 提供的视图的主要作用: 控制序列化器的执行(检验、保存、转换数据) 控制数据库查询的执行 控制序列化器的执行(检验、保存、转换数据) 控制数据库查询的执行 1.请求与响应 1.request request.data 返回解析之后的请求 阅读全文
posted @ 2019-03-20 22:26 阿布_alone 阅读(292) 评论(0) 推荐(0) 编辑
摘要:应用目录结构: views.py serializers.py(自己创建的,管理序列化器使用) models.py urls.py 主路由,项目路由: 阅读全文
posted @ 2019-03-19 22:35 阿布_alone 阅读(809) 评论(0) 推荐(0) 编辑
摘要:一.序列化器-Serializer 作用: 1.定义序列化器 Django REST framework中的Serializer使用类来定义,须继承自rest_framework.serializers.Serializer。 例如,我们已有了一个数据库模型类BookInfo 我们想为这个模型类提供 阅读全文
posted @ 2019-03-19 22:19 阿布_alone 阅读(881) 评论(0) 推荐(0) 编辑
摘要:一.安装 1.安装 2.配置 注:以上两部就OK了 二.最简单的drf版本 1.创建应用 2.编写视图 3.编写路由 4.在应用的根目录创建一个序列化器文件 serializers.py 5.总路由分发 6.测试 阅读全文
posted @ 2019-03-18 21:56 阿布_alone 阅读(1024) 评论(0) 推荐(0) 编辑
摘要:一.django restful_framework 二..drf安装与环境配置 DRF需要以下依赖: Python (2.7, 3.2, 3.3, 3.4, 3.5, 3.6) Django (1.10, 1.11, 2.0) Python (2.7, 3.2, 3.3, 3.4, 3.5, 3. 阅读全文
posted @ 2019-03-18 17:58 阿布_alone 阅读(520) 评论(0) 推荐(0) 编辑
摘要:一.web开发的两种模式 1.前后端不分离 2.前后端分离 二.API接口 三. RESTful API规范 1.概念 2.域名 3. 版本(Versioning) 因为不同的版本,可以理解成同一种资源的不同表现形式,所以应该采用同一个URL。版本号可以在HTTP请求头信息的Accept字段中进行区 阅读全文
posted @ 2019-03-18 17:14 阿布_alone 阅读(7118) 评论(2) 推荐(0) 编辑
摘要:一.cookie模拟登录的三种方式 关于方式三的扩展: 可参考:http://codingdict.com/sources/py/requests.utils/18814.html 二.requests编码问题 1.response.text 类型:str 解码方式:根据HTTP头部对应的编码做出有 阅读全文
posted @ 2019-03-17 12:36 阿布_alone 阅读(668) 评论(0) 推荐(0) 编辑
摘要:一.认识shell 1.什么是shell Shell 是一个命令行解释器,,他为用户提供一个向Linux内核发送请求以便运行程序的界面系统,用户可以用shell来启动,挂起,关闭甚至停止编写一些程序. 2.shell的编写 1. shell以#!/bin/bash开头 (告诉系统用那个shell) 阅读全文
posted @ 2019-03-16 10:00 阿布_alone 阅读(305) 评论(0) 推荐(0) 编辑
摘要:一.项目搭建 1. 首先进入到项目要保存的文件夹,然后执行命令如下命令初始化项目 2. 命令执行后,除了第一个填一下项目名称,其他的一路选no,这样建立的项目才是干净的,后边需要什么我们再临时安装就行 3.在第一步,第二部执行成功后,会在目录文件夹生成lufei目录,然后我们进入lufei这个目录, 阅读全文
posted @ 2019-03-14 19:54 阿布_alone 阅读(169) 评论(0) 推荐(0) 编辑
摘要:一.消息队列的概念 二.为何使用消息队列 三.RabbitMq 四.rabbitMq的工作模型 一.简单模式 1.最简单的模式 代码: 2.no-ack 参数的使用 上面是no-act=True的模式,就无应答的模式(默认是false),如果no-act=false(即有应答的)模式呢? 有应答的模 阅读全文
posted @ 2019-03-13 20:31 阿布_alone 阅读(222) 评论(0) 推荐(0) 编辑
摘要:第一步:下载并安装erlang 原因:RabbitMQ服务端代码是使用并发式语言Erlang编写的,安装Rabbit MQ的前提是安装Erlang。 下载地址:http://www.erlang.org/downloads 根据本机位数选择erlang下载版本。 下载完是这么个东西: 双击,点nex 阅读全文
posted @ 2019-03-13 16:09 阿布_alone 阅读(201) 评论(0) 推荐(0) 编辑
摘要:一.爬取斗鱼主播 1. 爬虫文件 2.item 3.pipeline 4.settings # -*- coding: utf-8 -*- # Scrapy settings for Douyu project # # For simplicity, this file contains only 阅读全文
posted @ 2019-03-13 14:45 阿布_alone 阅读(311) 评论(0) 推荐(0) 编辑
摘要:一.组件的概念 1.概念 所以,组件就是一个html网页中的功能,一般就是一个标签,标签中有自己的内容结构,样式和特效。 这样,前端人员就可以在开发时,只需要书写一次代码,随处引入即可使用。 组件有两种:默认组件[全局组件] 和 单文件组件 2.默认组件(全局组件) <!DOCTYPE html> 阅读全文
posted @ 2019-03-12 18:17 阿布_alone 阅读(2249) 评论(0) 推荐(0) 编辑
摘要:一.过滤器filter 概念:Vue.js 允许你自定义过滤器,可被用作一些常见的文本格式化。过滤器可以用在两个地方:mustache 插值和 v-bind 表达式。过滤器应该被添加在 JavaScript 表达式的尾部,由“管道”符指示; 代码: 注意:全局的过滤器名称是带有引号的,而局部是不带引 阅读全文
posted @ 2019-03-10 10:28 阿布_alone 阅读(320) 评论(0) 推荐(0) 编辑
摘要:一.条件渲染指令 vue中提供了两个指令可以用于判断是否要显示元素,分别是v-if和v-show。 实例: <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <meta name="viewport" content="wi 阅读全文
posted @ 2019-03-09 16:46 阿布_alone 阅读(505) 评论(0) 推荐(0) 编辑
摘要:一.Vue.js 是什么 Vue.js 是目前最火的一个前端框架,React是最流行的一个前端框架(React除了开发网站,还可以开发手机App, Vue语法也是可以用于进行手机App开发的,需要借助于Weex) Vue.js 是前端的主流框架之一,和Angular.js、React.js 一起,并 阅读全文
posted @ 2019-03-08 22:52 阿布_alone 阅读(210) 评论(0) 推荐(0) 编辑
摘要:一.scrapy框架处理 1.分页处理 以爬取亚马逊为例 爬虫文件.py 2.mongodb持久化储存以及from_crawl的使用 pipelines.py settings.py # -*- coding: utf-8 -*- # Scrapy settings for Amazon proje 阅读全文
posted @ 2019-03-07 23:30 阿布_alone 阅读(551) 评论(0) 推荐(0) 编辑
摘要:一.问题导入 scrapy能否实现分布式爬虫? 因为多台机器上部署的scrapy会各自拥有各自的调度器,这样就使得多台机器无法分配start_urls列表中的url。(多台机器无法共享同一个调度器) 多台机器爬取到的数据无法通过同一个管道对数据进行统一的数据持久出存储。(多台机器无法共享同一个管道) 阅读全文
posted @ 2019-03-07 11:09 阿布_alone 阅读(407) 评论(0) 推荐(0) 编辑
摘要:一.在python3中操作mongodb 1.连接条件 安装好pymongo库 启动mongodb的服务端(如果是前台启动后就不关闭窗口,窗口关闭后服务端也会跟着关闭) 3.使用 二.爬取腾讯招聘 爬虫文件 # -*- coding: utf-8 -*- import scrapy from Ten 阅读全文
posted @ 2019-03-06 21:41 阿布_alone 阅读(391) 评论(0) 推荐(0) 编辑
摘要:一.UA池:User-Agent池 - 作用:尽可能多的将scrapy工程中的请求伪装成不同类型的浏览器身份。 - 操作流程: 1.在下载中间件中拦截请求 2.将拦截到的请求的请求头信息中的UA进行篡改伪装 3.在配置文件中开启下载中间件 代码展示: 二.代理池 - 作用:尽可能多的将scrapy工 阅读全文
posted @ 2019-03-05 23:54 阿布_alone 阅读(1524) 评论(0) 推荐(0) 编辑
摘要:1. 进入 DOS窗口 2. 在进入Redis的安装目录 3. 输入:redis-server --service-install redis.windows.conf --loglevel verbose ( 安装redis服务 ) 4. 输入:redis-server --service-sta 阅读全文
posted @ 2019-03-05 11:43 阿布_alone 阅读(1566) 评论(0) 推荐(0) 编辑
摘要:一.mongodb简介 MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。 MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,是类似json的bso 阅读全文
posted @ 2019-03-04 21:37 阿布_alone 阅读(1176) 评论(0) 推荐(0) 编辑
摘要:一.下载 二.安装 1.自定义安装路径 2.取消install mongoDB compass,否则可能要很长时间都一直在执行安装,MongoDB Compass 是一个图形界面管理工具,我们可以在后面自己到官网下载安装,下载地址:https://www.mongodb.com/download-c 阅读全文
posted @ 2019-03-04 16:02 阿布_alone 阅读(500) 评论(0) 推荐(0) 编辑
摘要:一.什么是Fiddler? 二.手机APP抓包设置 1. Fiddler设置 打开Fiddler软件,打开工具的设置。(Fiddler软件菜单栏:Tools->Options) 在HTTPS中设置如下: 2.在Connections中设置如下,这里使用默认8888端口,当然也可以自己更改,但是注意不 阅读全文
posted @ 2019-03-03 10:49 阿布_alone 阅读(289) 评论(0) 推荐(0) 编辑
摘要:一.CrawlSpider简介 如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法)。 方法二:基于CrawlSpider的自动爬取进行实现(更加简洁和高效)。 一.简介 阅读全文
posted @ 2019-03-02 23:05 阿布_alone 阅读(226) 评论(0) 推荐(0) 编辑
摘要:一.Scrapy的日志等级 1.配置 - 设置日志信息指定输出: 在settings.py配置文件中,加入 LOG_LEVEL = ‘指定日志信息种类’即可。 LOG_FILE = 'log.txt'则表示将日志信息写入到指定文件中进行存储,设置后终端不显示日志内容 2.使用 3.扩展,在普通程序中 阅读全文
posted @ 2019-03-02 19:07 阿布_alone 阅读(1195) 评论(0) 推荐(0) 编辑
摘要:一.scrapy分页处理 1.分页处理 2.post请求 - 问题:在之前代码中,我们从来没有手动的对start_urls列表中存储的起始url进行过请求的发送,但是起始url的确是进行了请求的发送,那这是如何实现的呢? - 解答:其实是因为爬虫文件中的爬虫类继承到了Spider父类中的start_ 阅读全文
posted @ 2019-03-02 16:52 阿布_alone 阅读(1463) 评论(0) 推荐(0) 编辑
摘要:一.scrapy简介 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板。对于框架的学习,重点是要学习其框架的特性、各个功能的用法即可。 五大核心组件 阅读全文
posted @ 2019-03-01 18:13 阿布_alone 阅读(281) 评论(0) 推荐(0) 编辑

TOP
点击右上角即可分享
微信分享提示