摘要: 一、安装 二、使用 三、查看版本 阅读全文
posted @ 2019-03-21 09:45 洛丶丶丶 阅读(1358) 评论(0) 推荐(0) 编辑
摘要: 1.简述 OSI 七层协议。 OSI 开放系统互联参考模型,它是理论的,参考模型 七层:物理层->数据链路层->网络层->传输层->会话层->表示层->应用层 2.什么是C/S和B/S架构? c/s : 客户端/服务端 b/s : 浏览器/服务端 3.简述 三次握手、四次挥手的流程。 详情 4.什么 阅读全文
posted @ 2019-03-12 14:58 洛丶丶丶 阅读(320) 评论(0) 推荐(0) 编辑
摘要: 1.列举常见的关系型数据库和非关系型都有那些? 关系型 : MySQL,SQL Server ,Oracle , Sybase, DB2 非关系型 : Redis, MongodDB 2.MySQL常见数据库引擎及比较? InnoDB,MyISAM,NDB,Memory等 3.简述数据三大范式? 1 阅读全文
posted @ 2019-03-12 14:58 洛丶丶丶 阅读(250) 评论(0) 推荐(0) 编辑
摘要: 1. 为什什么学习Python? Life is short, You need Python 2. 通过什什么途径学习的Python? pass 3. Python和Java、PHP、C、C#、C++等其他语⾔言的对比? pass 4. 简述解释型和编译型编程语言? 将由高级语言编写的程序文件转换 阅读全文
posted @ 2019-03-09 22:19 洛丶丶丶 阅读(509) 评论(0) 推荐(0) 编辑
摘要: 一、安装并配置必要的依赖关系 首先要在CentOS系统上面安装所需的依赖:ssh、防火墙、postfix(用于邮件通知)、wegt,以下这些命令也会打开系统防火墙中的HTTP和SSH端口访问。 1、安装SSH协议 yum install -y curl policycoreutils-python 阅读全文
posted @ 2019-03-09 17:47 洛丶丶丶 阅读(146) 评论(0) 推荐(0) 编辑
摘要: Git介绍 诞生 同生活中的许多伟大事物一样,Git 诞生于一个极富纷争大举创新的年代。 Linux 内核开源项目有着为数众多的参与者。 绝大多数的 Linux 内核维护工作都花在了提交补丁和保存归档的繁琐事务上(1991-2002年间)。 到 2002 年,整个项目组开始启用一个专有的分布式版本控 阅读全文
posted @ 2019-03-09 16:10 洛丶丶丶 阅读(257) 评论(0) 推荐(0) 编辑
摘要: 今天来聊一聊 Python 的 ORM 框架 SQLAlchemy SQLAlchemy 没有 Django 的 Models 好用!因为models是Django自带的ORM框架,也正是因为是Django原生的,所以兼容性远远不如SQLAlchemy 真正算得上全面的ORM框架必然是我们的SQLA 阅读全文
posted @ 2019-02-19 20:34 洛丶丶丶 阅读(186) 评论(0) 推荐(0) 编辑
摘要: redis分布式部署 scrapy框架是否可以自己实现分布式? 不可以原因有两点 基于scrapy-redis组件的分布式爬虫 scrapy-redis组件中为我们封装好了可以被多台机器共享的调度器和管道,我们可以直接使用并实现分布式数据爬取 实现方式: 分布式实现流程: 代码如下 1.创建项目和应 阅读全文
posted @ 2019-01-16 19:56 洛丶丶丶 阅读(210) 评论(0) 推荐(0) 编辑
摘要: 提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法)。 方法二:基于CrawlSpider的自动爬取进行实现(更加简洁和高效) 简介 CrawlSpider其实是Sp 阅读全文
posted @ 2019-01-16 19:23 洛丶丶丶 阅读(172) 评论(0) 推荐(0) 编辑
摘要: 动态爬虫 在通过scrapy框架进行某些网站数据爬取的时候,往往会碰到页面动态数据加载的情况发生,如果直接使用scrapy对其url发请求,是绝对获取不到那部分动态加载出来的数据值。但是通过观察我们会发现,通过浏览器进行url请求发送则会加载出对应的动态加载出的数据。那么如果我们想要在scrapy也 阅读全文
posted @ 2019-01-15 21:51 洛丶丶丶 阅读(740) 评论(0) 推荐(0) 编辑
摘要: 请求传参 在某些情况下,我们爬取的数据不在同一个页面中,例如,我们爬取一个电影网站,电影的名称,评分在一级页面,而要爬取的其他电影详情在其二级子页面中。这时我们就需要用到请求传参 案例展示:爬取http://www.55xia.com电影网,将一级页面中的电影名称,名字,评分 二级页面中的导演,演员 阅读全文
posted @ 2019-01-14 22:16 洛丶丶丶 阅读(253) 评论(0) 推荐(0) 编辑
摘要: 递归解析 递归爬取解析多页页面数据 每一个页面对应一个url,则scrapy工程需要对每一个页码对应的url依次发起请求,然后通过对应的解析方法进行作者和段子内容的解析。 实现方案: 1.将每一个页码对应的url存放到爬虫文件的起始url列表(start_urls)中。(不推荐) 2.使用Reque 阅读全文
posted @ 2019-01-14 21:08 洛丶丶丶 阅读(260) 评论(0) 推荐(0) 编辑
摘要: 终端指令的持久化存储 保证爬虫文件的parse方法中有可迭代类型对象(通常为列表or字典)的返回,该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作。 需求是:将糗百首页中段子的内容和标题进行爬取 新建项目流程 settings 文件 qiubai文件编辑内容为 执行爬虫应用 * 执行 阅读全文
posted @ 2019-01-13 21:59 洛丶丶丶 阅读(137) 评论(0) 推荐(0) 编辑
摘要: 什么是Scrapy 安装 基础使用 1.创建项目:scrapy startproject 项目名称 项目结构: project_name/ scrapy.cfg: project_name/ __init__.py items.py pipelines.py settings.py spiders/ 阅读全文
posted @ 2019-01-11 21:01 洛丶丶丶 阅读(214) 评论(0) 推荐(0) 编辑
摘要: 1:请在“运行”,即下面这个地方输入certmgr.msc并回车,打开证书管理。 打开后,请点击操作--查找证书,如下所示: 然后输入“fiddler”查找所有相关证书,如下所示: 可以看到,我们找到一个,您可能会找到多个,不要紧,有多少个删多少个,全删之后,这一步完成 2:再接下来,打开火狐浏览器 阅读全文
posted @ 2019-01-10 22:12 洛丶丶丶 阅读(1080) 评论(0) 推荐(0) 编辑
摘要: selenium selenium是什么? 环境搭建 导包 使用 select下拉菜单选择 行为链 cookie操作 等待 1. 隐式等待 2. 显式等待 js代码执行和窗口切换 ip代理 注意:如果是Anaconda3的jupyter的情况,不能直接下载到本地的cpython解释器 要在Anaco 阅读全文
posted @ 2019-01-10 21:37 洛丶丶丶 阅读(333) 评论(0) 推荐(0) 编辑
摘要: 图片懒加载 图片懒加载概念: 图片懒加载是一种网页优化技术。图片作为一种网络资源,在被请求时也与普通静态资源一样,将占用网络资源,而一次性将整个页面的所有图片加载完,将大大增加页面的首屏加载时间。为了解决这种问题,通过前后端配合,使图片仅在浏览器当前视窗内出现时才加载该图片,达到减少首屏图片请求数的 阅读全文
posted @ 2019-01-10 17:58 洛丶丶丶 阅读(904) 评论(0) 推荐(0) 编辑
摘要: 代理 爬虫中为什么需要使用代理 代理的分类 免费代理ip提供网站 简单运用示例 不受信任的网站 例如有些网站的证书不被ca认证的 添加verify = False 就可以了。 乱码 1. 2. 其他编码可看这里 https://www.cnblogs.com/clbao/articles/11697 阅读全文
posted @ 2019-01-10 17:49 洛丶丶丶 阅读(757) 评论(0) 推荐(0) 编辑
摘要: 一.正解解析 常用正则表达式回顾: 爬取糗百数据 二.xpath解析 xpath介绍 https://www.cnblogs.com/clbao/articles/10803582.html 1.本地文件 2.网络数据 测试页面数据 58二手房数据 阅读全文
posted @ 2019-01-10 16:48 洛丶丶丶 阅读(747) 评论(0) 推荐(0) 编辑
摘要: 一.urllib库简介 简介 Urllib是Python内置的HTTP请求库。其主要作用就是可以通过代码模拟浏览器发送请求。它包含四个模块: 相比Python2与3变化: 其常被用到的子模块在Python3中的为urllib.request和urllib.parse,在Python2中是urllib 阅读全文
posted @ 2019-01-10 16:31 洛丶丶丶 阅读(224) 评论(0) 推荐(0) 编辑
摘要: requests模块 什么是requests模块 requests模块是python中原生的基于网络请求的模块,其主要作用是用来模拟浏览器发起请求。功能强大,用法简洁高效。在爬虫领域中占据着半壁江山的地位 安装 requests库7个主要方法 方法说明 requsts.requst() 构造一个请求 阅读全文
posted @ 2019-01-10 15:47 洛丶丶丶 阅读(177) 评论(0) 推荐(0) 编辑
摘要: python网络爬虫的简单介绍 基础储备 # 友情提示 : # 了解下 http和https的概念 # python基础 python网络爬虫的简单介绍 基础储备 基础储备 # 友情提示 : # 了解下 http和https的概念 # python基础 什么是爬虫 爬虫就是通过编写程序模拟浏览器上网 阅读全文
posted @ 2019-01-10 15:34 洛丶丶丶 阅读(229) 评论(0) 推荐(0) 编辑
摘要: 1.Mongodb安装 2.mongodb的增删改查 3.MongoDB数据类型 4.Mongodb $关键字 $修改器 5.MongoDB 之 "$" 的奇妙用法 6.MongoDB 之 Array Object 的特殊操作 7.MongoDB 之 Limit 选取 Skip 跳过 Sort 排序 阅读全文
posted @ 2018-12-26 15:55 洛丶丶丶 阅读(171) 评论(0) 推荐(0) 编辑
摘要: 环境需求:flask,websocket第三方包 目录结构 web中实现群聊 ws_群聊.py文件 # 实现一个websocket 先下载包 gevent-websocket from flask import Flask, request, render_template from geventw 阅读全文
posted @ 2018-12-24 21:53 洛丶丶丶 阅读(224) 评论(0) 推荐(0) 编辑
摘要: flask没有ORM操作这一功能, 但是想要操作数据库怎么办呢, 使用第三方包DBUtils 查询需要SQL原生语句! DBUtils 第一步还是要下载 阅读全文
posted @ 2018-12-18 22:18 洛丶丶丶 阅读(303) 评论(0) 推荐(0) 编辑