随笔分类 - python
摘要:一、自动化运维介绍 1、自动化运维产生背景 传统的IT运维是将数据中心中的网络设备、服务器、数据库、中间件、存储、虚拟化、硬件等资源进行统一监控,当资源出现告警时,运维人员通过工具或者基于经验进行排查,找出问题并加以解决。但是,随着互联网+时代的到来,移动互联网、云计算和大数据技术得到了广泛应用,从
阅读全文
摘要:需求:爬取的是基于文字的网易新闻数据(国内、国际、军事、航空)。 基于Scrapy框架代码实现数据爬取后,再将当前项目修改为基于RedisSpider的分布式爬虫形式。 一、基于Scrapy框架数据爬取实现 1、项目和爬虫文件创建 2、爬虫文件编写——解析新闻首页获取四个板块的url 执行爬虫文件,
阅读全文
摘要:一、分布式爬虫介绍 分布式爬虫概念:多台机器上执行同一个爬虫程序,实现网站数据的分布爬取。 1、原生的Scrapy无法实现分布式爬虫的原因? 调度器无法在多台机器间共享 :因为多台机器上部署的scrapy会各自拥有各自的调度器,这样就使得多台机器无法分配start_urls列表中的url。 管道无法
阅读全文
摘要:针对问题:如果想对某一个网站的全站数据进行爬取,该如何处理? 解决方案: 1. 手动请求的发送:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法) 2. CrawlSpider:基于CrawlSpider的自动爬取进行实现(更加简洁和高效) 一、Cra
阅读全文
摘要:一、Scrapy的日志等级 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息。 1、日志等级(信息种类) ERROR:错误 WARNING:警告 INFO:一般信息 DEBUG:调试信息(默认) 2、设置日志信息指定输出 在sett
阅读全文
摘要:Cookie 是在 HTTP 协议下,服务器或脚本可以维护客户工作站上信息的一种方式。Cookie 是由 Web 服务器保存在用户浏览器(客户端)上的小文本文件,它可以包含有关用户的信息。无论何时用户链接到服务器,Web 站点都可以访问 Cookie 信息cookie需要个人用户登录网站。 场景需求
阅读全文
摘要:一、介绍 持久化存储操作分为两类: 磁盘文件 和 数据库 。 而磁盘文件存储方式又分为: 基于终端指令 和 基于管道 二、基于终端指令的持久化存储 Scrapy是通过 scrapy 命令行工具进行控制的。 这里我们称之为 “Scrapy tool” 以用来和子命令进行区分。 对于子命令,我们称为 “
阅读全文
摘要:一、Scrapy介绍 1、Scrapy是什么 Scrapy 是一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛,可用于如数据挖掘、监测和自动化测试等领域,也可以应用在获取AP
阅读全文
摘要:一、selenlum介绍 selenium这个三方库,最初是一个自动化测试工具,可以实现让浏览器完成自动化的操作。 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器。 而爬虫中使用它主要是为了解决 requests无
阅读全文
摘要:一、lxml介绍 第三方库lxml是第一款表现出高性能特征的python xml库,天生支持Xpath1.0、XSLT1.0、定制元素类,甚至python风格的数据绑定接口。lxml是通过Cpython实现的,构建在两个C库上(libxml2和libxslt),为执行解析、序列化、转换等核心任务提供
阅读全文
摘要:一、urllib介绍 urllib是python中自带的一个基于爬虫的模块, 作用:urllib 模块是一个高级的 web 交流库,其核心功能就是模仿web浏览器等客户端,去请求相应的资源,并返回一个类文件对象。可以使用代码模拟浏览器发起请求。 详见官网资料:2.7.5:urllib — Open
阅读全文
摘要:一、Jupyter Notebook介绍 1、什么是Jupyter Notebook Jupyter Notebook是基于网页的用于交互计算的应用程序。其可被应用于全过编码开发、文档编写、运行代码和展示结果。——Jupyter Notebook官方介绍。 简而言之,Jupyter Notebook
阅读全文
摘要:一、介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航、查找、修改文档的方式。Beautiful Soup会帮你节省数小时甚至数天的工作时间。Beautiful Soup 3 目前已经停止开发,官网推荐在现在的项
阅读全文
摘要:一、requests介绍 Python标准库中提供了:urllib、urllib2、httplib等模块以供Http请求,但是它的 API 太渣了。它是为另一个时代、另一个互联网所创建的。它需要巨量的工作,甚至包括各种方法覆盖,来完成最简单的任务。 import urllib2 import jso
阅读全文
摘要:一、爬虫是什么 1、什么是互联网?互联网建立的目的? 互联网由网络设备和一台台计算机连接而成,像一张网一样。 互联网的核心价值在于数据的共享/传递:数据是存放于一台台计算机上的,而将计算机互联到一起的目的就是为了能够方便彼此之间的数据共享/传递,否则你只能拿U盘去别人的计算机上拷贝数据了。 2、什么
阅读全文
摘要:一、支付宝申请 支付宝申请管理地址:https://openhome.alipay.com/platform/appDaily.htm?tab=info 扫码登陆后,申请个人开发者通过后,进入蚂蚁金服开放平台。 1、正式环境 这个需要真实的营业执照去绑定。略过。 2、沙箱测试环境 沙箱环境从开发者中
阅读全文
摘要:一、什么是Django ContentTypes? Django ContentTypes是由Django框架提供的一个核心功能,它对当前项目中所有基于Django驱动的model提供了更高层次的抽象接口。主要用来创建模型间的通用关系(generic relation)。 进一步了解ContentT
阅读全文
摘要:一、基于api前端显示课程详细信息 1、调整Course.vue模块 显示效果: 2、调整Detail.vue模块 显示效果: 二、推荐课程切换及详情展示 1、测试使用router-link是否合适 对Detail.vue修改如下: 给推荐课程添加链接地址,点击可以实现url切换,但是由于组件没有重
阅读全文
摘要:一、为什么要做前后端分离项目 1、满足多端适配 随着移动端的兴起,现在公司产品不只限于pc端的,包括Android,IOS。 按照以前的方式,我们后端其实就要有多套,pc一套,APP端两套。开发成本以及开发效率会很低,如果前后端分离,我们后端只需要有一套就可以了~ 后端只提供接口,前端不管是pc还是
阅读全文
摘要:python面试题——基础篇(80题) python面试题——网络编程和并发(34题) python面试题——数据库和缓存(46题) python面试题——前端(23题) python面试题——框架和其他(132题) python面试题——爬虫相关
阅读全文