摘要:
lxml是一个HTML/XML的解析库,主要功能是如何解析和提取HTML/XML数据 lxml和正则一样,是用c实现的,我们可以用XPath语法,来快速的定位特定元素以及节点信息。需要用到pip。 使用: 1、解析一段html的字符串 from lxml import etree text=""" 阅读全文
摘要:
之前学习得是如何进行网络请求,现在开始学习如何进行数据提取 一、选取节点: 在火狐浏览器中,首先要有一个try xpath插件, 例如要找网页中所有得div,就在插件中搜索 就会把所有的div圈出来: 1、/ 就是在根节点下查找元素(直接子元素) 例如: 根节点下没有div,所以数量为0.div为子 阅读全文
摘要:
这是一个会话对象,对目标服务器得请求通过session来完成 例如人人网爬取大鹏主页信息, # requests使用session,不用登录查看人人网大鹏信息 import requests url='http://www.renren.com/PLogin.do' id = input('请输入用 阅读全文
摘要:
请求时,先将请求发给代理服务器,代理服务器请求目标服务器,然后目标服务器将数据传给代理服务器,代理服务器再将数据给爬虫。 代理服务器是经常变化的 使用代理服务器时传一个参数:proxy。是一个字典的形式。 通过网址:httpbin.org/ip可以看到当前请求得ip地址: 再快代理官网,点击开放代理 阅读全文
摘要:
1、方法: response=requests.post("https://www.baidu.com/s",data=data) 2、拉勾网职位信息获取 因为拉勾网设置了反爬虫机制,在拉勾网中,一些页面的信息获取方法是post,所以就用到了post方法 在拉勾网中,我们搜索与python相关的职业 阅读全文
摘要:
requests库比urllib库更加方便,包含了很多功能。 1、在使用之前需要先安装pip,在pycharm中打开: 写入pip install requests命令,即可下载 在github中有关于requests库的介绍,网址:https://github.com/requests/reque 阅读全文
摘要:
MozillaCookiejar 保存百度得Cookiejar信息: from urllib import request from urllib import parse from http.cookiejar import MozillaCookieJar # 保存在本地 cookiejar=M 阅读全文
摘要:
什么是Cookie 在网站中,http的请求通常是无状态的(第一个和服务器连接并且登录之后,此时服务器知道是哪个用户,但是当第二次请求服务器时,服务器依然不知道当前请求的是哪个用户),cookie就是为了解决这个问题,第一次登录服务器后,服务器会返回与刚刚用户相关的数据(也就是cookie)给浏览器 阅读全文
摘要:
一个网站、系统的战术包括可用性战术、可修改性战术、性能战术、安全性战术、可测试性战术、易用性战术。质量需求指定了软件的响应,以实现业务目标,战术是影响质量属性响应的设计决策,构架策略是战术的集合,构架模式是以某种方式将战术打包在一起。可用性是在某个考察时间,系统能够正常运行的概率或时间占有率期望值。 阅读全文
摘要:
系统的质量属性包括六类,分别是:可用性、可修改性、性能、安全性、可测试性、易用性。其中可测试性是非执行就可见的质量因素。是指通过测试揭示软件缺陷的难易程度,如果在软件中有错误,可测试性就表示软件在下次运行时不能正常运行的可能性。例如《热词分析》的程序,因为我写的《热词分析》程序是java与微信小程序 阅读全文