方木Fengl - 博客园

python爬虫（十三） lxml模块

摘要： lxml是一个HTML/XML的解析库，主要功能是如何解析和提取HTML/XML数据 lxml和正则一样，是用c实现的，我们可以用XPath语法，来快速的定位特定元素以及节点信息。需要用到pip。使用： 1、解析一段html的字符串 from lxml import etree text=""" 阅读全文

posted @ 2020-02-29 20:49 方木Fengl 阅读(1077) 评论(0) 推荐(0) 编辑

python爬虫（十二） XPath语法

摘要：之前学习得是如何进行网络请求，现在开始学习如何进行数据提取一、选取节点：在火狐浏览器中，首先要有一个try xpath插件，例如要找网页中所有得div，就在插件中搜索就会把所有的div圈出来： 1、/ 就是在根节点下查找元素（直接子元素）例如：根节点下没有div,所以数量为0.div为子阅读全文

posted @ 2020-02-29 19:58 方木Fengl 阅读(426) 评论(0) 推荐(0) 编辑

python爬虫（十一） session

摘要：这是一个会话对象，对目标服务器得请求通过session来完成例如人人网爬取大鹏主页信息， # requests使用session,不用登录查看人人网大鹏信息 import requests url='http://www.renren.com/PLogin.do' id = input('请输入用阅读全文

posted @ 2020-02-29 18:13 方木Fengl 阅读(2127) 评论(0) 推荐(0) 编辑

python爬虫（十） requests使用代理ip

摘要：请求时，先将请求发给代理服务器，代理服务器请求目标服务器，然后目标服务器将数据传给代理服务器，代理服务器再将数据给爬虫。代理服务器是经常变化的使用代理服务器时传一个参数：proxy。是一个字典的形式。通过网址：httpbin.org/ip可以看到当前请求得ip地址：再快代理官网，点击开放代理阅读全文

posted @ 2020-02-29 16:59 方木Fengl 阅读(12212) 评论(0) 推荐(0) 编辑

python爬虫（九） requests库之post请求

摘要： 1、方法： response=requests.post("https://www.baidu.com/s",data=data) 2、拉勾网职位信息获取因为拉勾网设置了反爬虫机制，在拉勾网中，一些页面的信息获取方法是post,所以就用到了post方法在拉勾网中，我们搜索与python相关的职业阅读全文

posted @ 2020-02-27 23:17 方木Fengl 阅读(4415) 评论(0) 推荐(0) 编辑

python爬虫（八） requests库之 get请求

摘要： requests库比urllib库更加方便，包含了很多功能。 1、在使用之前需要先安装pip，在pycharm中打开：写入pip install requests命令，即可下载在github中有关于requests库的介绍，网址：https://github.com/requests/reque 阅读全文

posted @ 2020-02-27 20:52 方木Fengl 阅读(3841) 评论(0) 推荐(0) 编辑

python爬虫（七） mozillacookiejar

摘要： MozillaCookiejar 保存百度得Cookiejar信息： from urllib import request from urllib import parse from http.cookiejar import MozillaCookieJar # 保存在本地 cookiejar=M 阅读全文

posted @ 2020-02-25 22:49 方木Fengl 阅读(1158) 评论(0) 推荐(0) 编辑

python爬虫（六） Cookie

摘要：什么是Cookie 在网站中，http的请求通常是无状态的（第一个和服务器连接并且登录之后，此时服务器知道是哪个用户，但是当第二次请求服务器时，服务器依然不知道当前请求的是哪个用户），cookie就是为了解决这个问题，第一次登录服务器后，服务器会返回与刚刚用户相关的数据（也就是cookie）给浏览器阅读全文

posted @ 2020-02-25 20:32 方木Fengl 阅读(2269) 评论(0) 推荐(0) 编辑

系统可用性

摘要：一个网站、系统的战术包括可用性战术、可修改性战术、性能战术、安全性战术、可测试性战术、易用性战术。质量需求指定了软件的响应，以实现业务目标，战术是影响质量属性响应的设计决策，构架策略是战术的集合，构架模式是以某种方式将战术打包在一起。可用性是在某个考察时间，系统能够正常运行的概率或时间占有率期望值。阅读全文

posted @ 2020-02-25 18:01 方木Fengl 阅读(1018) 评论(0) 推荐(0) 编辑

如何在代码层实现可测试性-以《热词分析》代码为例

摘要：系统的质量属性包括六类，分别是：可用性、可修改性、性能、安全性、可测试性、易用性。其中可测试性是非执行就可见的质量因素。是指通过测试揭示软件缺陷的难易程度，如果在软件中有错误，可测试性就表示软件在下次运行时不能正常运行的可能性。例如《热词分析》的程序，因为我写的《热词分析》程序是java与微信小程序阅读全文

posted @ 2020-02-25 12:26 方木Fengl 阅读(510) 评论(0) 推荐(0) 编辑

zhaoxinhui

导航

公告