摘要: 1.xPath简介 XPath是一门在XML和HTML文档中查找信息的语言,可以用来在XML和HTML文档中对元素和属性进行遍历 XPath的安装 Chrome插件XPath Helper 点Chrome浏览器右上角:更多工具 扩展程序 谷歌商店 勾选XPath Helper(需要FQ) 2.语法详 阅读全文
posted @ 2019-12-21 12:41 木木纸 阅读(707) 评论(0) 推荐(0) 编辑
摘要: 一.正则表达式介绍 1.学习爬虫,为什么必须会正则表达式? 有时候,我们爬取一些网页具体内容时,会发现我们只需要这个网页某个标签的一部分内容,或者是这个标签的某个属性的值时,用普通的 xpath 或者css.selector是不能实现我们的想法的,这个时候就必须用到正则表达式去匹配获取。2.正则表达 阅读全文
posted @ 2019-12-08 08:45 木木纸 阅读(200) 评论(1) 推荐(0) 编辑
摘要: python,csv,csv的写入与读取 阅读全文
posted @ 2019-11-30 15:55 木木纸 阅读(1444) 评论(1) 推荐(0) 编辑
摘要: 1.首先,我们确定需要爬取的网页及robots协议,爬取的网页为最好大学网http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html,查看robots协议打开http://www.zuihaodaxue.cn/robots.txt,发现:not fou 阅读全文
posted @ 2019-11-23 21:32 木木纸 阅读(241) 评论(0) 推荐(0) 编辑
摘要: 一.网络爬虫的尺寸 1.以爬取网页,玩转网页为目的进行小规模,数据量小对爬取速度不敏感的可以使用request库实现功能(占90%) 2.以爬取网站或爬取系列网站为目的,比如说获取一个或多个旅游网站的爬虫,对数据要求规模较大,爬取速度敏感的可以使用Scrapy库 3.以爬取全网为目的,规模很大搜索引 阅读全文
posted @ 2019-11-16 14:36 木木纸 阅读(1111) 评论(1) 推荐(1) 编辑
摘要: 1. 前言 之前实现python的网络爬虫, 主要都是使用较为底层的urllib, urllib2 实现的, 这种实现方案显得比较原始, 编码起来也比较费劲, 尤其是提取信息的时候, 还得使用正则表达是匹配 (之前转载的一篇糗事百科的爬虫文章, http://blog.csdn.net/zhyh14 阅读全文
posted @ 2019-11-10 20:52 木木纸 阅读(142) 评论(1) 推荐(0) 编辑
摘要: 一、python中对文件、文件夹操作时经常用到的os模块和shutil模块常用方法。1.得到当前工作目录,即当前Python脚本工作的目录路径: os.getcwd()2.返回指定目录下的所有文件和目录名:os.listdir()3.函数用来删除一个文件:os.remove()4.删除多个目录:os 阅读全文
posted @ 2019-11-02 18:49 木木纸 阅读(7031) 评论(1) 推荐(0) 编辑
摘要: Python 去除列表中重复的元素 来自比较容易记忆的是用内置的set 还有一种据说速度更快的,没测试过两者的速度差别 如果想要保持他们原来的排序: 用list类的sort方法 也可以这样写 也可以用遍历 上面的代码也可以这样写 这样就可以保证排序不变了: Python 求list中元素个数 阅读全文
posted @ 2019-10-24 23:18 木木纸 阅读(2052) 评论(2) 推荐(1) 编辑
摘要: Python唯一支持的参数传递方式是『共享传参』(call by sharing)多数面向对象语言都采用这一模式,包括Ruby、Smalltalk和Java(Java的引用类型是这样,基本类型按值传递)共享传参是指函数的各个形式参数获得实参中各个引用的副本;也就是说,函数内部的形参是实参的别名(al 阅读全文
posted @ 2019-10-17 12:51 木木纸 阅读(1371) 评论(1) 推荐(0) 编辑
摘要: 方法一: 因为无法确定输入个数,首先确定输入个数,输入个数为几,后面就会循环几次,如果只有一个数,则最大值和最小值相等,不止一个数时,将它们与最大值和最小值比较,如果有大于最大值则赋给最大值,如果有小于最小值,则将它赋给最小值。 方法二: 第二种:知道已知的数组求最大值和最小值 阅读全文
posted @ 2019-10-11 12:30 木木纸 阅读(1330) 评论(1) 推荐(0) 编辑