木木纸

2019年12月21日

摘要： 1.xPath简介 XPath是一门在XML和HTML文档中查找信息的语言，可以用来在XML和HTML文档中对元素和属性进行遍历 XPath的安装 Chrome插件XPath Helper 点Chrome浏览器右上角：更多工具扩展程序谷歌商店勾选XPath Helper（需要FQ） 2.语法详阅读全文

posted @ 2019-12-21 12:41 木木纸阅读(707) 评论(0) 推荐(0) 编辑

2019年12月8日

初学爬虫（3）

摘要：一.正则表达式介绍 1.学习爬虫，为什么必须会正则表达式？有时候，我们爬取一些网页具体内容时，会发现我们只需要这个网页某个标签的一部分内容，或者是这个标签的某个属性的值时，用普通的 xpath 或者css.selector是不能实现我们的想法的，这个时候就必须用到正则表达式去匹配获取。2.正则表达阅读全文

posted @ 2019-12-08 08:45 木木纸阅读(200) 评论(1) 推荐(0) 编辑

2019年11月30日

python操作csv文件

摘要： python,csv,csv的写入与读取阅读全文

posted @ 2019-11-30 15:55 木木纸阅读(1444) 评论(1) 推荐(0) 编辑

2019年11月23日

初学爬虫（二）

摘要： 1.首先，我们确定需要爬取的网页及robots协议，爬取的网页为最好大学网http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html，查看robots协议打开http://www.zuihaodaxue.cn/robots.txt，发现：not fou 阅读全文

posted @ 2019-11-23 21:32 木木纸阅读(241) 评论(0) 推荐(0) 编辑

2019年11月16日

网络爬虫引发的问题及robots协议

摘要：一.网络爬虫的尺寸 1.以爬取网页，玩转网页为目的进行小规模，数据量小对爬取速度不敏感的可以使用request库实现功能（占90%） 2.以爬取网站或爬取系列网站为目的，比如说获取一个或多个旅游网站的爬虫，对数据要求规模较大，爬取速度敏感的可以使用Scrapy库 3.以爬取全网为目的，规模很大搜索引阅读全文

posted @ 2019-11-16 14:36 木木纸阅读(1111) 评论(1) 推荐(1) 编辑

2019年11月10日

初学爬虫（一）

摘要： 1. 前言之前实现python的网络爬虫，主要都是使用较为底层的urllib， urllib2 实现的，这种实现方案显得比较原始，编码起来也比较费劲，尤其是提取信息的时候，还得使用正则表达是匹配（之前转载的一篇糗事百科的爬虫文章， http://blog.csdn.net/zhyh14 阅读全文

posted @ 2019-11-10 20:52 木木纸阅读(142) 评论(1) 推荐(0) 编辑

2019年11月2日

python文件和目录操作方法大全

摘要：一、python中对文件、文件夹操作时经常用到的os模块和shutil模块常用方法。1.得到当前工作目录，即当前Python脚本工作的目录路径: os.getcwd()2.返回指定目录下的所有文件和目录名:os.listdir()3.函数用来删除一个文件:os.remove()4.删除多个目录：os 阅读全文

posted @ 2019-11-02 18:49 木木纸阅读(7031) 评论(1) 推荐(0) 编辑

2019年10月24日

删除列表中重复元素以及求list中元素个数

摘要： Python 去除列表中重复的元素来自比较容易记忆的是用内置的set 还有一种据说速度更快的，没测试过两者的速度差别如果想要保持他们原来的排序：用list类的sort方法也可以这样写也可以用遍历上面的代码也可以这样写这样就可以保证排序不变了： Python 求list中元素个数阅读全文

posted @ 2019-10-24 23:18 木木纸阅读(2052) 评论(2) 推荐(1) 编辑

2019年10月17日

python函数中参数的传递

摘要： Python唯一支持的参数传递方式是『共享传参』（call by sharing）多数面向对象语言都采用这一模式，包括Ruby、Smalltalk和Java（Java的引用类型是这样，基本类型按值传递）共享传参是指函数的各个形式参数获得实参中各个引用的副本；也就是说，函数内部的形参是实参的别名（al 阅读全文

posted @ 2019-10-17 12:51 木木纸阅读(1371) 评论(1) 推荐(0) 编辑

2019年10月11日

求若干数的最大值和最小值

摘要：方法一：因为无法确定输入个数，首先确定输入个数，输入个数为几，后面就会循环几次，如果只有一个数，则最大值和最小值相等，不止一个数时，将它们与最大值和最小值比较，如果有大于最大值则赋给最大值，如果有小于最小值，则将它赋给最小值。方法二：第二种：知道已知的数组求最大值和最小值阅读全文

posted @ 2019-10-11 12:30 木木纸阅读(1330) 评论(1) 推荐(0) 编辑

公告