zx125

2019年8月26日

摘要：简历模板批量下载思路 1.首先研究分页，发现除了第一页请求特例，后面页数有规律 2.研究html，找到简历的下载界面 3.进入下载界面，找到下载链接 4.通过下载链接下载数据，保存本地 import requests from lxml import etree import os headers 阅读全文

posted @ 2019-08-26 09:41 zx125 阅读(531) 评论(0) 推荐(0) 编辑

2019年8月25日

xpath的|

摘要： xpath的| 相当与交集本爬虫爬取的是热门城市和全国城市，但是由于爬取的规则不同，所以在同一个xpath中使用了两种规则阅读全文

posted @ 2019-08-25 21:28 zx125 阅读(161) 评论(0) 推荐(0) 编辑

Pythonic

摘要： import this （具体实现方法和原理参考:http://www.ituring.com.cn/article/507009）当运行import this这段代码时，会输出以上就是Pythonic方式阅读全文

posted @ 2019-08-25 20:51 zx125 阅读(166) 评论(0) 推荐(0) 编辑

4k图片爬取+中文乱码

摘要： 4k图片爬取+中文乱码此案例有三种乱码解决方法，推荐第一种 4k图片爬取其实和普通图片爬取的过程是没有本质区别的阅读全文

posted @ 2019-08-25 20:40 zx125 阅读(374) 评论(0) 推荐(0) 编辑

xpath-房价爬取

摘要： xpath xpath两种使用方式和bs类似，一种是调用本地资源，一种是网络资源 xpath表达式层级：/一个层级 //多个层级（注意如果从html开始取，要在前面加一个/ 写成/html，局部./li) 属性定位:类似//div[@class='zx'] 索引取值: 类似p[3]（注意xpa 阅读全文

posted @ 2019-08-25 16:31 zx125 阅读(356) 评论(0) 推荐(0) 编辑

2019年8月24日

（.*?）实验室

摘要：（. ?）实验室 ['www', '', '', 'www', '', '', 'www', '', ''] ['', '', '', '', '', '', '', '', '', '', '', '', '', '', ''] ['www', 'www', 'www'] ['w', 'w', ' 阅读全文

posted @ 2019-08-24 20:19 zx125 阅读(209) 评论(0) 推荐(1) 编辑

模块的循环导入

摘要：循环导入 a.py b.py 以a.py为执行文件出现了以上错误,大概意思就是在中没有找到这个属性执行流程是啥？是一个全局字典，该字典是python启动后就加载在内存中。每当程序员导入新的模块，sys.modules都将记录这些模块。字典sys.modules对于加载模块起到了缓冲的作用阅读全文

posted @ 2019-08-24 19:27 zx125 阅读(223) 评论(0) 推荐(0) 编辑

bs4-爬取小说

摘要： bs4 安装 bs4有两种运行方式一种是处理本地资源，一种是处理网络资源本地网络实例化对象的方法 soup.tagname 直接返回第一个标签的内容 soup.find() soup.find_all() soup.select() 获取标签的文本内容获取标签中的属性值基本使用案例爬取阅读全文

posted @ 2019-08-24 18:34 zx125 阅读(737) 评论(1) 推荐(1) 编辑

糗图-图片爬取

摘要：糗图图片爬取主要思路 1.来到首页，查看主页有用图片存在html的规律 2.编写re提取图片路径 3.右键图片查看请求图片的具体路径 4.拼接图片请求路径 5.查看下一页界面的路径，找到界面请求路径规律 6.work,多界面爬取指定图片爬虫 import requests import re i 阅读全文

posted @ 2019-08-24 14:25 zx125 阅读(864) 评论(0) 推荐(1) 编辑

re实战记录

摘要： re实战记录针对网页中的空格符一般使用的，但是它不能匹配 ,所以使用或者匹配所有字符 import re l1=r''' ''' print(re.findall('[\d\D] ? 阅读全文

posted @ 2019-08-24 13:57 zx125 阅读(179) 评论(0) 推荐(0) 编辑

公告