摘要:
简历模板批量下载 思路 1.首先研究分页,发现除了第一页请求特例,后面页数有规律 2.研究html,找到简历的下载界面 3.进入下载界面,找到下载链接 4.通过下载链接下载数据,保存本地 import requests from lxml import etree import os headers 阅读全文
摘要:
xpath的| 相当与交集 本爬虫爬取的是热门城市和全国城市,但是由于爬取的规则不同,所以在同一个xpath中使用了两种规则 阅读全文
摘要:
import this (具体实现方法和原理参考:http://www.ituring.com.cn/article/507009) 当运行import this这段代码时,会输出 以上就是Pythonic方式 阅读全文
摘要:
4k图片爬取+中文乱码 此案例有三种乱码解决方法,推荐第一种 4k图片爬取其实和普通图片爬取的过程是没有本质区别的 阅读全文
摘要:
xpath xpath两种使用方式 和bs类似,一种是调用本地资源,一种是网络资源 xpath表达式 层级:/一个层级 //多个层级 (注意如果从html开始取,要在前面加一个/ 写成/html,局部./li) 属性定位:类似//div[@class='zx'] 索引取值: 类似p[3](注意xpa 阅读全文
摘要:
(. ?)实验室 ['www', '', '', 'www', '', '', 'www', '', ''] ['', '', '', '', '', '', '', '', '', '', '', '', '', '', ''] ['www', 'www', 'www'] ['w', 'w', ' 阅读全文
摘要:
循环导入 a.py b.py 以a.py为执行文件 出现了以上错误,大概意思就是在 中没有找到 这个属性 执行流程 是啥? 是一个全局字典,该字典是python启动后就加载在内存中。每当程序员导入新的模块,sys.modules都将记录这些模块。字典sys.modules对于加载模块起到了缓冲的作用 阅读全文
摘要:
bs4 安装 bs4有两种运行方式一种是处理本地资源,一种是处理网络资源 本地 网络 实例化对象的方法 soup.tagname 直接返回第一个 标签的内容 soup.find() soup.find_all() soup.select() 获取标签的文本内容 获取标签中的属性值 基本使用 案例爬取 阅读全文
摘要:
糗图 图片爬取 主要思路 1.来到首页,查看主页有用图片存在html的规律 2.编写re提取图片路径 3.右键图片查看请求图片的具体路径 4.拼接图片请求路径 5.查看下一页界面的路径,找到界面请求路径规律 6.work,多界面爬取指定图片爬虫 import requests import re i 阅读全文
摘要:
re实战记录 针对网页中的空格符 一般使用的 ,但是它不能匹配 ,所以使用 或者 匹配所有字符 import re l1=r''' ''' print(re.findall('[\d\D] ? 阅读全文