摘要: 一、XPath 全称 XML Path Language 是一门在XML文档中 查找信息的语言 最初是用来搜寻XML文档的 但是它同样适用于HTML文档的搜索 XPath 的选择功能十分强大,它提供了非常简洁的路径选择表达式,另外还提供了超过100个内置函数,用于字符串,数值,时间的匹配以及节点和序 阅读全文
posted @ 2019-01-17 11:58 贫道从来不吃素 阅读(314) 评论(0) 推荐(0) 编辑
摘要: 利用requests库和正则表达式 抓取猫眼电影TOP100 (requests比urllib使用更方便,由于没有学习HTML系统解析库 选用re) 1.目标 抓取电影名称 时间 评分 图片等 url http://maoyan.com/board/4 结果以文件形式保存 2.分析 offset 代 阅读全文
posted @ 2019-01-17 11:44 贫道从来不吃素 阅读(342) 评论(0) 推荐(0) 编辑
摘要: 一、正则表达式(处理字符串强大的工具,有特定的语法结构)功能:实现字符串的检索,替换,匹配验证实例: 地址:http://tool.oschina.net/regex/ #测试文本Hello,my phone number is 010-86432100 and email is pindao@xi 阅读全文
posted @ 2019-01-17 11:21 贫道从来不吃素 阅读(468) 评论(0) 推荐(0) 编辑
摘要: 一、requests 库使用 需要安装 pip install requests 如果要添加额外的信息 例如 name = germey age = 22 可以简单写 实际上返回应该是json格式的str 所以直接解析返回结果可以使用json方法 调用json()方法 将返回结果是json格式的字符 阅读全文
posted @ 2019-01-17 11:16 贫道从来不吃素 阅读(1371) 评论(0) 推荐(0) 编辑
摘要: 安装python后 自带urllib库 模块篇 分为几个模块如下: 1. urllib.request 请求模块 2. urllib.parse 分析模块 3. urllib.error 异常处理模块 4. urllib.robotparser robots文本协议识别 用的比较少 方法篇 分为以下 阅读全文
posted @ 2019-01-17 10:52 贫道从来不吃素 阅读(319) 评论(0) 推荐(0) 编辑