2019 年 1月 17 日随笔档案 - 贫道从来不吃素

2019年1月17日

摘要：一、XPath 全称 XML Path Language 是一门在XML文档中查找信息的语言最初是用来搜寻XML文档的但是它同样适用于HTML文档的搜索 XPath 的选择功能十分强大，它提供了非常简洁的路径选择表达式，另外还提供了超过100个内置函数，用于字符串，数值，时间的匹配以及节点和序阅读全文

posted @ 2019-01-17 11:58 贫道从来不吃素阅读(318) 评论(0) 推荐(0) 编辑

Python3编写网络爬虫04-爬取猫眼电影排行实例

摘要：利用requests库和正则表达式抓取猫眼电影TOP100 （requests比urllib使用更方便，由于没有学习HTML系统解析库选用re） 1.目标抓取电影名称时间评分图片等 url http://maoyan.com/board/4 结果以文件形式保存 2.分析 offset 代阅读全文

posted @ 2019-01-17 11:44 贫道从来不吃素阅读(346) 评论(0) 推荐(0) 编辑

Python3编写网络爬虫03-正则表达式的使用

摘要：一、正则表达式（处理字符串强大的工具，有特定的语法结构）功能：实现字符串的检索，替换，匹配验证实例：地址：http://tool.oschina.net/regex/ #测试文本Hello,my phone number is 010-86432100 and email is pindao@xi 阅读全文

posted @ 2019-01-17 11:21 贫道从来不吃素阅读(474) 评论(0) 推荐(0) 编辑

Python3编写网络爬虫02-基本请求库requests的使用

摘要：一、requests 库使用需要安装 pip install requests 如果要添加额外的信息例如 name = germey age = 22 可以简单写实际上返回应该是json格式的str 所以直接解析返回结果可以使用json方法调用json（）方法将返回结果是json格式的字符阅读全文

posted @ 2019-01-17 11:16 贫道从来不吃素阅读(1405) 评论(0) 推荐(0) 编辑

Python3编写网络爬虫01-基本请求库urllib的使用

摘要：安装python后自带urllib库模块篇分为几个模块如下： 1. urllib.request 请求模块 2. urllib.parse 分析模块 3. urllib.error 异常处理模块 4. urllib.robotparser robots文本协议识别用的比较少方法篇分为以下阅读全文

posted @ 2019-01-17 10:52 贫道从来不吃素阅读(324) 评论(0) 推荐(0) 编辑

贫道从来不吃素

公告