2018 年 7月 20 日随笔档案 - 流年不见我

2018年7月20日

摘要： 4.2 BeautifulSoup的使用前面我们介绍了正则表达式的相关用法，但是一旦正则写的有问题，可能得到的就不是我们想要的结果了，而且对于一个网页来说，都有一定的特殊的结构和层级关系，而且很多节点都有id或class来对作区分，所以我们借助于它们的结构和属性来提取不也是可以的吗？所以，这一节阅读全文

posted @ 2018-07-20 11:40 流年不见我阅读(264) 评论(0) 推荐(0) 编辑

第四章解析库的使用 4.1 XPath的使用

摘要：第四章解析库的使用上一节我们实现了一个最基本的爬虫，但提取页面信息时我们使用的是正则表达式，用过之后我们会发现构造一个正则表达式还是比较的繁琐的，而且万一有一点地方写错了就可能会导致匹配失败，所以使用正则来提取页面信息多多少少还是有些不方便的。对于网页的节点来说，它可以定义 id、class 阅读全文

posted @ 2018-07-20 10:19 流年不见我阅读(266) 评论(0) 推荐(0) 编辑

流年不见我

公告