摘要: 4.2 BeautifulSoup的使用 前面我们介绍了正则表达式的相关用法,但是一旦正则写的有问题,可能得到的就不是我们想要的结果了,而且对于一个网页来说,都有一定的特殊的结构和层级关系,而且很多节点都有id或class来对作区分,所以我们借助于它们的结构和属性来提取不也是可以的吗? 所以,这一节 阅读全文
posted @ 2018-07-20 11:40 流年不见我 阅读(264) 评论(0) 推荐(0) 编辑
摘要: 第四章 解析库的使用 上一节我们实现了一个最基本的爬虫,但提取页面信息时我们使用的是正则表达式,用过之后我们会发现构造一个正则表达式还是比较的繁琐的,而且万一有一点地方写错了就可能会导致匹配失败,所以使用正则来提取页面信息多多少少还是有些不方便的。 对于网页的节点来说,它可以定义 id、class 阅读全文
posted @ 2018-07-20 10:19 流年不见我 阅读(266) 评论(0) 推荐(0) 编辑