摘要: 解析库的使用: 之前是使用正则进行匹配,但是正则有个毛病,就是容易写错,我上一篇就写错了,查了老半天才查出来。 贼不方便 对于网页的节点来讲:有id,class或者是其他的属性。而且节点之间还有层次关系, ①XPath 规则: 示例如下: title[@lang='eng'] 这个就是一个xpath 阅读全文
posted @ 2018-08-12 21:07 人生苦短use,what? 阅读(196) 评论(0) 推荐(0) 编辑
摘要: 抓取猫眼电影排行: 目标:提取出猫眼电影排行前100位的相关内容。request比urllib好用,所以暂时使用request,目前采用正则表达式作为解析工具。 在下方还有分页。观察首页的网址为: 点击第二页: 发现后面均多出一个参数就是offset=10,并且每一次之后都是额外的增加10,所以初步 阅读全文
posted @ 2018-08-12 16:15 人生苦短use,what? 阅读(209) 评论(0) 推荐(0) 编辑