11 2018 档案
摘要:BeautifulSoup是python的html解析库,处理html非常方便 BeautifulSoup 安装 pip install beautifulsoup4 BeautifulSoup 配合的解析器 python 标准库解析器不需要第三方库,处理效率一般,lxml比较快,需要C语言库支持,
阅读全文
摘要:Xpath最初用来处理XML解析,同样适用于HTML文档处理。相比正则表达式更方便一些 Xpath基本规则 下面举例使用下 result.decode(‘utf-8’) 可以补全缺失的html格式字符串html.xpath(‘//*’)查找根节点下所有子孙节点html.xpath(‘//a[@cla
阅读全文
摘要:本文介绍如何结合前面讲解的基本知识,采用requests,正则表达式,cookies结合起来,做一次实战,抓取猫眼电影排名信息。 用requests写一个基本的爬虫 排行信息大致如下图网址链接为http://maoyan.com/board/4?offset=0我们通过点击查看源文件,可以看到网页信
阅读全文